Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 116

Los ingresos de Neocloud de SpaceX alcanzan los 28 mil millones de dólares anuales en medio de actualizaciones de OpenAI y Sakana

SpaceX ha asegurado su tercer acuerdo de alquiler de GPU con Reflection AI, elevando sus ingresos anualizados a aproximadamente 28 mil millones de dólares, basado en una tasa calculada de más de 10 dólares por hora para las GPUs Blackwell. Esta valoración es aproximadamente el doble que la de Coreweave, destacando el rápido crecimiento y el alto poder de fijación de precios en el mercado de infraestructura de IA.

media r/LocalLLaMA · hace 3 h

Kimi y GLM en código de vanguardia

Esta publicación de Reddit del usuario Charuru comparte una imagen titulada "Kimi y GLM en código de vanguardia." El contenido sirve como referencia visual o punto de partida para discutir el rendimiento de los modelos Kimi y GLM en tareas de programación.

media Hugging Face Forums · hace 3 h

Ainara: Asistente de IA local-first con memoria persistente y cambio de LLM

Ainara es una aplicación de escritorio local-first para el desarrollador de Dublín que funciona como un compañero de IA con memoria persistente entre sesiones. Permite a los usuarios cambiar entre modelos en la nube como Grok, Claude y Gemini, o modelos locales de Ollama, manteniendo el contexto sin problemas.

media Hugging Face Forums · hace 3 h

¿Experiencia práctica con sustitutos de ML para simulaciones CFD y FEA?

Un profesional de simulación ingenieril busca experiencias de despliegue en el mundo real de sustitutos de machine learning para reducir el costo de costosas ejecuciones de solucionadores de Dinámica de Fluidos Computacional (CFD) y Análisis de Elementos Finitos (FEA).

lab Meta AI / FAIR Blog · hace 3 h

Brain2Qwerty v2 alcanza 61% de precisión en palabras en la descodificación no invasiva de cerebro a texto

Los investigadores han lanzado Brain2Qwerty v2, una pipeline de IA no invasiva que descodifica oraciones en tiempo real a partir de registros de magnetoencefalografía (MEG) sin implantes quirúrgicos. El sistema alcanza una tasa de precisión de palabras del 61% en general y hasta el 78% para los mejores participantes, superando significativamente a métodos no invasivos anteriores.

media AI News (smol.ai) · hace 4 h

OpenAI expande Daybreak, Sakana lanza Fugu y GLM-5.2 gana tracción

Las noticias de IA de esta semana destacan la expansión de las iniciativas de ciberseguridad de OpenAI, el lanzamiento por parte de Sakana AI de un modelo de orquestación llamado Fugu y la creciente adopción del modelo de pesos abiertos GLM-5.2.

arxiv arXiv cs.LG · hace 4 h

Aprovechar las similitudes en los bandits de brazos múltiples

Este estudio investiga el aprendizaje en línea con conjuntos de acciones estructurados por similitud codificados mediante árboles enraizados, demostrando que la retroalimentación estándar de un solo punto no puede explotar estas similitudes. Los autores proponen algoritmos unificados para modelos de retroalimentación más ricos que reemplazan el número de acciones por un conteo efectivo consciente de la similitud para mejorar los límites de arrepentimiento.

arxiv arXiv cs.LG · hace 4 h

GRINQH: Jerarquía de Cuantificación Basada en Entrada Graduada para Generación Eficiente de LLM

Los investigadores proponen GRINQH, un marco de cuantización post-entrenamiento solo de pesos que acelera la decodificación de modelos de lenguaje grandes al unificar la cuantificación y la esparsificación. El método asigna dinámicamente los canales de peso a diferentes niveles de precisión basándose en las magnitudes de activación, abordando la naturaleza limitada por memoria de la etapa de decodificación.

media r/LocalLLaMA · hace 4 h

¿Hay algún buen uso para un servidor DDR3 de 192 GB en el mundo de los LLM?

Un usuario de Reddit pide ideas sobre cómo utilizar un antiguo servidor IBM System X V4 equipado con procesadores Xeon E5-2640 duales y 192 GB de RAM ECC DDR3 para modelos de lenguaje grandes.

media r/LocalLLaMA · hace 4 h

¿Cómo puedo mejorar el tiempo de respuesta almacenando en caché mi prompt del sistema?

Un usuario de r/LocalLLaMA pregunta cómo reducir el tiempo de procesamiento de aproximadamente 10 segundos requerido para un prompt del sistema de 7.1k tokens en cada nueva sesión al usar Ornith 35b con llama.cpp.

media r/LocalLLaMA · hace 4 h

¿Es alguna vez posible tener un LLM malicioso con una puerta trasera

Un usuario de Reddit propone la posibilidad de entrenar Modelos de Lenguaje Grande para reconocer una oración secreta específica que desbloquee comportamiento malicioso, planteando preocupaciones sobre riesgos de seguridad tanto para modelos cerrados como de código abierto.

media r/LocalLLaMA · hace 4 h

El lanzamiento oficial de Deepseek V4 se producirá a mediados de julio con cambios en los precios de la API

Una publicación de Reddit en la comunidad r/LocalLLaMA discute una imagen que sugiere que Deepseek V4 se lanzará oficialmente a mediados de julio e incluirá cambios en la estructura de precios de su API.

media r/LocalLLaMA · hace 4 h

Omitir bloques de transformador en tiempo de ejecución con llama.cpp

Una bifurcación de llama.cpp introduce una bandera --skip-layers que permite a los usuarios omitir bloques completos de transformador durante la carga, ofreciendo una alternativa o complemento a la cuantización para ajustar modelos en hardware limitado.

media r/LocalLLaMA · hace 4 h

Mejor forma de probar modelos en diferentes cuantizaciones antes de comprar GPUs

Un usuario de Reddit busca consejos sobre el método más efectivo para probar el rendimiento de modelos en varios niveles de cuantización antes de adquirir nuevo hardware.

github llama.cpp · hace 4 h

la versión b9840 de llama.cpp añade soporte para DeepSeek V4 y binarios multiplataforma

La versión b9840 de llama.cpp introduce soporte de conversión para el modelo DeepSeek V4, incluyendo manejo específico para la variante Pro. Esta actualización integra la nueva arquitectura en la biblioteca junto con varias optimizaciones internas y correcciones de errores.

arxiv arXiv cs.LG · hace 5 h

LoadKAN: Red de Kolmogorov-Arnold interpretable para la predicción de carga eléctrica

Este estudio presenta LoadKAN, un nuevo marco híbrido que combina un mecanismo de atención temporal aislado por características con una red de Kolmogorov-Arnold (KAN) para abordar la falta de interpretabilidad en la predicción de carga eléctrica basada en aprendizaje profundo.

arxiv arXiv cs.LG · hace 5 h

STAITUS: Desacoplar Apariencia y Pose para Seguimiento de Objetos en Vídeo

El artículo presenta STAITUS, un marco unificado para el seguimiento no supervisado de objetos en vídeo que aborda las limitaciones de las representaciones basadas en slots existentes al desacoplar explícitamente la apariencia de la pose geométrica. Al aplicar la alineación temporal únicamente en el espacio de apariencia y forzando la separación espacial dentro de los fotogramas, el método evita que los slots se fijen en fondos estáticos durante el movimiento.

arxiv arXiv cs.LG · hace 5 h

¿Qué sabe un modelo de lenguaje químico sobre las moléculas?

Este estudio aplica autoencoders dispersos a MolFormer para examinar mecánicamente cómo se construyen las representaciones moleculares a través de las capas, desafiando la suposición de que los modelos de lenguaje químicos solo aprenden la sintaxis superficial.

arxiv arXiv cs.LG · hace 5 h

SkyJEPA: Aprendizaje de modelos del mundo a largo plazo para el control de cuadricópteros con transferencia cero-shot de simulación a realidad

Este trabajo presenta SkyJEPA, un modelo al estilo JEPA diseñado para el control en tiempo real de cuadricópteros que aborda los problemas de amplificación de errores inherentes a la predicción autoregresiva a largo plazo. El enfoque combina un modelo de dinámica latente con un prober inspirado en la física para mapear latentes congelados a estados interpretables, permitiendo predicciones fundamentadas físicamente.

arxiv arXiv cs.LG · hace 5 h

Operadores efectivos colapsados para estructuras de orden superior

Los autores presentan los Operadores Efectivos Colapsados, un método que condensa los grados de libertad de orden superior en un único operador a nivel de vértice mediante la complementación de Schur de un Laplaciano graduado. Este enfoque produce un operador denso que codifica interacciones de largo alcance mediadas por topología y es aplicable a construcciones arbitrarias de orden superior.