Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Notas sobre FastContext de Microsoft y un pequeño experimento de SWE-QA con pistas de recuperación

El autor analiza el artículo de Microsoft sobre FastContext y presenta un enfoque alternativo que utiliza búsqueda semántica fuera de línea para reducir el uso de tokens en agentes de codificación. Al indexar los repositorios por adelantado y proporcionar pistas de rango de archivos a Claude Code, el método logró una reducción del 43,8% en el total de tokens mientras mantenía una calidad de solución equivalente en SWE-QA.

media r/LocalLLaMA · hace 21 h

Microsoft elimina el modelo FastContext de Hugging Face y GitHub

El modelo FastContext de Microsoft ha sido eliminado de sus canales oficiales de distribución, con tanto el repositorio de Hugging Face como la página asociada de GitHub ahora vacías o eliminadas.

media r/LocalLLaMA · hace 21 h

InternScience lanza Agents-A1, un modelo MoE de 35B con benchmarks increíbles

InternScience ha lanzado el modelo Agents-A1 en Hugging Face, con una arquitectura de Mezcla de Expertos (MoE) de 35 mil millones de parámetros. El lanzamiento incluye un informe técnico disponible en arXiv y se destaca por su rendimiento excepcional en benchmarks.

media r/LocalLLaMA · hace 21 h

Usuario de Reddit busca LLM local para tareas de sysadmin en Linux sin conexión

Un usuario de Reddit está pidiendo recomendaciones sobre un modelo de lenguaje grande local capaz de realizar tareas de administración del sistema, como leer registros para identificar y corregir problemas, completamente sin conexión.

media r/LocalLLaMA · hace 21 h

Tesla V100 16GB LLMs locales, benchmarks de NVLink individual y doble

El artículo detalla el rendimiento de los módulos Tesla V100-SXM2-16GB para ejecutar modelos de lenguaje grandes locales, destacando su alto ancho de banda HBM2 como un activo clave para la inferencia a pesar de carecer de operaciones tensoriales bf16 o int8.

media r/LocalLLaMA · hace 21 h

Consulta de usuario sobre el uso de PrimeIntellect-3.1

Un usuario de Reddit pregunta si alguien está utilizando actualmente el modelo PrimeIntellect-3.1 y compartiendo sus experiencias. La publicación hace referencia a la disponibilidad del modelo en Hugging Face pero no proporciona detalles técnicos ni métricas de rendimiento.

media r/LocalLLaMA · hace 21 h

Por qué Dario está en llamas: lección de la burbuja dotcom

El artículo sostiene que el estallido de las dotcom fue causado por empresas que carecían de fosos estructurales, no por un fallo del internet en sí mismo, y aplica esta lección a la estrategia de Dario Amodei para construir un monopolio de IA.

media r/LocalLLaMA · hace 21 h

La venganza del RAMpocalypse

Un usuario de Reddit pide ayuda para apoyar a Bathaee Dunne LLP en una demanda antimonopolio que involucra a Samsung, SK Hynix y Micron.

media r/LocalLLaMA · hace 22 h

Un usuario compara Gemma 4 31B y Qwen 3.6 27B/35B para scripting en Python

Un usuario de Reddit comparte su experiencia usando los modelos Gemma 4 31B y Qwen 3.6 en OpenCode para escribir scripts de Python para automatización de flujos de trabajo.

arxiv arXiv cs.CL · hace 22 h

REAR: Realineación de preferencias en tiempo de prueba mediante descomposición de recompensas

Los autores presentan REAR, un marco novel que extiende el escalado en tiempo de prueba (TTS) a la alineación de preferencias modelando la tarea como un problema de realineación. Este enfoque aborda la limitación de los métodos TTS existentes, que típicamente se restringen a dominios verificables como matemáticas y programación.

arxiv arXiv cs.CL · hace 22 h

OLIVE: Predicción de latentes aumentados por vista con reconstrucción de forma de onda para SSL de habla

Los autores proponen OLIVE, un marco de aprendizaje de representaciones de habla auto-supervisado que optimiza conjuntamente objetivos de análisis y síntesis mediante predicción de latentes enmascarados aumentados por vista y reconstrucción de forma de onda. Este enfoque unificado restringe las características tempranas del codificador para retener información a nivel de señal, mientras moldea las representaciones contextuales posteriores hacia la invarianza para un rendimiento robusto en tareas posteriores.

arxiv arXiv cs.CL · hace 22 h

MaDI-Bench: Un Benchmark de Integración de Datos de Extremo a Extremo

El Benchmark de Integración de Datos de Mannheim (MaDI-Bench) se presenta como el primer benchmark público para la integración de extremo a extremo de tablas relacionales, abordando la falta de herramientas de evaluación integrales en el campo. Cubre todos los pasos del proceso de integración, incluido el emparejamiento de esquemas, la normalización de valores, el bloqueo de entidades, el emparejamiento de entidades y la fusión de datos.

arxiv arXiv cs.CL · hace 22 h

Descubriendo la dinámica impulsada por la saliencia en la confianza del consumidor con simulación social generativa

Este artículo presenta ConsumerSim, un marco generativo que reconstruye la dinámica del Índice de Confianza del Consumidor (CCI) utilizando una población sintética calibrada con microdatos y diversas señales económicas. El modelo se ubica en el primer lugar entre las líneas base para la precisión de la reconstrucción en las series CCI de EE. UU., la UE27 y Japón, particularmente durante choques de alta saliencia.

arxiv arXiv cs.CL · hace 22 h

MOPD: Distilación On-Policy de Multi-Maestro para la Integración de Capacidades en el Post-Entrenamiento de LLM

Los autores proponen la Distilación On-Policy de Multi-Maestro (MOPD), un paradigma de post-entrenamiento diseñado para integrar las capacidades de múltiples maestros de aprendizaje por refuerzo específicos del dominio en un único modelo estudiante. Este enfoque elimina el sesgo de exposición y proporciona una señal de optimización densa al destilar a los maestros en el estudiante durante sus propias ejecuciones.

arxiv arXiv cs.CL · hace 22 h

RAPS-DA: Especialización por pares consciente del régimen para RAG robusto

Los autores proponen RAPS-DA, un marco de especialización por pares consciente del régimen diseñado para abordar la fragilidad de la generación aumentada con recuperación (RAG) cuando el contexto recuperado entra en conflicto con el conocimiento paramétrico del modelo. Este enfoque desentraña las señales de aprendizaje incompatibles entre diferentes regímenes de confiabilidad mediante el entrenamiento de pares especializados y la aplicación de supervisión dirigida.

arxiv arXiv cs.CL · hace 23 h

Ajuste fino de un modelo de incrustación invariante a la permutación para la recuperación de metadatos estructurados

El artículo demuestra que el orden de los campos impacta significativamente la calidad de la recuperación en sistemas de metadatos estructurados porque el ajuste fino estándar hace que los codificadores dependan de la posición absoluta en lugar de las etiquetas de campo. Para abordar esto, los autores proponen el Ajuste Fino Invariante a la Permutación (PI-FT), un método que serializa registros bajo órdenes de campo muestreadas aleatoriamente con dropout para vincular el significado a las etiquetas.

arxiv arXiv cs.CL · hace 23 h

Percepción de la situación: un primitivo necesario para la superinteligencia artificial

El artículo argumenta que los modelos de lenguaje actuales carecen de una capacidad crítica llamada "percepción de la situación", esencial para lograr la superinteligencia artificial. Esta habilidad faltante implica construir y actuar dentro de simulaciones internas de mundos posibles a lo largo del tiempo latente.

arxiv arXiv cs.CL · hace 23 h

SIMAX: Un marco escalable e interpretable para la simulación de diálogos clínico-paciente con múltiples fidelidades y anotaciones

Los investigadores desarrollaron SIMAX, un marco diseñado para generar datos de diálogo clínico controlados con anotaciones de comportamiento de referencia para abordar la escasez de datos de evaluación escalables para sistemas de codificación de comunicación impulsados por IA. El sistema crea interacciones simuladas entre médico y paciente a partir de escenarios predefinidos, perfiles y condiciones de voz, utilizando codebooks específicos para controlar la calidad general de la comunicación y las comportamientos contables.

arxiv arXiv cs.CL · hace 23 h

TRACE: Detección de Arrastre Conversacional Consciente de la Relación Temporal en Habla Diádica

Los investigadores presentan DyadEE, un conjunto de datos para detectar arrastre emocional en habla diádica, y proponen TRACE, un marco a nivel de ventana que modela estas interacciones como secuencias ordenadas de incrustaciones acústicas. El estudio demuestra que incorporar el contexto conversacional y la información de la relación mejora significativamente la precisión de la detección.

arxiv arXiv cs.CL · hace 23 h

Poller: ¿Son los LLM adecuados para evaluar la tarea de comprensión poética?

Este artículo presenta Poller (Poetry LLM Evaluator), un método novedoso que aprovecha los modelos de lenguaje grandes para evaluar la comprensión poética emulando el juicio humano mediante la interpretación de roles. El enfoque requiere que los LLM adopten la perspectiva del autor del poema, utilizando información detallada para cerrar la brecha entre la eficiencia automatizada y la experiencia humana.