Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 123

El Límite de Complejidad: Una Evaluación Multidominio del Razonamiento Secuencial Bajo Escalamiento de Profundidad

El Benchmark del Límite de Complejidad (CCB) evalúa cómo el razonamiento de los modelos de lenguaje se degrada a medida que aumentan los pasos secuenciales requeridos, fijando el contenido semántico mientras varía la profundidad de la tarea de 5 a 50. El estudio revela una decadencia geométrica consistente por paso en tres regímenes distintos: seguimiento de estado espacial fundamentado, manipulación abstracta de punteros simbólicos e inferencia relacional transitiva.

arxiv arXiv cs.CL · hace 5 h

Confianza fabricada: Cómo la consolidación de la memoria convierte los rumores en hechos seguros

La investigación demuestra que los sistemas de memoria de agentes LLM reescriben comentarios casuales o cautelosos como afirmaciones seguras y fechadas, que los agentes posteriormente tratan como hechos verificados. Este proceso permite que la información no verificada eluda las comprobaciones de seguridad sin requerir un atacante activo, ya que el agente responde a la confianza en la formulación en lugar de la atribución de la fuente.

arxiv arXiv cs.CL · hace 5 h

Decisiones deterministas para IA de alto riesgo

El artículo identifica el "sesgo de intervención" como un modo crítico de fallo en agentes educativos de asesoramiento con modelos de lenguaje grandes de cero disparos, donde recomiendan incorrectamente una acción a pesar de que las políticas oráculo mandan inacción. Utilizando el Conjunto de Datos de Analítica del Aprendizaje de la Open University, el estudio demuestra que GPT-4o de cero disparos presenta una tasa de falsos positivos de 43 puntos porcentuales al día 56, lo que conduce a aproximadamente 4.300 contactos innecesarios con asesores por ciclo para 10.000 estudiantes.

github llama.cpp · hace 5 h

Lanzamiento b9843 de llama.cpp con binarios para macOS, Linux y Windows

El proyecto llama.cpp ha publicado el lanzamiento b9843, proporcionando binarios precompilados para macOS, Linux, Android, Windows y openEuler en varias arquitecturas de hardware.

github LangGraph · hace 5 h

Notas de la versión 1.2.7 de LangGraph

Se ha lanzado LangGraph versión 1.2.7, introduciendo correcciones de errores y actualizaciones de dependencias para el ecosistema LangChain.

arxiv arXiv cs.LG · hace 6 h

Cuando falla el Top-1: Calibración de monitores LoRA para LMs de difusión enmascarados

Este estudio evalúa la efectividad de la concentración del argmax top-1 como advertencia de colapso durante el ajuste fino de modelos de lenguaje de difusión discreta (DLMs) utilizando Adaptación de Bajo Rango (LoRA). Los autores encuentran que esta métrica tiene una precisión cero porque se satura antes de que comience la optimización, fallando en detectar colapsos reales del entrenamiento.

arxiv arXiv cs.LG · hace 6 h

Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo

Los investigadores presentan el Programador de datos holístico (HDS), un nuevo marco de mezcla de datos en línea que aborda las limitaciones de los métodos existentes considerando la composición dinámica de datos desde múltiples dimensiones. HDS formula la programación de datos como un problema de aprendizaje por refuerzo utilizando el algoritmo Soft Actor-Critic y una función de recompensa multiobjetivo.

arxiv arXiv cs.LG · hace 6 h

Muestreador TR-CIE para Coincidencia de Flujo Discreto

Los investigadores proponen el muestreado de Extrapolación de Intensidad Acumulada con Reparametrización Temporal (TR-CIE) para mejorar la calidad del muestreo en la coincidencia de flujo discreto cuando las evaluaciones de función están restringidas. El método combina la reparametrización temporal basada en horarios con una regla de actualización de extrapolación de intensidad acumulada para mitigar la rigidez y mejorar la precisión de la aproximación.

arxiv arXiv cs.LG · hace 6 h

AsyncOPD: ¿Qué tan obsoleta puede ser la destilación on-policy?

Este artículo presenta AsyncOPD, una tubería de destilación on-policy completamente asíncrona que desacopla la generación de rollouts de las actualizaciones del aprendiz para aliviar los cuellos de botella de entrenamiento en el post-entrenamiento de modelos de lenguaje grandes. Los autores proporcionan el primer estudio sistemático de los efectos de la obsolescencia (staleness) en este contexto, demostrando que la divergencia KL directa ponderada por el maestro es robusta frente a rollouts obsoletos, mientras que la KL inversa ponderada por el estudiante es vulnerable.

media r/LocalLLaMA · hace 6 h

Modelo de imágenes Krea-2-Turbo - Fácil de ser completamente sin censura, pero también puede EDITAR imágenes

El modelo Krea-2-Turbo genera imágenes de alta calidad en aproximadamente tres segundos y admite la edición de imágenes mediante enmascaramiento a pesar de ser una arquitectura de texto a imagen.

blog Simon Willison · hace 6 h

Extractor de tablas HTML

El extractor de tablas HTML es una herramienta de conversión por pegado que acepta texto enriquecido que contiene tablas HTML incrustadas y las convierte a varios formatos. Admite la salida de las tablas detectadas como HTML, Markdown, CSV, TSV o JSON.

media Hugging Face Forums · hace 6 h

Guía bilingüe de código abierto sobre mecánica de Transformers publicada

Se ha publicado una guía bilingüe de código abierto en inglés y español que detalla el funcionamiento interno de los Transformers. El recurso cubre las matemáticas exactas y la mecánica detrás del colapso de atención y la compresión de KV-cache.

media Hugging Face Forums · hace 6 h

[Investigación] De la Geometría Funcional a la Gramática Dinámica: Nuevas Auditorías de LIMEN (V23–V24) en 7 Arquitecturas

El proyecto de investigación independiente LIMEN analiza la dinámica interna de siete modelos Transformer de código abierto, revelando que la ambigüedad semántica altera la geometría de la trayectoria y descubriendo una gramática dinámica universal a través de las arquitecturas.

lab Microsoft Research Blog · hace 6 h

Memora: Una representación de memoria armónica que equilibra abstracción y especificidad

Microsoft Research presenta Memora, un marco de memoria agnóstica escalable diseñado para equilibrar la abstracción y la especificidad en tareas de IA a largo plazo. El sistema desacopla el contenido rico de la memoria de las estructuras de recuperación ligeras, estableciendo nuevos resultados de vanguardia en benchmarks mientras utiliza hasta un 98% menos de tokens de contexto.

arxiv arXiv cs.LG · hace 7 h

Generación de video autónoma con controlabilidad contrafáctica para modelos del mundo autoevolutivos

El artículo sostiene que los modelos actuales de generación de video aprenden solo modelos del mundo espaciotemporales parciales e implícitos, en lugar de completamente fundamentados o controlables. Afirma que la realismo predictivo por sí solo es insuficiente para crear agentes físicos porque estos modelos a menudo fallan al identificar variables controlables y restricciones de encarnación.

arxiv arXiv cs.LG · hace 7 h

BehaviorBench: Evaluación de modelos fundamentales para tareas de ciencias del comportamiento

Los autores presentan BehaviorBench, un benchmark integral diseñado para evaluar modelos fundamentales en diversas tareas y poblaciones de ciencias del comportamiento. El estudio evalúa cuatro capacidades principales—predicción de comportamiento, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimiento conductual—tanto a nivel individual como distribucional.

arxiv arXiv cs.LG · hace 7 h

Una base paninian para el procesamiento de lenguas indias

El artículo sostiene que la infraestructura de procesamiento del lenguaje natural para los más de mil millones de hablantes de lenguas indias está fragmentada debido a la falta de cimientos estructurales compartidos. Propone aprovechar la arquitectura morfosintáctica formalizada en el Astādhyāyī de Pānini como un marco computacional unificador para mejorar la precisión y la eficiencia de los datos.

arxiv arXiv cs.LG · hace 7 h

Modelos de Transformer ligeros para detección de fallos en dispositivo: Un estudio de referencia sobre implementación con recursos limitados

Este estudio compara métodos tradicionales de aprendizaje automático frente a arquitecturas de transformer ligeras para la detección binaria de fallos en tres conjuntos de datos públicos, evaluando los compromisos entre precisión, tamaño del modelo y latencia. La investigación evalúa el rendimiento de clasificación utilizando F1-score y AUC, mientras también prueba la cuantización dinámica INT8 y un pipeline de inferencia adaptativo en dos etapas para optimizar la implementación en hardware con recursos limitados.

arxiv arXiv cs.LG · hace 7 h

Proyecto Ariadne: Generación de rutas condicionada por prompt para la planificación de síntesis

Los investigadores presentan Ariadne, un modelo solo de decodificador que reformula la planificación retrosintética como generación de secuencia condicionada por prompt, permitiendo que las moléculas objetivo, las restricciones y las rutas se representen en una sola secuencia. Este enfoque elimina la necesidad de modelos separados adaptados a especificaciones de planificación específicas.

arxiv arXiv cs.LG · hace 7 h

Evaluación automatizada de gráficos de residuos con el paquete R autovi y la aplicación Shiny autovi.web

El artículo presenta un paquete R y una aplicación Shiny diseñados para automatizar la evaluación visual de los gráficos de residuos de modelos lineales, abordando los problemas de escalabilidad y consistencia inherentes a la evaluación manual.