Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 76

arxiv arXiv cs.AI · hace 2 h

Variabilidad en el descubrimiento de circuitos de LLM: causas y mitigaciones

Este artículo analiza la variabilidad en el descubrimiento de circuitos para modelos de lenguaje grandes, identificando remuestreo, reformulación y variabilidad por muestra. Muestra que CEAP reduce la variabilidad por remuestreo y argumenta que la variabilidad por reformulación proviene de plantillas de prompt que activan diferentes circuitos, lo que implica que los LLM pueden ser inherentemente difíciles de controlar. El estudio también encuentra que la dispersión no resuelve estos problemas y que la variabilidad por muestra es en gran medida benigna debido a la escalación de contribución selectiva que afecta las puntuaciones de infidelidad.

arxiv arXiv cs.AI · hace 2 h

MA-SBI: Inference basada en simulación sin calibración mediante guía de canal lateral

MA-SBI introduce un marco de inferencia basada en simulación sin calibración que utiliza texto de canal lateral, como etiquetas de régimen o instrucciones, para corregir la mala especificación del simulador. Emplea un corrector aprendido para aplicar desplazamientos en el espacio de observaciones antes de la inferencia posterior, sin necesidad de pares de parámetros de referencia ni reentrenamiento. En benchmarks de ocultación de calibración, MA-SBI iguala la posterior oracle solo con texto, superando a RoPE con datos limitados y mostrando robustez en conjuntos de datos reales de epidemiología y ciencias cognitivas.

arxiv arXiv cs.AI · hace 2 h

RAID: Difusión de grafos semánticos para pronóstico real en inicio en frío y multilingüe

RAID introduce un marco que utiliza recuperación semántica impulsada por metadatos y difusión condicionada por grafos para abordar escenarios reales de inicio en frío. Supera a los modelos base y líneas base en precisión de pronóstico y cobertura de intervalos, reduce significativamente la latencia de inferencia y permite transferencia cruzalingüe zero-shot mediante un espacio semántico compartido.

arxiv arXiv cs.AI · hace 2 h

Taxonomía causal-unificada de origen para desplazamientos distribucionales en RL

Este artículo presenta una taxonomía unificada de origen causal que clasifica los desplazamientos distribucionales en el aprendizaje por refuerzo en fuentes internas, impulsadas por el agente, y externas, impulsadas por el entorno. Unifica la generalización ID/OOD y los entornos no estacionarios al encuadrar los desplazamientos como cambios estructurados en el proceso de interacción agente-entorno, utilizando una descomposición POMDP y una perspectiva de frontera de tiempo desplazado.

arxiv arXiv cs.AI · hace 2 h

CrossMaps: Mapeo semántico consciente de la confianza para la navegación de rovers

CrossMaps es una tubería de mapeo semántico en tiempo real y consciente de la confianza que utiliza datos RGB-D para crear mapas consultables por lenguaje. Integra incrustaciones CLIP multi-escala con una arquitectura de doble memoria—Memoria a Corto Plazo y Memoria a Largo Plazo—para agregar observaciones visuales y promover celdas coherentes y confiables como puntos de referencia semánticos persistentes. El sistema permite consultas en lenguaje natural para guiar la navegación del rover mediante mapas de calor semánticos.

arxiv arXiv cs.AI · hace 2 h

CircuitLasso: Aprendizaje de circuitos escalable para la interpretabilidad de LLM

CircuitLasso propone un método escalable para aprender circuitos dispersos en modelos de lenguaje grandes utilizando regresión lineal dispersa. Logra una precisión estructural comparable a los métodos basados en intervención de última generación con un costo computacional significativamente menor, mientras permite el descubrimiento eficiente de la propagación de características semánticas y mejora el rendimiento en tareas de generalización de dominio con un costo reducido.

arxiv arXiv cs.AI · hace 2 h

Modelo causal de la teoría de la mente en conflictos de IA

Este artículo propone un modelo causal estructural utilizando un grafo acíclico dirigido para definir cuándo está causalmente justificado el compromiso con la Teoría de la Mente en conflictos humano-máquina. El modelo identifica cuatro condiciones exógenas, cinco mediadores y tres vías causales para la activación de ToM, con la precisión epistémica como resultado principal. Ofrece un marco racional-recursos para el razonamiento social de la IA, validado mediante simulaciones y estudios humano-máquina.

media r/LocalLLaMA · hace 2 h

Clark Labs lanza el modelo de texto a imagen Sana 1.6B cuantizado en ternario

Clark Labs ha lanzado una versión comprimida del transformador de texto a imagen Sana 1.6B, cuantificado con pesos ternarios a aproximadamente 1.85 bits por peso. Esta compresión da como resultado un modelo que es 8.6 veces más pequeño que la versión estándar FP16 mientras mantiene una calidad cercana a la de FP16.

arxiv arXiv cs.AI · hace 2 h

Marco causal para auditar divulgaciones de datos sintéticos

Un nuevo marco de auditoría empírica detecta y clasifica las divulgaciones de datos sintéticos como verdaderas o fantasma. Distingue reproducciones directas de datos de usuario de la generación incidental sin acceso ni entrenamiento del modelo, utilizando únicamente la salida sintética y un conjunto de control retenido. El método proporciona límites más ajustados de filtración de privacidad que los enfoques anteriores y requiere significativamente menos recursos computacionales.

arxiv arXiv cs.AI · hace 2 h

Degradación de baja tasa de fotogramas en códecs de audio neuronales

Un precipicio de calidad a 6.25 Hz en códecs de audio neuronales es causado por la exposición insuficiente de tokens de entrenamiento debido a una duración fija del clip. Corregir esta configuración de entrenamiento permite una degradación suave de WER hasta 3.1 Hz y 1.6 Hz, lo que indica que la eficiencia a baja tasa de fotogramas es más alcanzable de lo que se pensaba anteriormente.

arxiv arXiv cs.AI · hace 2 h

Las reseñas textuales tienen un impacto limitado en los modelos de recomendación

Un estudio descubre que, aunque las señales de reseñas textuales pueden fusionarse con datos colaborativos, su contribución marginal sigue siendo limitada en comparación con las señales colaborativas en modelos de factorización de matrices. Los mecanismos de fusión adaptativa y atención cruzada mejoran la flexibilidad de la representación, pero no aumentan significativamente el rendimiento en los conjuntos de datos.

arxiv arXiv cs.AI · hace 2 h

La documentación de investigación en IA mejora durante una década

El análisis de 56.800 artículos de conferencias de IA muestra que las prácticas de documentación mejoraron entre 2014 y 2024. Los artículos que compartían código y datos aumentaron del 11% al 64%, y la reproducibilidad estimada subió del 28% al 64%. Estas mejoras preceden a las listas de verificación formales de reproducibilidad, lo que indica un cambio más amplio hacia la ciencia abierta.

arxiv arXiv cs.AI · hace 2 h

Marco de LLM Agente para Clasificación de Código HTS

Se propone un marco de modelo de lenguaje grande agente basado en consenso para la clasificación precisa de códigos del Arancel Armonizado de 10 dígitos en la logística marítima canadiense. Evaluado en 3,300 registros de productos etiquetados por expertos, el marco muestra que la clasificación HTS de gran detalle sigue siendo un desafío para los LLM avanzados, destacando la necesidad de flujos de trabajo fundamentados en evidencia, conscientes de la incertidumbre y con humanos en el bucle.

arxiv arXiv cs.AI · hace 2 h

Progreso habilitado por IA en Menús Estables de Bienes Públicos

Los experimentos sobre los 'Menús Estables de Bienes Públicos' de EC 2025 muestran que las indicaciones de intuición humana mejoran el rendimiento del LLM y las interacciones multi-turno potencian pasos ambiciosos. Sin embargo, al compararse con un estudiante de primer año de doctorado que utiliza un manuscrito no publicado, se encuentra que el LLM es ligeramente menos efectivo.

arxiv arXiv cs.AI · hace 2 h

PACT: Deliberación de Modelos de Lenguaje Pequeños para Aprendizaje por Refuerzo Reactivo

PACT combina una política de RL reactiva con un Modelo de Lenguaje Pequeño (SLM) de 2B parámetros para generar y validar planes de acción. El plan SLM se ejecuta directamente si se verifica como seguro, factible y completo, omitiendo la política de RL. PACT supera a las líneas base en tres entornos FrozenLake de dificultad creciente.

arxiv arXiv cs.AI · hace 2 h

ActiveSAM: Segmentación de vocabulario abierto rápida y precisa

ActiveSAM es un marco sin entrenamiento y zero-shot que mejora SAM 3 para la segmentación semántica de vocabulario abierto identificando un conjunto activo de clases condicionado por imagen. Mejora el equilibrio entre velocidad y precisión, superando a SegEarth-OV3 en +1.4 mIoU en promedio y ejecutándose hasta 5.5 veces más rápido en conjuntos de datos de gran vocabulario, con una fuerte robustez bajo corrupción de imágenes.

arxiv arXiv cs.AI · hace 2 h

Las auditorías bayesianas revelan plazos inconsistentes en la evaluación de IA

Los archivos públicos de evaluación de IA muestran que un único resultado terminal puede surgir de dos historias pre-terminales distintas, con tiempos estimados para alcanzar el 95% de los techos de rendimiento en 23.03 o 75.13. Un modelo de frontera consciente de la selección de candidatos falla en la recuperación sintética y la calibración de incertidumbre, y es rechazado por puertas de auditoría fijas. Un protocolo de archivo y adjudicación verifica los límites temporales y refuta las afirmaciones de frontera no respaldadas.

arxiv arXiv cs.AI · hace 2 h

TuneJury: Métrica abierta para la alineación de preferencias en la generación de música

TuneJury es un modelo de recompensa por pares a nivel de instancia que predice puntuaciones de preferencia musical a partir de indicaciones de texto y clips de audio. Está entrenado con datos diversos de preferencia humana y demuestra una fuerte capacidad de generalización, con calibración de anclaje que permite una alineación posterior eficiente para sistemas de generación de música.

arxiv arXiv cs.AI · hace 2 h

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compactación consciente de la ingestión y evicción consciente del ciclo de vida para preservar la continuidad de la caché de prompts y minimizar la huella de tokens sin introducir desajustes de prefijo.

arxiv arXiv cs.AI · hace 2 h

FusionRS: Primer conjunto de datos a gran escala de teledetección RGB-infrarrojo

FusionRS presenta el primer conjunto de datos a gran escala RGB-infrarrojo-texto para la modelización de visión-lenguaje en teledetección. Alinea imágenes RGB e infrarrojas con descripciones conscientes del infrarrojo, permitiendo modelos de base de visión-lenguaje bimodales. Los experimentos muestran una mejora en la alineación RGB-IR, recuperación y generación de descripciones, con estudios de ablación que confirman el papel crítico de la supervisión textual específica de la modalidad.