Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Alineación de LLM usando retroalimentación implícita del usuario

Un nuevo conjunto de datos, IFLLM, recopila trayectorias del ratón y datos de fijación ocular de usuarios que interactúan con LLMs. Muestra que la retroalimentación implícita mejora significativamente la alineación de LLMs, aumentando la precisión del modelo de recompensa basado en texto del 55% al 64% y casi triplicando las mejoras en la calidad de respuesta después del entrenamiento DPO en ocho LLMs.

arxiv arXiv cs.CL · hace 2 h

H-RePlan: Recuperación jerárquica para sistemas de agentes multi-dispositivo

H-RePlan introduce un marco de replanificación jerárquica que separa la recuperación de estrategias locales del dispositivo de la replanificación global del orquestador. Supera a las líneas base existentes al lograr una mayor tasa de finalización y adherencia a las instrucciones, con menor costo en tokens, mediante una recuperación consciente del alcance en sistemas de agentes multi-dispositivo.

arxiv arXiv cs.CL · hace 2 h

StylisticBias: Las pistas visuales impulsan la mayoría de los sesgos sociales en MLLMs

StylisticBias introduce una prueba controlada para evaluar el sesgo social a nivel de atributos en modelos de lenguaje multimodales grandes. Revela que la edad y el tipo de cuerpo dominan los efectos a nivel de identidad, mientras que el estilo de moda y 15 atributos visuales clave impulsan la mayoría del sesgo, representando casi el 80% de la variación. La prueba destaca que los juicios del modelo son más sensibles a las pistas relacionadas con la apariencia, especialmente en contextos socioeconómicos y basados en estilo.

media r/LocalLLaMA · hace 2 h

Experimento de viabilidad con Tesla P40 y diseño de refrigeración mejorado

Un usuario ha demostrado que las GPUs Tesla P40 pueden modificarse a una configuración de 8+6 pines y utilizarse con disipadores estándar de la 1080 TI. Diseñó un deflector de flujo de aire 2-1-2 que permite un rendimiento sostenido estable de 120-130W, previene el apagado térmico y reduce el ruido a aproximadamente 42dB, mejorando significativamente sobre las opciones de refrigeración existentes.

arxiv arXiv cs.CL · hace 2 h

El Análisis de Sentimiento Pierde Resultados Clave del Cliente

Un estudio de 70.450 conversaciones de soporte encontró que el análisis de sentimiento captura pobremente la satisfacción del cliente, con estimaciones de satisfacción basadas en GPT-5.4 correlacionándose 0.47 con las calificaciones frente a los 0.36 del sentimiento. El modelo también reveló que en el 44% de las conversaciones el tono y la satisfacción divergen, exponiendo 'fricción tolerada'—clientes satisfechos que aún reportan problemas solucionables—invisibles para el análisis de sentimiento.

arxiv arXiv cs.CL · hace 2 h

TerraMARS: Pipeline de modelo de lenguaje pequeño para literatura sobre terraformación de Marte

TerraMARS es un pipeline de extremo a extremo que utiliza un modelo de lenguaje pequeño adaptado al dominio para extraer información estructurada de la literatura científica sobre Marte. Convierte texto no estructurado en formato JSON y soporta preguntas y respuestas relacionadas con la terraformación de Marte, permitiendo su integración en modelos de habitabilidad y aplicaciones de gemelo digital. El pipeline utiliza Google Gemma 3 1B ajustado finamente con QLoRA en conjuntos de datos específicos de Marte, aunque se necesita más trabajo para mejorar la precisión y la consistencia factual.

arxiv arXiv cs.CL · hace 2 h

NEST: Conjunto de datos para estructuras de eventos narrativos en videos largos

NEST presenta un conjunto de datos de 1005 películas completas, cada una anotada con 102 eventos narrativos multimodales fundamentados en contenido visual, diálogo y audio. El conjunto de datos captura relaciones de eventos como orden temporal, jerarquía y dependencias a largo alcance, con tareas de referencia que muestran bajo rendimiento en la detección y localización de eventos, y mayor rendimiento en la extracción de relaciones de eventos después del ajuste fino.

arxiv arXiv cs.CL · hace 2 h

FineREX: NER-RE ajustado para grafos de conocimiento sobre tráfico humano

FineREX es una pipeline de grafo de conocimiento específica del dominio que utiliza un LLM ajustado para la extracción de entidades nominales y relaciones. Supera a los modelos de propósito general en un 15,50% en F1-score de entidad y en un 31,46% en F1-score de relación, reduciendo el ruido legal casi a la mitad y la duplicación de nodos del 17,78% al 11.-17%. El sistema también reduce el tiempo de procesamiento de extremo a extremo en un 50,0% eliminando pasos redundantes.

arxiv arXiv cs.CL · hace 2 h

Presentación de P-CHR AUC y CRR para caché semántico

Introducimos el Índice de Precisión-Caché Hit Ratio (P-CHR) AUC y la Tasa de Retención de Calibración (CRR) para abordar la brecha de calibración en el caché semántico. Estas métricas evalúan la precisión a través de los niveles de utilización del caché y miden cómo persiste la calidad del ranking offline en el despliegue. Nuestro análisis muestra que la brecha está impulsada por los objetivos de entrenamiento, no por la escala de datos, y la calibración post-hoc solo la resuelve parcialmente.

arxiv arXiv cs.CL · hace 2 h

NRITYAM: Benchmark para la comprensión cultural en la danza

NRITYAM es un benchmark multilingüe con 9,260 pares de pregunta-respuesta en 12 idiomas, diseñado para evaluar la comprensión cultural de los modelos de lenguaje sobre las tradiciones de danza globales. Desarrollado a través de la colaboración con artistas y hablantes nativos de danza, ofrece una evaluación integral de la capacidad de la IA para comprender las artes escénicas tradicionales en diversos contextos socioculturales.

arxiv arXiv cs.CL · hace 2 h

DPO Secuencial Muestra Impacto Variable de Preferencia en Distintos Entornos

Un estudio de la Optimización Directa de Preferencia secuencial encuentra que el entrenamiento posterior no degrada uniformemente las preferencias aprendidas anteriormente. El efecto varía según la relación del objetivo, la intensidad de la señal y el orden de entrenamiento, oscilando entre degradación parcial y transferencia positiva. El análisis a nivel de pares revela cambios heterogéneos, con pares de preferencia de alta confianza que a veces mejoran a pesar de la estabilidad de las métricas agregadas.

arxiv arXiv cs.CL · hace 2 h

Evaluación de sistemas de revisión agénticos para investigación asistida por IA

Un estudio evalúa cuatro sistemas de revisión de IA en seis modelos de lenguaje, encontrando que OpenAIReview con GPT-5.5 alcanza una precisión del 83.0% al igualar la calidad del artículo con señales externas y detecta el 71.6% de los errores inyectados. La retroalimentación de usuarios reales muestra un sentimiento positivo, con una proporción de votos de 1.44 a 1, aunque los falsos positivos y las pequeñas observaciones siguen siendo comunes.

arxiv arXiv cs.CL · hace 2 h

Aprendizaje de currículo bayesiano en variedades latentes de LLM

Manifold Bandits introduce el Currículo de Variedad Bayesiana (BMC), un marco que modela el muestreo de problemas como un problema estructurado de bandits en el espacio latente de los LLM. BMC organiza las tareas en un árbol jerárquico y utiliza aprendizaje bayesiano para guiar el muestreo, revelando compensaciones entre la señal de aprendizaje, la diversidad de tareas y la relevancia de la evaluación. Priorizar únicamente la dificultad no logra un buen rendimiento en tareas posteriores, subrayando la necesidad de estructura y muestreo consciente del tipo.

arxiv arXiv cs.CL · hace 2 h

AgentFinVQA: QA de gráficos financieros auditable y en las instalaciones

AgentFinVQA introduce una canalización multi-agente para la respuesta a preguntas sobre gráficos financieros que garantiza la auditabilidad y la capacidad de implementación en las instalaciones sin una pérdida significativa de precisión. Supera a los modelos base en +7.68 pp utilizando un backbone propietario y en +4.84 pp con Qwen3.6-27B-FP8 de pesos abiertos, mientras proporciona una señal de confianza a través de la salida del verificador que mejora el enrutamiento de la revisión humana.

arxiv arXiv cs.CL · hace 2 h

CombEval: Benchmark para el conteo combinatorio en LLMs

CombEval es un benchmark dinámico que genera problemas de conteo en lenguaje natural con respuestas verificadas usando especificaciones Cofola tipadas. Evalúa 11 modelos de lenguaje grandes y revela fallos persistentes al manejar objetos ordenados, elementos indistinguibles, restricciones posicionales y dependencias anidadas, con errores arraigados en la interpretación de restricciones y principios de conteo.

arxiv arXiv cs.CL · hace 2 h

Verificación selectiva para el razonamiento consciente del presupuesto

Sevra, un controlador de la capa de servicio, verifica selectivamente las respuestas para mejorar la precisión y reducir el uso de tokens. En \mathfive, alcanza una precisión del 76.3% con un 26.8% menos de tokens posteriores a la generación y reduce a la mitad los cambios dañinos, mientras que en \gsm verifica solo el 3.0% de los ejemplos, aumentando la precisión al 94.5% y reduciendo los tokens de verificación en un 91.2%. El estudio muestra que la longitud inicial de la resolución y las necesidades de control explícito determinan la estrategia óptima de verificación.