Todos los artículos
arxiv arXiv cs.CL · hace 2 h

El Análisis de Sentimiento Pierde Resultados Clave del Cliente

Un estudio de 70.450 conversaciones de soporte encontró que el análisis de sentimiento captura pobremente la satisfacción del cliente, con estimaciones de satisfacción basadas en GPT-5.4 correlacionándose 0.47 con las calificaciones frente a los 0.36 del sentimiento. El modelo también reveló que en el 44% de las conversaciones el tono y la satisfacción divergen, exponiendo 'fricción tolerada'—clientes satisfechos que aún reportan problemas solucionables—invisibles para el análisis de sentimiento.

arxiv arXiv cs.CL · hace 2 h

TerraMARS: Pipeline de modelo de lenguaje pequeño para literatura sobre terraformación de Marte

TerraMARS es un pipeline de extremo a extremo que utiliza un modelo de lenguaje pequeño adaptado al dominio para extraer información estructurada de la literatura científica sobre Marte. Convierte texto no estructurado en formato JSON y soporta preguntas y respuestas relacionadas con la terraformación de Marte, permitiendo su integración en modelos de habitabilidad y aplicaciones de gemelo digital. El pipeline utiliza Google Gemma 3 1B ajustado finamente con QLoRA en conjuntos de datos específicos de Marte, aunque se necesita más trabajo para mejorar la precisión y la consistencia factual.

arxiv arXiv cs.CL · hace 2 h

NEST: Conjunto de datos para estructuras de eventos narrativos en videos largos

NEST presenta un conjunto de datos de 1005 películas completas, cada una anotada con 102 eventos narrativos multimodales fundamentados en contenido visual, diálogo y audio. El conjunto de datos captura relaciones de eventos como orden temporal, jerarquía y dependencias a largo alcance, con tareas de referencia que muestran bajo rendimiento en la detección y localización de eventos, y mayor rendimiento en la extracción de relaciones de eventos después del ajuste fino.

arxiv arXiv cs.CL · hace 2 h

FineREX: NER-RE ajustado para grafos de conocimiento sobre tráfico humano

FineREX es una pipeline de grafo de conocimiento específica del dominio que utiliza un LLM ajustado para la extracción de entidades nominales y relaciones. Supera a los modelos de propósito general en un 15,50% en F1-score de entidad y en un 31,46% en F1-score de relación, reduciendo el ruido legal casi a la mitad y la duplicación de nodos del 17,78% al 11.-17%. El sistema también reduce el tiempo de procesamiento de extremo a extremo en un 50,0% eliminando pasos redundantes.

arxiv arXiv cs.CL · hace 2 h

Presentación de P-CHR AUC y CRR para caché semántico

Introducimos el Índice de Precisión-Caché Hit Ratio (P-CHR) AUC y la Tasa de Retención de Calibración (CRR) para abordar la brecha de calibración en el caché semántico. Estas métricas evalúan la precisión a través de los niveles de utilización del caché y miden cómo persiste la calidad del ranking offline en el despliegue. Nuestro análisis muestra que la brecha está impulsada por los objetivos de entrenamiento, no por la escala de datos, y la calibración post-hoc solo la resuelve parcialmente.

arxiv arXiv cs.CL · hace 2 h

NRITYAM: Benchmark para la comprensión cultural en la danza

NRITYAM es un benchmark multilingüe con 9,260 pares de pregunta-respuesta en 12 idiomas, diseñado para evaluar la comprensión cultural de los modelos de lenguaje sobre las tradiciones de danza globales. Desarrollado a través de la colaboración con artistas y hablantes nativos de danza, ofrece una evaluación integral de la capacidad de la IA para comprender las artes escénicas tradicionales en diversos contextos socioculturales.

arxiv arXiv cs.CL · hace 2 h

DPO Secuencial Muestra Impacto Variable de Preferencia en Distintos Entornos

Un estudio de la Optimización Directa de Preferencia secuencial encuentra que el entrenamiento posterior no degrada uniformemente las preferencias aprendidas anteriormente. El efecto varía según la relación del objetivo, la intensidad de la señal y el orden de entrenamiento, oscilando entre degradación parcial y transferencia positiva. El análisis a nivel de pares revela cambios heterogéneos, con pares de preferencia de alta confianza que a veces mejoran a pesar de la estabilidad de las métricas agregadas.

arxiv arXiv cs.CL · hace 2 h

Evaluación de sistemas de revisión agénticos para investigación asistida por IA

Un estudio evalúa cuatro sistemas de revisión de IA en seis modelos de lenguaje, encontrando que OpenAIReview con GPT-5.5 alcanza una precisión del 83.0% al igualar la calidad del artículo con señales externas y detecta el 71.6% de los errores inyectados. La retroalimentación de usuarios reales muestra un sentimiento positivo, con una proporción de votos de 1.44 a 1, aunque los falsos positivos y las pequeñas observaciones siguen siendo comunes.

arxiv arXiv cs.CL · hace 2 h

Aprendizaje de currículo bayesiano en variedades latentes de LLM

Manifold Bandits introduce el Currículo de Variedad Bayesiana (BMC), un marco que modela el muestreo de problemas como un problema estructurado de bandits en el espacio latente de los LLM. BMC organiza las tareas en un árbol jerárquico y utiliza aprendizaje bayesiano para guiar el muestreo, revelando compensaciones entre la señal de aprendizaje, la diversidad de tareas y la relevancia de la evaluación. Priorizar únicamente la dificultad no logra un buen rendimiento en tareas posteriores, subrayando la necesidad de estructura y muestreo consciente del tipo.

arxiv arXiv cs.CL · hace 2 h

AgentFinVQA: QA de gráficos financieros auditable y en las instalaciones

AgentFinVQA introduce una canalización multi-agente para la respuesta a preguntas sobre gráficos financieros que garantiza la auditabilidad y la capacidad de implementación en las instalaciones sin una pérdida significativa de precisión. Supera a los modelos base en +7.68 pp utilizando un backbone propietario y en +4.84 pp con Qwen3.6-27B-FP8 de pesos abiertos, mientras proporciona una señal de confianza a través de la salida del verificador que mejora el enrutamiento de la revisión humana.

arxiv arXiv cs.CL · hace 2 h

CombEval: Benchmark para el conteo combinatorio en LLMs

CombEval es un benchmark dinámico que genera problemas de conteo en lenguaje natural con respuestas verificadas usando especificaciones Cofola tipadas. Evalúa 11 modelos de lenguaje grandes y revela fallos persistentes al manejar objetos ordenados, elementos indistinguibles, restricciones posicionales y dependencias anidadas, con errores arraigados en la interpretación de restricciones y principios de conteo.

arxiv arXiv cs.CL · hace 2 h

Verificación selectiva para el razonamiento consciente del presupuesto

Sevra, un controlador de la capa de servicio, verifica selectivamente las respuestas para mejorar la precisión y reducir el uso de tokens. En \mathfive, alcanza una precisión del 76.3% con un 26.8% menos de tokens posteriores a la generación y reduce a la mitad los cambios dañinos, mientras que en \gsm verifica solo el 3.0% de los ejemplos, aumentando la precisión al 94.5% y reduciendo los tokens de verificación en un 91.2%. El estudio muestra que la longitud inicial de la resolución y las necesidades de control explícito determinan la estrategia óptima de verificación.

arxiv arXiv cs.CL · hace 2 h

Los Clusters Semánticos Pre-entrenan la Máquina Tsetlin para Interpretabilidad

Un nuevo marco pre-entrena la Máquina Tsetlin utilizando clusters semánticos de modelos de lenguaje, evitando embeddings. El método agrupa muestras de texto en clusters coherentes mediante K-means o Top2Vec, luego utiliza pares cluster-muestra para entrenar una TM sin negación con retroalimentación de Tipo I. Los resultados muestran un rendimiento superior en cinco conjuntos de datos, igualando la precisión a nivel de BERT mientras mantiene la interpretabilidad completa.

arxiv arXiv cs.CL · hace 2 h

Marco de Inteligencia Semántica para el Discurso Público Nigeriano

El Marco de Inteligencia Semántica (MIF) introduce un esquema de nueve dimensiones para analizar el discurso público nigeriano, abordando la falla de contexto en los sistemas de IA. Un conjunto de datos de calibración de 30 elementos muestra que la indicación informada por el esquema mejora la precisión de la clasificación del registro desde 33.3% hasta 73.3% y aumenta la Puntuación Compuesta de Inteligencia Semántica desde 73.2 hasta 78.6.

arxiv arXiv cs.CL · hace 2 h

JAMER: Conjunto de datos y benchmark de marco de código a nivel de proyecto

JAMER presenta JamSet y JamBench, el primer conjunto de datos y benchmark de código de juegos a nivel de proyecto en un motor de juegos profesional. Construido a partir de 8,133 proyectos verificados de Game Jam, permite una evaluación determinista y revela un abismo de capacidad en los modelos de IA a medida que aumenta la escala del proyecto, con tasas de aprobación en tiempo de ejecución que caen de 80.4% a 5.7%.

arxiv arXiv cs.CL · hace 2 h

Ley de Ventana de Control para la Dirección de Neuronas Individuales en Modelos de Lenguaje

Un nuevo marco define cuándo las intervenciones de neuronas individuales controlan coherentemente los comportamientos del modelo sin colapso de salida. La ventana de control, basada en ratios de alineación y norma, predice desencadenantes de comportamiento y techos de colapso utilizando datos del pase hacia adelante, con alta precisión en neuronas no vistas. En el rechazo, el control es tipado: ocurre un bypass coherente sin contenido accionable, mientras que el alcance accionable genuino aparece solo en casos específicos y en etapas posteriores de rollout.

arxiv arXiv cs.CL · hace 2 h

AtomMem: Sistema de memoria simple y efectivo para agentes LLM

AtomMem introduce un sistema de memoria que almacena hechos atómicos de alto valor procedentes de interacciones extensas. Utiliza estructuras de eventos jerárquicas y perfiles temporales para capturar contextos episódicos coherentes y rastrear atributos de usuario en evolución, permitiendo una evolución de la memoria estable y eficiente. Los experimentos en el benchmark LoCoMo muestran que AtomMem alcanza un rendimiento de vanguardia en tareas de razonamiento.

arxiv arXiv cs.CL · hace 2 h

LLMs agénticos de cero disparos extraen patología pulmonar de narrativas

Un flujo de trabajo agéntico de cero disparos que utiliza LLMs de código abierto extrae 13 campos sinópticos del Colegio Estadounidense de Patólogos a partir de informes de patología de resección pulmonar. El mejor modelo (GPT-OSS-20B) logró un Micro-F1 de 0.893, superando la sensibilidad de referencia y capturando con precisión relaciones patológicas complejas sin entrenamiento específico para la tarea.

arxiv arXiv cs.CL · hace 2 h

Los LLMs pueden procesar texto no legible con alta fidelidad semántica

Los modelos de lenguaje grandes pueden mantener una fidelidad semántica del 99.5% al procesar formas de texto compactas y no legibles para humanos llamadas BabelTele, incluso cuando el texto se reduce al 27.9% de su longitud original. Estas representaciones centradas en el modelo muestran un rendimiento sólido en la transferencia entre modelos, memoria de agentes y comunicación multiagente, lo que sugiere que la legibilidad humana no es esencial para la recuperación semántica en los LLMs.