Todos los artículos
arxiv arXiv cs.CL · hace 10 h

Lobo de Tres Cabezas: Un Rol de Bufón para la Teoría de la Mente Multi-salto en LLMs

Los investigadores ampliaron el juego del Lobo con un rol de Bufón para crear un entorno de deducción social triádico que requiere razonamiento a través de tres funciones de utilidad opuestas, desafiando las capacidades de teoría de la mente de los modelos de lenguaje grandes. Las evaluaciones en GPT-4.1, DeepSeek-V3.1 y Llama-3.3-70B revelaron que, aunque el Bufón ganó el 60-70% de las partidas, los lobos de GPT-4.1 votaron frecuentemente para expulsar al Bufón en el día 1 en el 60-70% de los casos, una acción autodestructiva impulsada por priores lingüísticos.

arxiv arXiv cs.CL · hace 10 h

Resolución de problemas geométricos verificables: Autoformalización y propuesta de teoremas impulsadas por el solver

Los investigadores proponen SD-GPS, un framework impulsado por el solver para la resolución de problemas geométricos que aborda los cuellos de botella en la autoformalización y la predicción de teoremas tratando al solver simbólico como un oráculo de ejecución. Este enfoque unifica la adaptación supervisada del lenguaje formal con el aprendizaje por refuerzo guiado por la solvabilidad para garantizar la ejecutabilidad durante la formalización.

arxiv arXiv cs.CL · hace 11 h

Un análisis empírico de errores factuales en textos escritos por humanos y su aplicación

Este estudio aborda la negligencia en la detección de errores factuales en textos escritos por humanos mediante la extracción de una taxonomía de errores a partir de correcciones de artículos periodísticos, revelando categorías como las malconversiones de kanji que están ausentes en los benchmarks actuales de alucinación. Los autores evalúan modelos de lenguaje grandes estándar en casos de prueba sintetizados y correcciones reales para evaluar su rendimiento en esta tarea específica.

arxiv arXiv cs.CL · hace 11 h

Marco Explicable Multi-etapa para la Detección de Trastornos Cognitivos Basada en Voz

Los investigadores proponen un marco de explicabilidad multi-etapa que traduce las predicciones de caja negra del transformer en narrativas fundamentadas clínicamente para la detección de trastornos cognitivos basada en voz. El sistema integra la atribución de tokens basada en SHAP, características lingüísticas y una tubería de razonamiento LLM para mapear las salidas del modelo a dimensiones cognitivo-lingüísticas específicas.

arxiv arXiv cs.CL · hace 11 h

ToxiREX: Un conjunto de datos sobre razonamiento tóxico en contexto

Los investigadores presentan ToxiREX, un nuevo conjunto de datos multilingüe diseñado para capturar y explicar la toxicidad implícita y dependiente del contexto dentro de las hilos de comentarios de Reddit. El conjunto de datos utiliza un esquema sistemático de razonamiento tóxico para proporcionar anotaciones estructuradas para comentarios relacionados con eventos globales importantes en seis idiomas.

arxiv arXiv cs.CL · hace 11 h

De diálogo a detección: una canalización híbrida multimodal de PLN para la detección de fraude en seguros

Este artículo presenta un marco sintético multimodal diseñado para replicar las condiciones del Primer Aviso de Pérdida (FNOL) para la detección de fraude en seguros, abordando las limitaciones de los enfoques existentes basados únicamente en texto. El sistema genera transcripciones de diálogos entre agente y cliente y audios de dos hablantes para integrar indicadores lingüísticos, conductuales y basados en el hablante.

arxiv arXiv cs.CL · hace 11 h

La matriz de cobertura de señales: estratificación de errores de tipo y semánticos en la autoformalización de enunciados

Este artículo introduce una matriz de cobertura de señales para estratificar los errores de tipo y semánticos en la autoformalización de LLM, superando las métricas escalares de corrección de tipo. El marco clasifica las salidas en celdas de éxito verdadero, solo tipo, solo semántico o fallo en ambas categorías cruzando los resultados del elaborador de Lean con juicios de equivalencia semántica.

arxiv arXiv cs.CL · hace 11 h

Enfoque híbrido de árbol de pensamientos para la resumición de fallos de casos legales

Este estudio propone un nuevo enfoque de resumición extractiva-abstracta inspirado en el árbol de pensamientos para los fallos de casos legales, abordando la limitada exploración de técnicas híbridas en trabajos previos. Los experimentos que comparan los modelos DeepSeek y LLaMA demuestran que este método propuesto produce resúmenes superiores en comparación con los prompts extractivos o abstractos tradicionales.

arxiv arXiv cs.CL · hace 11 h

DG^VoiC: Agrupación de hablantes para la investigación de fraude bajo condiciones reales de centro de llamadas

Este artículo presenta DG^VoiC, un marco de agrupación de voz diseñado para identificar hablantes repetidos en audio real de centros de llamadas anonimizado, con el fin de asistir en la investigación de fraude. El método combina anonimización alineada con información sensible, preprocesamiento centrado en el habla, extracción de incrustaciones de hablante mediante ventana deslizante y agrupación basada en similitud coseno.

arxiv arXiv cs.CL · hace 11 h

MultiHashFormer: Modelos de Lenguaje Generativos Basados en Hash

El artículo presenta MultiHashFormer, un marco que permite la autoregresión basada en hash en modelos de lenguaje causales representando tokens como firmas únicas de IDs de hash discretos. Este enfoque permite al modelo comprimir la información del token en vectores latentes para su procesamiento por el Transformer, mientras los mapea de vuelta al texto, abordando efectivamente los problemas de colisión muchos-a-uno que anteriormente impedían el uso de hashing en contextos generativos.

arxiv arXiv cs.CL · hace 11 h

Fusión de datos con verdad única y múltiple utilizando modelos de lenguaje grandes

Este artículo investiga el uso de Modelos de Lenguaje Grandes (LLMs) para tareas de fusión de datos que involucran datos tabulares, cubriendo tanto escenarios de verdad única como de verdad múltiple. El estudio evalúa varias estrategias de prompting en tres conjuntos de datos de referencia para determinar su efectividad al resolver valores conflictivos provenientes de múltiples fuentes.

arxiv arXiv cs.CL · hace 11 h

Límite de escala del Modelo de Lenguaje Aleatorio

Este artículo desarrolla una teoría cuantitativa para el Modelo de Lenguaje Aleatorio (RLM) en un límite de escala donde el número de símbolos ocultos se aproxima al infinito mientras la temperatura de la gramática se aproxima a cero a una relación fija. El estudio establece que el modelo admite una descripción controlada basada en un principio de grandes desviaciones sobre patrones de uso de reglas, mapeando el problema a Modelos de Energía Aleatoria con combinatorias no triviales.

arxiv arXiv cs.CL · hace 11 h

Monitores basados en mecanismos para la detección preventiva de inestabilidad en el entrenamiento de LLM

Este artículo introduce monitores basados en mecanismos diseñados para detectar la inestabilidad del entrenamiento de modelos de lenguaje grandes antes de que cause daños significativos. Al derivar señales internas a partir de los roles funcionales de módulos críticos, estos monitores identifican fallos miles de pasos antes que los métodos tradicionales basados en pérdida.

arxiv arXiv cs.CL · hace 11 h

De tokens a estados: los LLM como un caso especial de modelos del mundo

El artículo desafía la dicotomía entre los grandes modelos de lenguaje y los modelos del mundo al argumentar que los LLM son en realidad un caso especial degenerado de modelos del mundo, en lugar de un reemplazo. Plantea que existe un espectro continuo desde la predicción del siguiente token hasta las arquitecturas de espacio latente, con la investigación actual ocupando ya posiciones intermedias.

arxiv arXiv cs.CL · hace 11 h

Epi2Diff: Usar trazas de razonamiento de LLM para predecir la dificultad de los ítems humanos

Los investigadores presentan Epi2Diff, un marco que mapea las trazas de Modelos de Razonamiento Grande (LRM) en secuencias de episodios fundamentadas cognitivamente para predecir la dificultad de los ítems humanos en evaluación educativa. Al modelar la dificultad a través de la escala de razonamiento, la asignación de esfuerzo y las transiciones de estado, el método proporciona una alternativa interpretable a la costosa calibración humana.

arxiv arXiv cs.CL · hace 11 h

HPRO: Optimización jerárquica progresiva de recompensas para TTS emocional

Los autores proponen HPRO, un marco de optimización jerárquica progresiva de recompensas diseñado para mejorar la expresividad emocional en modelos de Texto-a-Voz basados en LLM mientras se preserva la inteligibilidad lingüística. Este enfoque aborda las discrepancias estructurales en los métodos existentes basados en preferencias al aislar el contenido y la emoción, y cerrar la brecha entre las recompensas dispersas y la generación densa.