Todos los artículos
arxiv arXiv cs.CL · hace 2 h

SciTraj: Grafo de citas tipificado basado en afirmaciones para la evolución de la investigación

SciTraj es el primer corpus de citas tipificado basado en afirmaciones que vincula cada cita con una oración de afirmación específica. Incluye 32,559 artículos de NLP, ML y Visión (2015–2024) con 573,126 aristas dirigidas entre seis tipos de relación, y 287M trayectorias tipificadas de longitud ≥3, cubriendo el 72.8% de los artículos. El corpus permite el análisis del aislamiento disciplinario y la emergencia de temas, con semillas de afirmaciones validadas y un benchmark de predicción de enlaces dividido temporalmente.

arxiv arXiv cs.CL · hace 2 h

La curiosidad como intervención lingüística en la tutoría de LLM

CURIOBOT utiliza las variables colativas de Berlyne para crear intervenciones lingüísticas impulsadas por la curiosidad en diálogos de tutoría. En 270 conversaciones, estas intervenciones aumentaron los comportamientos exploratorios hasta 2.4x en turnos de conversación bajo presupuestos de tiempo fijos, con ganancias que persistieron a pesar de una calidad inalterada de las instrucciones del tutor.

arxiv arXiv cs.CL · hace 2 h

Divulgadores del primer token en Transformers: Orígenes mecanicistas de la identidad lingüística

LIHA identifica un pequeño conjunto de cabezas divulgadoras del primer token en GPT-2 que persistentemente se atenúan al token inicial del prompt, provocando cambios de idioma. El ajuste por instrucciones reorganiza estos circuitos, concentrando la identidad lingüística en las capas iniciales, como se muestra en una comparación controlada entre los modelos Qwen2.5-1.5B-Base y Qwen2-1.5B-Instruct. La divulgación del primer token es específica del guion, con idiomas no latinos procesados en la capa 0, coincidiendo con el patrón del modelo ajustado por instrucciones.

arxiv arXiv cs.CL · hace 2 h

PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo

PlanBench-XL introduce un benchmark de 327 tareas minoristas en 1,665 herramientas para evaluar la capacidad de los agentes LLM de recuperar y usar herramientas de forma iterativa en la planificación a largo plazo. Incluye un mecanismo de bloqueo que simula fallos de herramientas, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y adaptabilidad.

arxiv arXiv cs.CL · hace 2 h

El marco P4IR mejora la precisión del cumplimiento de código basado en LLM

P4IR, un marco de dos etapas, utiliza ajuste fino supervisado y Optimización de Política Relativa de Grupo para mejorar los sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Reduce las distancias de Levenshtein a nivel de árbol y de token hasta en un 23,8% y un 38,6% respectivamente, superando a LLMs líderes como Claude Opus, GPT-5.2 y GLM-4.7 en configuraciones de zero-shot con prompting few-shot, y reduce los falsos positivos por un margen estadísticamente significativo.

arxiv arXiv cs.CL · hace 2 h

La fundamentación con grafos de conocimiento ayuda a los LLM solo para conocimientos fuera del entrenamiento

Un estudio encuentra que la fundamentación con grafos de conocimiento mejora los LLM solo al responder preguntas basadas en hechos fuera del entrenamiento. En conocimiento biomédico público, la fundamentación no aporta beneficio, pero en datos nuevos o privados, aumenta la precisión desde el azar hasta niveles casi perfectos, confirmando que los LLM dependen de datos externos más allá del entrenamiento para obtener verdaderas mejoras de rendimiento.

arxiv arXiv cs.CL · hace 2 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como integridad y estilización. El análisis revela que los LLM generan historias con una variedad limitada de personajes en comparación con las narrativas escritas por humanos.

arxiv arXiv cs.CL · hace 2 h

Los modelos de texto-discurso transcriben latente-mente el habla en capas intermedias

Los modelos de lenguaje-habla entrelazados pasan por una fase de transcripción implícita donde las palabras habladas se vuelven decodificables como tokens de texto en capas intermedias, a pesar de no tener entrenamiento de reconocimiento de voz. Hasta el 77% de los datos muestran la palabra hablada apareciendo como la principal candidata de predicción de texto, seguida por la continuación del texto y el retorno al habla. Este comportamiento es impulsado por los datos entrelazados y la inicialización del LM de texto, correlacionándose con el rendimiento del conocimiento hablado.

arxiv arXiv cs.CL · hace 2 h

FACTOR permite la verificación adaptativa para la factualidad en la generación de texto largo

FACTOR introduce la verificación adaptativa para la generación factual de texto largo ajustando los criterios de validación según la incertidumbre a nivel de afirmación. Mejora la factualidad y reduce el costo de verificación mediante la estimación de incertidumbre, inferencia lingüística y reordenamiento de candidatos, con resultados que muestran un rendimiento sólido en diversos modelos.

arxiv arXiv cs.CL · hace 2 h

ROMEVA: Expansión de vocabulario que preserva la geometría para modelos de lenguaje en urdu romano

ROMEVA aborda la fragmentación subléxica en el urdu romano combinando una inicialización promedio de subpalabras y una pérdida de anclaje guiada por PCA para estabilizar los embeddings. Aunque ROMEVA preserva mejor los embeddings preentrenados, el ajuste fino ingenuo logra un rendimiento superior en la clasificación de sentimientos, lo que indica un compromiso entre la estabilidad de los embeddings y el rendimiento en tareas posteriores en lenguas con inconsistencia morfológica.

arxiv arXiv cs.CL · hace 2 h

VADAOrchestra: Orquestación neurosimbólica de flujos de trabajo de razonamiento adaptativo

VADAOrchestra introduce un marco neurosimbólico que combina la orquestación de flujos de trabajo basada en LLM con razonamiento simbólico Datalog+/-. Permite la toma de decisiones adaptativa y explicable mediante la planificación incremental de flujos de trabajo y la ejecución de inferencia lógica bajo demanda, ofreciendo auditabilidad, escalabilidad y verificabilidad en escenarios financieros del mundo real.

arxiv arXiv cs.CL · hace 2 h

Gazer: Corrección semántica sin entrenamiento para modelos visuales autoregresivos

Gazer introduce un marco de trabajo sin entrenamiento que utiliza retroalimentación de modelos de lenguaje grande multimodal para corregir errores semánticos en tiempo real durante la generación de modelos visuales autoregresivos. Al integrar etapas de diagnóstico reflexivo y corrección semántica, Gazer mejora la precisión composicional y la alineación semántica en múltiples modelos sin entrenamiento adicional.

arxiv arXiv cs.CL · hace 2 h

Cadena de Pensamiento Multimodal: Capacidades y Limitaciones

El razonamiento de Cadena de Pensamiento Multimodal mejora el rendimiento en razonamiento matemático y científico, pero perjudica la fundamentación visual y el conteo de objetos en tareas de percepción. Los modelos exhiben un patrón 'Mirar Ligero, Pensar Pesado', donde la reflexión visual disminuye mientras aumenta la reflexión verbal, lo que indica un cuello de botella persistente en el razonamiento visual.

arxiv arXiv cs.CL · hace 2 h

Aprendizaje de prompts con restricciones de conceptos para adaptación de CLIP con pocos ejemplos

CCPL introduce un marco ligero que ancla los prompts de clase a prototipos de conceptos congelados, mejorando la adaptación de CLIP con pocos ejemplos al reducir el sobreajuste. Logra un mejor rendimiento de base a nuevo en DTD y EuroSAT en comparación con CoOp, con ganancias consistentes gracias a la regularización de conceptos en el espacio de texto, mientras mantiene neutralidad en OxfordPets.

arxiv arXiv cs.CL · hace 2 h

Factores clave en RL para el razonamiento de LLM revelados

Un análisis teórico muestra que el grado off-policy, determinado por los pasos de gradiente por rollout, impacta significativamente las razones de muestreo de importancia y la dominancia de actualización de tokens. El estudio introduce Adaptive Clip Policy Optimization (ACPO), que ajusta los límites de recorte mediante la varianza del grupo de tokens, superando a DAPO y CISPO en modelos de 3B y 7B en tareas de razonamiento matemático, QA y lógico.