Todos los artículos
arxiv arXiv cs.CL · hace 2 h

El Marco de Consenso Léxico Muestra que la Distancia Perceptual Impulsa el Aprendizaje de Palabras

Un estudio descubre que los agentes artificiales aprenden mejor los significados visuales de las palabras cuando los conceptos están perceptualmente cercanos, con la precisión de adquisición fuertemente predicha por la distancia perceptual (R² parcial = 0.245). Las evaluaciones bidireccionales revelan que el rendimiento de recuperación depende de la memoria basada en ejemplares, no de la coincidencia de prototipos, y que los incrustados visuales congelados permiten el anclaje mientras limitan el aprendizaje sin cambios representacionales.

arxiv arXiv cs.CL · hace 2 h

SamatNext v0.2-B logra una retención de currículo superior en modelos pequeños de código

SamatNext v0.2-B, un decodificador híbrido de 356M parámetros, alcanza una tasa de éxito del 100.0% en la Etapa 5 y retiene el 98.8% del comportamiento semántico de la Etapa 3 en un currículo controlado de código Python. Supera a una línea base Transformer con igual número de parámetros, que solo alcanza el 97.6% en la Etapa 5 y retiene apenas el 6.0% del comportamiento de la Etapa 5, lo que indica una mejor retención bajo ajuste fino secuencial.

arxiv arXiv cs.CL · hace 2 h

Los modelos de lenguaje grandes fallan al traducir Fongbe con precisión

Las evaluaciones muestran que las traducciones de Fongbe logran una calidad deficiente (1.0-2.2/5) en comparación con las puntuaciones aceptables de Hausa (4.0-4.5/5), con una brecha constante de 3x en BLEU. Las métricas automáticas como BERTScore muestran colapso de incrustaciones y débil correlación humana, especialmente para Hausa, mientras que Gemini supera a los demás para Fongbe y GPT-4o para Hausa en juicios humanos. Se necesitan tamaños mínimos de muestra de 2,500 oraciones para clasificaciones estables de modelos.

arxiv arXiv cs.CL · hace 2 h

Desarrollo de corpus textual basado en ASR para fongbe y hausa

Las tuberías de ASR extienden los recursos textuales para las lenguas de África Occidental con pocos recursos, fongbe y hausa. El ajuste fino de MMS-300M en fongbe logra un WER del 9.48% con diacríticos tonales preservados, mientras que las transcripciones de hausa alcanzan una puntuación de evaluación humana de 57.4/100; los segmentos de fongbe obtienen solo 36.5/100, lo que indica la necesidad de postprocesamiento o modelos mejorados. El estudio libera conjuntos de datos curados, modelos ajustados finamente y corpus transcritos bajo pautas éticas.

arxiv arXiv cs.CL · hace 2 h

La Programación Adaptativa de Datos Mejora el Aprendizaje por Refuerzo en LLM

La Programación Adaptativa de Datos (ADS) introduce un marco de programación de datos a dos niveles que reemplaza el muestreo uniforme con una distribución adaptativa sobre clústeres semánticos y selección de muestras en la frontera de la política. Los resultados experimentales muestran que ADS mejora la precisión promedio en un 5,2 % respecto a GRPO en tres LLM y siete benchmarks de razonamiento, demostrando su efectividad como estrategia general para el post-entrenamiento RL de LLM.

arxiv arXiv cs.CL · hace 2 h

BabelJudge: Midiendo la confiabilidad del LLM como juez en idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando que la precisión bruta por sí sola no logra capturar fallos críticos como la inconsistencia de orden, que colapsa a 0.480 en suajili. El marco también se extiende a la evaluación agéntica con nueve perturbaciones y tres nuevas métricas, admitiendo 11 backends de jueces mediante un paquete de Python.

arxiv arXiv cs.CL · hace 2 h

SciTraj: Grafo de citas tipificado basado en afirmaciones para la evolución de la investigación

SciTraj es el primer corpus de citas tipificado basado en afirmaciones que vincula cada cita con una oración de afirmación específica. Incluye 32,559 artículos de NLP, ML y Visión (2015–2024) con 573,126 aristas dirigidas entre seis tipos de relación, y 287M trayectorias tipificadas de longitud ≥3, cubriendo el 72.8% de los artículos. El corpus permite el análisis del aislamiento disciplinario y la emergencia de temas, con semillas de afirmaciones validadas y un benchmark de predicción de enlaces dividido temporalmente.

arxiv arXiv cs.CL · hace 2 h

La curiosidad como intervención lingüística en la tutoría de LLM

CURIOBOT utiliza las variables colativas de Berlyne para crear intervenciones lingüísticas impulsadas por la curiosidad en diálogos de tutoría. En 270 conversaciones, estas intervenciones aumentaron los comportamientos exploratorios hasta 2.4x en turnos de conversación bajo presupuestos de tiempo fijos, con ganancias que persistieron a pesar de una calidad inalterada de las instrucciones del tutor.

arxiv arXiv cs.CL · hace 2 h

Divulgadores del primer token en Transformers: Orígenes mecanicistas de la identidad lingüística

LIHA identifica un pequeño conjunto de cabezas divulgadoras del primer token en GPT-2 que persistentemente se atenúan al token inicial del prompt, provocando cambios de idioma. El ajuste por instrucciones reorganiza estos circuitos, concentrando la identidad lingüística en las capas iniciales, como se muestra en una comparación controlada entre los modelos Qwen2.5-1.5B-Base y Qwen2-1.5B-Instruct. La divulgación del primer token es específica del guion, con idiomas no latinos procesados en la capa 0, coincidiendo con el patrón del modelo ajustado por instrucciones.

arxiv arXiv cs.CL · hace 2 h

PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo

PlanBench-XL introduce un benchmark de 327 tareas minoristas en 1,665 herramientas para evaluar la capacidad de los agentes LLM de recuperar y usar herramientas de forma iterativa en la planificación a largo plazo. Incluye un mecanismo de bloqueo que simula fallos de herramientas, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y adaptabilidad.

arxiv arXiv cs.CL · hace 2 h

El marco P4IR mejora la precisión del cumplimiento de código basado en LLM

P4IR, un marco de dos etapas, utiliza ajuste fino supervisado y Optimización de Política Relativa de Grupo para mejorar los sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Reduce las distancias de Levenshtein a nivel de árbol y de token hasta en un 23,8% y un 38,6% respectivamente, superando a LLMs líderes como Claude Opus, GPT-5.2 y GLM-4.7 en configuraciones de zero-shot con prompting few-shot, y reduce los falsos positivos por un margen estadísticamente significativo.

arxiv arXiv cs.CL · hace 2 h

La fundamentación con grafos de conocimiento ayuda a los LLM solo para conocimientos fuera del entrenamiento

Un estudio encuentra que la fundamentación con grafos de conocimiento mejora los LLM solo al responder preguntas basadas en hechos fuera del entrenamiento. En conocimiento biomédico público, la fundamentación no aporta beneficio, pero en datos nuevos o privados, aumenta la precisión desde el azar hasta niveles casi perfectos, confirmando que los LLM dependen de datos externos más allá del entrenamiento para obtener verdaderas mejoras de rendimiento.

arxiv arXiv cs.CL · hace 2 h

Variedad de personajes en historias generadas por LLM

Este estudio compara personajes en historias generadas por LLM y escritas por humanos utilizando dimensiones narratológicas. Encuentra que, aunque los LLM producen personajes con rasgos básicos similares, carecen de diversidad en características complejas de los personajes como integridad y estilización. El análisis revela que los LLM generan historias con una variedad limitada de personajes en comparación con las narrativas escritas por humanos.

arxiv arXiv cs.CL · hace 2 h

Los modelos de texto-discurso transcriben latente-mente el habla en capas intermedias

Los modelos de lenguaje-habla entrelazados pasan por una fase de transcripción implícita donde las palabras habladas se vuelven decodificables como tokens de texto en capas intermedias, a pesar de no tener entrenamiento de reconocimiento de voz. Hasta el 77% de los datos muestran la palabra hablada apareciendo como la principal candidata de predicción de texto, seguida por la continuación del texto y el retorno al habla. Este comportamiento es impulsado por los datos entrelazados y la inicialización del LM de texto, correlacionándose con el rendimiento del conocimiento hablado.

arxiv arXiv cs.CL · hace 2 h

FACTOR permite la verificación adaptativa para la factualidad en la generación de texto largo

FACTOR introduce la verificación adaptativa para la generación factual de texto largo ajustando los criterios de validación según la incertidumbre a nivel de afirmación. Mejora la factualidad y reduce el costo de verificación mediante la estimación de incertidumbre, inferencia lingüística y reordenamiento de candidatos, con resultados que muestran un rendimiento sólido en diversos modelos.

arxiv arXiv cs.CL · hace 2 h

ROMEVA: Expansión de vocabulario que preserva la geometría para modelos de lenguaje en urdu romano

ROMEVA aborda la fragmentación subléxica en el urdu romano combinando una inicialización promedio de subpalabras y una pérdida de anclaje guiada por PCA para estabilizar los embeddings. Aunque ROMEVA preserva mejor los embeddings preentrenados, el ajuste fino ingenuo logra un rendimiento superior en la clasificación de sentimientos, lo que indica un compromiso entre la estabilidad de los embeddings y el rendimiento en tareas posteriores en lenguas con inconsistencia morfológica.