Todos los artículos
arxiv arXiv cs.CL · hace 2 h

CFAgentBench: Benchmark para Agentes de Construcción-Finanzas Autónomos

CFAgentBench introduce un entorno reproducible y autoalojable con 1.014 tareas calificables por máquina en ocho dominios, basado en fuentes del mundo real. Cuenta con 40 tareas validadas por oráculo con evaluadores ejecutables que miden la corrección funcional mediante diferencias de estado y expresiones regulares de salida, incluyendo un guardián de movimiento de dinero que requiere aprobación humana para los pagos. Un hallazgo clave es que los mejores agentes pierden el 43% de sus éxitos al repetir tareas bajo decodificación con temperatura-0, lo que indica que el rendimiento en un solo intento no refleja la capacidad de implementación en el mundo real.

arxiv arXiv cs.CL · hace 2 h

Evaluación de LLMs para la conversión de grafema a fonema en japonés

Un estudio evalúa más de 30 modelos de lenguaje grandes en la conversión de grafema a fonema en japonés utilizando 3000 oraciones anotadas manualmente. Los mejores LLMs logran una tasa de error de caracteres kana inferior al 0.52%, superando a la mejor herramienta convencional (1.03%). El modo de análisis, con postprocesamiento basado en reglas, funciona mejor que el modo directo para la mayoría de los modelos, y las kana predichas por LLM mejoran la pronunciación de TTS cuando se alimentan a un TTS de entrada kana.

arxiv arXiv cs.CL · hace 2 h

NL2Scratch: Benchmark ejecutable para la generación de NL a Scratch

NL2Scratch introduce un benchmark ejecutable con 311.648 pares NL-programa válidos del analizador, derivados de proyectos reales de Scratch. Propone la Coherencia de Alineamiento Semántico (SAC) para medir el acuerdo semántico, validando 23.594 ejemplos y creando un benchmark diagnóstico equilibrado en 800 ranuras. Los experimentos muestran una brecha significativa entre la similitud léxica y el alineamiento semántico, con modelos que logran alta F1 a nivel de token pero que a menudo no alcanzan SAC perfecto, especialmente en ejemplos más largos.

arxiv arXiv cs.CL · hace 2 h

π-RAG: Recuperación ciega mediante cuantización semántica y direccionamiento trascendental

π-RAG desacopla los LLM de los datos sensibles utilizando los dígitos de π como una fuente inmutable e inalterable de entropía. Introduce una capa de cuantización semántica que mapea las entradas del usuario a centroides de intención canónicos, luego utiliza sal criptográfica para generar desplazamientos deterministas que apuntan a cargas útiles estandarizadas, garantizando recuperación ciega y garantías matemáticas de privacidad de datos.

arxiv arXiv cs.CL · hace 2 h

Brecha de granularidad en la puntuación de confianza de LLM

Un estudio compara siete métodos de puntuación de confianza en 25 pares modelo-dataset, encontrando que la confianza verbalizada single-shot clasifica bien los casos pero ofrece solo unos pocos valores distintos, limitando los umbrales del operador. La agregación multi-query amplía la brecha de granularidad de la puntuación, mejorando a los modelos débiles pero degradando a los fuertes, con compensaciones que informan el despliegue práctico.

arxiv arXiv cs.CL · hace 2 h

Medición del verdadero consenso emergente en sociedades de agentes LLM

Una nueva métrica, la ganancia de acoplamiento gamma, mide cómo los agentes ajustan sus opiniones cuando las perspectivas de sus vecinos se perturban. Revela que los LLM de vanguardia no se polarizan espontáneamente, y un diagnóstico de la opinión final frente a la inicial muestra que el supuesto consenso emergente en trabajos previos involucra artefactos del modelo. El consenso válido emerge solo cuando se considera el acoplamiento a nivel de grupo y coincidente en modalidad, no las interacciones con un solo vecino.

arxiv arXiv cs.CL · hace 2 h

El Marco de Consenso Léxico Muestra que la Distancia Perceptual Impulsa el Aprendizaje de Palabras

Un estudio descubre que los agentes artificiales aprenden mejor los significados visuales de las palabras cuando los conceptos están perceptualmente cercanos, con la precisión de adquisición fuertemente predicha por la distancia perceptual (R² parcial = 0.245). Las evaluaciones bidireccionales revelan que el rendimiento de recuperación depende de la memoria basada en ejemplares, no de la coincidencia de prototipos, y que los incrustados visuales congelados permiten el anclaje mientras limitan el aprendizaje sin cambios representacionales.

arxiv arXiv cs.CL · hace 2 h

SamatNext v0.2-B logra una retención de currículo superior en modelos pequeños de código

SamatNext v0.2-B, un decodificador híbrido de 356M parámetros, alcanza una tasa de éxito del 100.0% en la Etapa 5 y retiene el 98.8% del comportamiento semántico de la Etapa 3 en un currículo controlado de código Python. Supera a una línea base Transformer con igual número de parámetros, que solo alcanza el 97.6% en la Etapa 5 y retiene apenas el 6.0% del comportamiento de la Etapa 5, lo que indica una mejor retención bajo ajuste fino secuencial.

arxiv arXiv cs.CL · hace 2 h

Los modelos de lenguaje grandes fallan al traducir Fongbe con precisión

Las evaluaciones muestran que las traducciones de Fongbe logran una calidad deficiente (1.0-2.2/5) en comparación con las puntuaciones aceptables de Hausa (4.0-4.5/5), con una brecha constante de 3x en BLEU. Las métricas automáticas como BERTScore muestran colapso de incrustaciones y débil correlación humana, especialmente para Hausa, mientras que Gemini supera a los demás para Fongbe y GPT-4o para Hausa en juicios humanos. Se necesitan tamaños mínimos de muestra de 2,500 oraciones para clasificaciones estables de modelos.

arxiv arXiv cs.CL · hace 2 h

Desarrollo de corpus textual basado en ASR para fongbe y hausa

Las tuberías de ASR extienden los recursos textuales para las lenguas de África Occidental con pocos recursos, fongbe y hausa. El ajuste fino de MMS-300M en fongbe logra un WER del 9.48% con diacríticos tonales preservados, mientras que las transcripciones de hausa alcanzan una puntuación de evaluación humana de 57.4/100; los segmentos de fongbe obtienen solo 36.5/100, lo que indica la necesidad de postprocesamiento o modelos mejorados. El estudio libera conjuntos de datos curados, modelos ajustados finamente y corpus transcritos bajo pautas éticas.

arxiv arXiv cs.CL · hace 2 h

La Programación Adaptativa de Datos Mejora el Aprendizaje por Refuerzo en LLM

La Programación Adaptativa de Datos (ADS) introduce un marco de programación de datos a dos niveles que reemplaza el muestreo uniforme con una distribución adaptativa sobre clústeres semánticos y selección de muestras en la frontera de la política. Los resultados experimentales muestran que ADS mejora la precisión promedio en un 5,2 % respecto a GRPO en tres LLM y siete benchmarks de razonamiento, demostrando su efectividad como estrategia general para el post-entrenamiento RL de LLM.

arxiv arXiv cs.CL · hace 2 h

BabelJudge: Midiendo la confiabilidad del LLM como juez en idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando que la precisión bruta por sí sola no logra capturar fallos críticos como la inconsistencia de orden, que colapsa a 0.480 en suajili. El marco también se extiende a la evaluación agéntica con nueve perturbaciones y tres nuevas métricas, admitiendo 11 backends de jueces mediante un paquete de Python.