Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Los Q-Sorts Simétricos Miden la Alineación de Valores-Estructura en LLMs

Un nuevo marco utiliza Q-sorts simétricos humano-LLM para evaluar cómo los modelos de lenguaje grandes se alinean estructuralmente con los valores morales. Al comparar clasificaciones de 140 declaraciones morales entre 12 LLMs y una muestra de referencia humana, el estudio identifica heterogeneidad trans-familiar e inalineaciones localizadas, mostrando que las puntuaciones globales de rendimiento pueden ocultar defectos estructurales. Los resultados destacan la necesidad de evaluaciones estructurales para complementar los benchmarks morales tradicionales a nivel de ítem.

arxiv arXiv cs.CL · hace 1 h En vivo

CapRiCorn-1K: Benchmark para la descripción de vídeo y consistencia del sujeto

CapRiCorn-1K es un benchmark que evalúa la calidad de la descripción de vídeo y la consistencia referencial del sujeto a través de diferentes duraciones y dominios de vídeo. Admite configuraciones tanto audiovisuales como solo visuales, revelando que los modelos actuales tienen dificultades para mantener referencias consistentes del sujeto, especialmente en vídeos más largos, con una disminución de la calidad y la consistencia de las descripciones a medida que aumenta la duración del vídeo. Las métricas del benchmark muestran una fuerte alineación con tareas posteriores, validando su efectividad.

arxiv arXiv cs.CL · hace 1 h En vivo

¿Están mejorando realmente los modelos multilingües? Aislamiento de la verdadera transferencia interlingual

Una nueva métrica, el Puntaje de Transferencia Ajustada por Dificultad (HAT), aísla la verdadera transferencia interlingual separándola de las ganancias de precisión en el idioma fuente. El análisis de 20 modelos lingüísticos muestra que la transferencia en modelos pequeños no está rota, el progreso con el tamaño del modelo es más lento de lo esperado y se han producido mejoras claras con el tiempo.

arxiv arXiv cs.CL · hace 1 h En vivo

OpenBioRQ: Benchmark para la Fidelidad de la Investigación Biomédica Agéntica

OpenBioRQ introduce un benchmark de 12,553 preguntas de investigación biomédica sin resolver en 12 dominios, diseñado para probar la fidelidad y la abstención de los modelos agénticos. Evalúa los modelos en un entorno de uso de herramientas sin claves de respuesta, utilizando evidencia real de seguimiento en lugar de conocimiento paramétrico, y revela un colapso agéntico significativo en las preguntas más difíciles donde las herramientas ya no se utilizan a pesar de ser críticas.

arxiv arXiv cs.CL · hace 1 h En vivo

Moshi-Face: Diálogo dúplex completo con generación facial

Moshi-Face es el primer modelo de diálogo hablado dúplex completo que procesa conjuntamente entradas de audio y faciales, generando tanto habla como movimiento facial sincronizado. Utiliza un codec facial VQ-VAE para codificar y reconstruir mallas de cabeza 3D a partir de videos faciales en tokens faciales discretos, y un módulo Face Transformer para generar estos tokens de forma no autoregresiva con el fin de lograr una salida audiovisual en tiempo real. Los experimentos muestran que Moshi-Face logra una alineación audiovisual con baja latencia mientras mantiene la calidad original del diálogo.

arxiv arXiv cs.CL · hace 1 h En vivo

CFAgentBench: Benchmark para Agentes de Construcción-Finanzas Autónomos

CFAgentBench introduce un entorno reproducible y autoalojable con 1.014 tareas calificables por máquina en ocho dominios, basado en fuentes del mundo real. Cuenta con 40 tareas validadas por oráculo con evaluadores ejecutables que miden la corrección funcional mediante diferencias de estado y expresiones regulares de salida, incluyendo un guardián de movimiento de dinero que requiere aprobación humana para los pagos. Un hallazgo clave es que los mejores agentes pierden el 43% de sus éxitos al repetir tareas bajo decodificación con temperatura-0, lo que indica que el rendimiento en un solo intento no refleja la capacidad de implementación en el mundo real.

arxiv arXiv cs.CL · hace 1 h En vivo

Evaluación de LLMs para la conversión de grafema a fonema en japonés

Un estudio evalúa más de 30 modelos de lenguaje grandes en la conversión de grafema a fonema en japonés utilizando 3000 oraciones anotadas manualmente. Los mejores LLMs logran una tasa de error de caracteres kana inferior al 0.52%, superando a la mejor herramienta convencional (1.03%). El modo de análisis, con postprocesamiento basado en reglas, funciona mejor que el modo directo para la mayoría de los modelos, y las kana predichas por LLM mejoran la pronunciación de TTS cuando se alimentan a un TTS de entrada kana.

arxiv arXiv cs.CL · hace 1 h En vivo

NL2Scratch: Benchmark ejecutable para la generación de NL a Scratch

NL2Scratch introduce un benchmark ejecutable con 311.648 pares NL-programa válidos del analizador, derivados de proyectos reales de Scratch. Propone la Coherencia de Alineamiento Semántico (SAC) para medir el acuerdo semántico, validando 23.594 ejemplos y creando un benchmark diagnóstico equilibrado en 800 ranuras. Los experimentos muestran una brecha significativa entre la similitud léxica y el alineamiento semántico, con modelos que logran alta F1 a nivel de token pero que a menudo no alcanzan SAC perfecto, especialmente en ejemplos más largos.

arxiv arXiv cs.CL · hace 1 h En vivo

π-RAG: Recuperación ciega mediante cuantización semántica y direccionamiento trascendental

π-RAG desacopla los LLM de los datos sensibles utilizando los dígitos de π como una fuente inmutable e inalterable de entropía. Introduce una capa de cuantización semántica que mapea las entradas del usuario a centroides de intención canónicos, luego utiliza sal criptográfica para generar desplazamientos deterministas que apuntan a cargas útiles estandarizadas, garantizando recuperación ciega y garantías matemáticas de privacidad de datos.

arxiv arXiv cs.CL · hace 1 h En vivo

Brecha de granularidad en la puntuación de confianza de LLM

Un estudio compara siete métodos de puntuación de confianza en 25 pares modelo-dataset, encontrando que la confianza verbalizada single-shot clasifica bien los casos pero ofrece solo unos pocos valores distintos, limitando los umbrales del operador. La agregación multi-query amplía la brecha de granularidad de la puntuación, mejorando a los modelos débiles pero degradando a los fuertes, con compensaciones que informan el despliegue práctico.

arxiv arXiv cs.CL · hace 1 h En vivo

Medición del verdadero consenso emergente en sociedades de agentes LLM

Una nueva métrica, la ganancia de acoplamiento gamma, mide cómo los agentes ajustan sus opiniones cuando las perspectivas de sus vecinos se perturban. Revela que los LLM de vanguardia no se polarizan espontáneamente, y un diagnóstico de la opinión final frente a la inicial muestra que el supuesto consenso emergente en trabajos previos involucra artefactos del modelo. El consenso válido emerge solo cuando se considera el acoplamiento a nivel de grupo y coincidente en modalidad, no las interacciones con un solo vecino.