Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 50

¿Pueden los LLM controlar la legibilidad en árabe?

Un marco de evaluación multidimensional evalúa la generación de texto en árabe controlado por CEFR mediante LLM. Los resultados muestran que el prompting guiado por CEFR con restricciones léxicas logra una alta alineación con los perfiles lingüísticos y la legibilidad predicha, mientras que el prompting sin restricciones muestra un control débil.

arxiv arXiv cs.CL · hace 2 h

Adaptación bayesiana factorizada para el cambio de código en ASR multilingüe

Un nuevo método llamado adaptación bayesiana factorizada permite que los modelos de ASR multilingüe de alto rendimiento manejen el cambio de código sin degradar el rendimiento monolingüe. Integra eficientemente conocimientos relevantes para el cambio usando datos sintéticos mínimos, reduciendo los errores de transcripción en un 32.87% y el WER general en un 5.31%.

arxiv arXiv cs.CL · hace 2 h

CFAgentBench: Benchmark para Agentes de Construcción-Finanzas Autónomos

CFAgentBench introduce un entorno reproducible y autoalojable con 1.014 tareas calificables por máquina en ocho dominios, basado en fuentes del mundo real. Cuenta con 40 tareas validadas por oráculo con evaluadores ejecutables que miden la corrección funcional mediante diferencias de estado y expresiones regulares de salida, incluyendo un guardián de movimiento de dinero que requiere aprobación humana para los pagos. Un hallazgo clave es que los mejores agentes pierden el 43% de sus éxitos al repetir tareas bajo decodificación con temperatura-0, lo que indica que el rendimiento en un solo intento no refleja la capacidad de implementación en el mundo real.

arxiv arXiv cs.CL · hace 2 h

Evaluación de LLMs para la conversión de grafema a fonema en japonés

Un estudio evalúa más de 30 modelos de lenguaje grandes en la conversión de grafema a fonema en japonés utilizando 3000 oraciones anotadas manualmente. Los mejores LLMs logran una tasa de error de caracteres kana inferior al 0.52%, superando a la mejor herramienta convencional (1.03%). El modo de análisis, con postprocesamiento basado en reglas, funciona mejor que el modo directo para la mayoría de los modelos, y las kana predichas por LLM mejoran la pronunciación de TTS cuando se alimentan a un TTS de entrada kana.

arxiv arXiv cs.CL · hace 2 h

NL2Scratch: Benchmark ejecutable para la generación de NL a Scratch

NL2Scratch introduce un benchmark ejecutable con 311.648 pares NL-programa válidos del analizador, derivados de proyectos reales de Scratch. Propone la Coherencia de Alineamiento Semántico (SAC) para medir el acuerdo semántico, validando 23.594 ejemplos y creando un benchmark diagnóstico equilibrado en 800 ranuras. Los experimentos muestran una brecha significativa entre la similitud léxica y el alineamiento semántico, con modelos que logran alta F1 a nivel de token pero que a menudo no alcanzan SAC perfecto, especialmente en ejemplos más largos.

arxiv arXiv cs.CL · hace 2 h

Receta de datos web para el preentrenamiento de codificadores médicos

Un nuevo método utiliza filtrado por densidad de términos médicos y reformulación amplificadora de señales para mejorar el preentrenamiento de codificadores médicos en francés. El enfoque supera los filtros de calidad educativa y produce FineMed y DoctoBERT, alcanzando resultados de vanguardia en DrBenchmark y una tarea de NER clínico.

arxiv arXiv cs.CL · hace 2 h

¿Pueden los modelos de razonamiento detectar cambios en sus cadenas de pensamiento?

Los recientes modelos de razonamiento muestran solo una capacidad modesta para detectar cambios en sus cadenas de pensamiento. Tienen dificultades para identificar cómo se modificó su CoT y realizan de manera similar al evaluar cambios en sus propias CoTs frente a las de otros modelos.

arxiv arXiv cs.CL · hace 2 h

Epistemologías plurales en la tecnología del lenguaje de IA

El artículo sostiene que la alineación cultural en el PLN requiere epistemologías plurales, no solo datos diversos. Propone un modelo socio-técnico para analizar cómo múltiples formas de conocimiento arraigadas localmente pueden integrarse en la tecnología del lenguaje, enfatizando que los enfoques actuales a menudo no abordan problemas más profundos de poder y gobernanza.

arxiv arXiv cs.CL · hace 2 h

TSCognition y TSAlign avanzan en el razonamiento de series temporales con LLMs

TSCognition introduce un benchmark multimodal con 41K muestras de QA en cinco tareas de razonamiento cognitivo. TSAlign supera a los modelos existentes en TSCognition y TimerBed mientras reduce el costo computacional, utilizando representaciones a nivel de parche y alineación en el espacio de incrustación de LLM.

arxiv arXiv cs.CL · hace 2 h

BioMatrix: Primer modelo de base biológico multimodal nativo

BioMatrix integra secuencias, estructuras y lenguaje para moléculas y proteínas en una única arquitectura solo de decodificador. Alcanza rendimiento de última generación o competitivo en 77 de las 80 tareas posteriores, demostrando capacidades generalistas multimodales efectivas sin componentes externos.

arxiv arXiv cs.CL · hace 2 h

π-RAG: Recuperación ciega mediante cuantización semántica y direccionamiento trascendental

π-RAG desacopla los LLM de los datos sensibles utilizando los dígitos de π como una fuente inmutable e inalterable de entropía. Introduce una capa de cuantización semántica que mapea las entradas del usuario a centroides de intención canónicos, luego utiliza sal criptográfica para generar desplazamientos deterministas que apuntan a cargas útiles estandarizadas, garantizando recuperación ciega y garantías matemáticas de privacidad de datos.

arxiv arXiv cs.CL · hace 2 h

Brecha de granularidad en la puntuación de confianza de LLM

Un estudio compara siete métodos de puntuación de confianza en 25 pares modelo-dataset, encontrando que la confianza verbalizada single-shot clasifica bien los casos pero ofrece solo unos pocos valores distintos, limitando los umbrales del operador. La agregación multi-query amplía la brecha de granularidad de la puntuación, mejorando a los modelos débiles pero degradando a los fuertes, con compensaciones que informan el despliegue práctico.

arxiv arXiv cs.CL · hace 2 h

Medición del verdadero consenso emergente en sociedades de agentes LLM

Una nueva métrica, la ganancia de acoplamiento gamma, mide cómo los agentes ajustan sus opiniones cuando las perspectivas de sus vecinos se perturban. Revela que los LLM de vanguardia no se polarizan espontáneamente, y un diagnóstico de la opinión final frente a la inicial muestra que el supuesto consenso emergente en trabajos previos involucra artefactos del modelo. El consenso válido emerge solo cuando se considera el acoplamiento a nivel de grupo y coincidente en modalidad, no las interacciones con un solo vecino.

arxiv arXiv cs.CL · hace 2 h

El Marco de Consenso Léxico Muestra que la Distancia Perceptual Impulsa el Aprendizaje de Palabras

Un estudio descubre que los agentes artificiales aprenden mejor los significados visuales de las palabras cuando los conceptos están perceptualmente cercanos, con la precisión de adquisición fuertemente predicha por la distancia perceptual (R² parcial = 0.245). Las evaluaciones bidireccionales revelan que el rendimiento de recuperación depende de la memoria basada en ejemplares, no de la coincidencia de prototipos, y que los incrustados visuales congelados permiten el anclaje mientras limitan el aprendizaje sin cambios representacionales.

arxiv arXiv cs.CL · hace 2 h

SamatNext v0.2-B logra una retención de currículo superior en modelos pequeños de código

SamatNext v0.2-B, un decodificador híbrido de 356M parámetros, alcanza una tasa de éxito del 100.0% en la Etapa 5 y retiene el 98.8% del comportamiento semántico de la Etapa 3 en un currículo controlado de código Python. Supera a una línea base Transformer con igual número de parámetros, que solo alcanza el 97.6% en la Etapa 5 y retiene apenas el 6.0% del comportamiento de la Etapa 5, lo que indica una mejor retención bajo ajuste fino secuencial.

arxiv arXiv cs.CL · hace 2 h

Los modelos de lenguaje grandes fallan al traducir Fongbe con precisión

Las evaluaciones muestran que las traducciones de Fongbe logran una calidad deficiente (1.0-2.2/5) en comparación con las puntuaciones aceptables de Hausa (4.0-4.5/5), con una brecha constante de 3x en BLEU. Las métricas automáticas como BERTScore muestran colapso de incrustaciones y débil correlación humana, especialmente para Hausa, mientras que Gemini supera a los demás para Fongbe y GPT-4o para Hausa en juicios humanos. Se necesitan tamaños mínimos de muestra de 2,500 oraciones para clasificaciones estables de modelos.

arxiv arXiv cs.CL · hace 2 h

MixedPEFT: PEFT unificado para adaptación de dominio no supervisada

MixedPEFT combina adaptadores invertibles y LoRA dentro de un único marco para habilitar la adaptación de dominio no supervisada. Optimiza simultáneamente la clasificación en datos de origen y el modelado de lenguaje enmascarado en datos de destino, logrando una mejora del 1.41% sobre UDapter, 1.26% sobre DANN y 0.86% sobre DSN utilizando solo el 7% de los parámetros del modelo.

arxiv arXiv cs.CL · hace 2 h

Desarrollo de corpus textual basado en ASR para fongbe y hausa

Las tuberías de ASR extienden los recursos textuales para las lenguas de África Occidental con pocos recursos, fongbe y hausa. El ajuste fino de MMS-300M en fongbe logra un WER del 9.48% con diacríticos tonales preservados, mientras que las transcripciones de hausa alcanzan una puntuación de evaluación humana de 57.4/100; los segmentos de fongbe obtienen solo 36.5/100, lo que indica la necesidad de postprocesamiento o modelos mejorados. El estudio libera conjuntos de datos curados, modelos ajustados finamente y corpus transcritos bajo pautas éticas.

arxiv arXiv cs.CL · hace 2 h

La Programación Adaptativa de Datos Mejora el Aprendizaje por Refuerzo en LLM

La Programación Adaptativa de Datos (ADS) introduce un marco de programación de datos a dos niveles que reemplaza el muestreo uniforme con una distribución adaptativa sobre clústeres semánticos y selección de muestras en la frontera de la política. Los resultados experimentales muestran que ADS mejora la precisión promedio en un 5,2 % respecto a GRPO en tres LLM y siete benchmarks de razonamiento, demostrando su efectividad como estrategia general para el post-entrenamiento RL de LLM.

arxiv arXiv cs.CL · hace 2 h

BabelJudge: Midiendo la confiabilidad del LLM como juez en idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando que la precisión bruta por sí sola no logra capturar fallos críticos como la inconsistencia de orden, que colapsa a 0.480 en suajili. El marco también se extiende a la evaluación agéntica con nueve perturbaciones y tres nuevas métricas, admitiendo 11 backends de jueces mediante un paquete de Python.