Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 57

ParaPairAudioBench: Benchmark para la Evaluación de Habla Paralingüística

ParaPairAudioBench introduce un benchmark por pares de 5.175 pares de audio en cinco dimensiones paralingüísticas. Revela que los jueces LALM actuales están un 32% por debajo de los juicios humanos en promedio y fallan al calibrarse, especialmente en casos de empate donde la abstención es correcta.

arxiv arXiv cs.CL · hace 2 h

AI-PAVE-Br: PAVE basado en LLM para el comercio electrónico brasileño

AI-PAVE-Br utiliza modelos de lenguaje grandes para mejorar la extracción de valores de atributos de productos en el comercio electrónico brasileño. El sistema supera a los métodos tradicionales de NER, con un nuevo conjunto Golden Set que proporciona una referencia manualmente anotada para datos de productos en portugués.

arxiv arXiv cs.CL · hace 2 h

DREAM: Entrenamiento autoregresivo para incrustaciones de recuperación densa

DREAM utiliza la predicción del siguiente token autoregresiva para supervisar el entrenamiento de incrustaciones de recuperación densa. Inyecta puntuaciones de similitud entre consulta y documento en las cabezas de atención de un LLM congelado, permitiendo la retropropagación de gradientes para la optimización del recuperador. DREAM supera a las líneas base en los benchmarks BEIR y RTEB a través de las escalas de modelos.

arxiv arXiv cs.CL · hace 2 h

CN-NewsTTS Bench v0.1 Lanzado

CN-NewsTTS Bench v0.1 es una evaluación abierta para evaluar la capacidad de los sistemas de TTS de noticias en chino para pronunciar correctamente los objetivos de texto crudo. Incluye 200 registros de desarrollo y 800 de prueba pública, 992 objetivos auto-evaluables, y resultados para siete sistemas TTS, con el mejor logrando una precisión estricta de 0.879 y varios por debajo de 0.60.

arxiv arXiv cs.CL · hace 2 h

Descomposición de tareas para una anotación eficiente

Proponemos descomponer las tareas de anotación estructurada en subtareas para reducir la carga inferencial general. Al identificar entidades ancla salientes—centros en el espacio de anotaciones válidas—restringimos la complejidad de la salida y mejoramos la eficiencia de costos. Proporcionamos directrices para la descomposición y un procedimiento para asignar subtareas entre anotadores humanos y modelos, con el fin de lograr la calidad óptima bajo presupuestos fijos.

arxiv arXiv cs.CL · hace 2 h

Refinamiento posterior: generación rápida de lenguaje mediante mapas de flujo de cualquier orden

FMLM+ introduce el Refinamiento posterior, una estrategia que permite la autocorrección adaptativa durante la inferencia. Al combinar el transporte de mapas de flujo con programas de ruido estilo enmascaramiento, logra una generación de lenguaje de alta fidelidad con 32x menos evaluaciones sin ruido, superando tanto a MDM como a FMLM en la compensación entre velocidad y calidad.

arxiv arXiv cs.CL · hace 2 h

¿Estamos listos para un sistema de memoria nativo para agentes?

Un nuevo estudio descompone la memoria del agente en cuatro módulos principales y evalúa 12 sistemas a través de cinco cargas de trabajo de referencia. No encuentra que una única arquitectura domine, con el rendimiento dependiente de la alineación con los cuellos de botella de la carga de trabajo, y revela que el mantenimiento localizado es más rentable que la reorganización global.

arxiv arXiv cs.CL · hace 2 h

Mercados de microtransacciones para información verificada de productos en comercio electrónico agente

Los agentes autónomos en el comercio electrónico enfrentan una escasez de información confiable sobre productos, no de coincidencia de productos. Un modelo propuesto de microtransacción permite a los agentes pagar fracciones de centavo para acceder a datos verificados como historiales de servicio e informes de prueba, con precios y confianza puntuados mediante reputación. Este sistema prioriza la calidad genuina del producto y la adquisición de información en tiempo real sobre la fluidez del chatbot.

arxiv arXiv cs.CL · hace 2 h

SHERLOC: Localización diagnóstica estructurada para agentes de reparación de código

SHERLOC presenta un marco de trabajo sin entrenamiento que combina un LLM de razonamiento con herramientas compactas del repositorio y auto-recuperación. Logra una precisión y recuperación de localización de última generación en SWE-Bench, mejorando la tasa de resolución de los agentes de reparación en 5.95 puntos porcentuales mientras reduce el uso de tokens de localización y total en un 36.7% y un 23.1% respectivamente.

arxiv arXiv cs.CL · hace 2 h

L3Cube-MahaPOS: Conjunto de datos y modelos BERT para etiquetado POS en maratí

L3Cube-MahaPOS presenta un conjunto de datos de etiquetado de partes del habla (POS) de referencia dorada para el idioma maratí, anotado manualmente con 32,354 oraciones extraídas de textos noticiosos. Incluye un esquema de Universal Dependencies con 16 etiquetas y evalúa seis familias de modelos, logrando una precisión a nivel de token del 88.67% y una macro-F1 del 81.67% en 15 clases de etiquetas utilizando MahaBERT-v2.

arxiv arXiv cs.CL · hace 2 h

Selección de datos de entrenamiento conscientes de la calidad para resumen científico

Construimos y publicamos un gran conjunto de datos biomédicos con 1.88 millones de artículos de PMC. El análisis muestra que los resúmenes escritos por los autores varían en calidad y alineación con los artículos originales, lo que permite una selección efectiva de datos de entrenamiento. Entrenar con subconjuntos de alta calidad supera al muestreo aleatorio y iguala a subconjuntos aleatorios más grandes en métricas de factualidad.

arxiv arXiv cs.CL · hace 2 h

Marco Match Task to Objective para Modelos Encoder-Decoder

Este estudio presenta el marco Match Task to Objective (MTO) para alinear los objetivos de preentrenamiento y ajuste fino con tareas específicas. El marco permite la adaptación automática y no supervisada de datos y logra mejoras de rendimiento superiores al 120% en configuraciones de few-shot, superando a las líneas base tanto en escenarios de few-shot como de conjunto completo de datos. También mejora el prompt-tuning proporcionando orientación efectiva para la ingeniería de soft prompts.

arxiv arXiv cs.CL · hace 2 h

Las huellas lingüísticas revelan los orígenes regionales de los poetas Tang

Un análisis computacional del Completo de Poemas Tang muestra que los orígenes geográficos de los poetas dejan rastros lingüísticos detectables. Los modelos que utilizan TF-IDF de n-gramas de caracteres y características de dominio logran una precisión de 0.69 en la predicción del origen regional amplio (Sur vs. Norte), superando el azar, y clasifican correctamente orígenes más finos a nivel de circuito. El estudio encuentra que la distancia lingüística entre circuitos se correlaciona con la distancia geográfica, con una divergencia regional que aumenta en el Tang tardío, y destaca los sesgos históricos en el estilo poético del Tang temprano.

arxiv arXiv cs.CL · hace 2 h

Primer Análisis a Gran Escala de Redes de Co-ocurrencia de Algoritmos

Este estudio analiza la influencia de los algoritmos a través de redes de co-ocurrencia en el procesamiento del lenguaje natural, utilizando artículos académicos de texto completo. Revela que las redes de algoritmos presentan características de red complejas, con conexiones más densas emergiendo durante dos décadas, y que los algoritmos clásicos en intersecciones de investigación muestran alta centralidad e influencia equilibrada. La investigación proporciona una visión temporal y estructural de la evolución de los algoritmos y sienta las bases para estudios futuros sobre redes de algoritmos, investigadores y tareas.

arxiv arXiv cs.CL · hace 2 h

PORTER: Representaciones de eventos ancladas al lenguaje para modelos base de EHR portátiles

PORTER introduce un modelo base de EHR estructurado con anclaje lingüístico que representa eventos clínicos mediante descripciones en lugar de vocabularios fijos. Logra un rendimiento superior en 74 tareas de predicción pediátrica y se transfiere eficazmente a nuevos vocabularios sin reentrenamiento, recuperando el 97.1% del AUROC objetivo y superando a los modelos de vocabulario fijo en MIMIC, con 329 veces menos cómputo que los enfoques de serialización de texto.

arxiv arXiv cs.CL · hace 2 h

La calibración del monitor LoRA falla con Top-1 en LM de difusión

La concentración del argmax Top-1 falla como advertencia de colapso en modelos de lenguaje de difusión optimizados con LoRA, mostrando precisión cero en 816 configuraciones. La norma máxima del gradiente LoRA supera esta línea base, alcanzando una precisión de 0.68 y F1 de 0.79 en un conjunto LLaDA retenido, aunque los resultados se limitan a inspecciones de horizonte corto y específicas de familia.

arxiv arXiv cs.CL · hace 2 h

Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo

HDS introduce un marco de aprendizaje por refuerzo multiobjetivo para la mezcla en línea de datos durante el preentrenamiento de LLM. Logra un 44% menos de iteraciones de entrenamiento en el benchmark The Pile y mejora el rendimiento MMLU 0-shot en un 7,2%, con ganancias consistentes en otros benchmarks.

arxiv arXiv cs.CL · hace 2 h

InterAligner: Alineación progresiva para ASR

InterAligner introduce un objetivo de alineador intermedio y la pérdida InterCTC para permitir la formación de alineación progresiva en modelos profundos de ASR. En LibriSpeech con un Conformer de 17 capas, reduce el WER de 5.0/7.8 a 3.1/5.6, con mejoras significativas en utterances largas.

arxiv arXiv cs.CL · hace 2 h

Metis: Uniendo la memoria de texto y código para agentes autoevolutivos

Metis introduce una memoria dual jerárquica que combina memoria de texto y código para mejorar los agentes autoevolutivos. Organiza la experiencia en planes de ejecución, hechos y trampas, cristalizando los planes reutilizables en herramientas validadas solo cuando está justificado. Evaluado en AppWorld, Metis logra hasta un 20.6% más de precisión en tareas y un 22.8% menos de costo de ejecución que ReAct, con un mejor equilibrio general entre precisión, eficiencia y costo de memoria.

arxiv arXiv cs.CL · hace 2 h

MedBench v5: Benchmark dinámico para IA clínica

MedBench v5 introduce un benchmark dinámico y orientado al proceso para modelos multimodales clínicos, con capacidad de respuesta cognitiva clínica y habilidades atómicas en 63 tareas. Incluye estresores para análisis de degradación y monitorea la propagación de alucinaciones a través de cinco nodos de razonamiento, revelando que un alto rendimiento en tareas no garantiza estabilidad del proceso.