Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 54

El Benchmark AFTER Evalúa la Memoria Procedural en Agentes LLM

AFTER introduce un benchmark de 382 tareas empresariales en seis roles y 22 habilidades para evaluar la transferencia de habilidades entre tareas, roles y modelos. Los resultados muestran que la memoria procedural mejora el rendimiento en 3.7-6.7 puntos por refinamiento y alcanza una precisión cruzada entre modelos del 73.1%, con algunas habilidades generalizándose ampliamente y otras especializándose en flujos de trabajo específicos del rol.

arxiv arXiv cs.CL · hace 2 h

Koshur Pixel: Primer conjunto de datos sintético a gran escala de OCR para cachemiro

Koshur Pixel presenta un conjunto de datos sintético de OCR con 613,078 pares de imagen-texto generados a partir del corpus KS-PRET-5M utilizando SynthOCR-Gen. Incluye más de 25 estrategias de aumento y abarca diversas fuentes tipográficas y escalas textuales, desde palabras hasta documentos de página completa, permitiendo un entrenamiento escalable para sistemas de OCR en cachemiro.

arxiv arXiv cs.CL · hace 2 h

El idioma moldea el crédito histórico en los grandes modelos de lenguaje

Un estudio de 11 grandes modelos de lenguaje a través de 21 invenciones disputadas muestra que el idioma de la consulta influye sistemáticamente en qué inventor recibe el crédito. Los reclamantes de menor estatus aparecen con mayor frecuencia cuando las preguntas se formulan en su idioma nativo, mientras que las figuras angloparlantes dominantes permanecen consistentes. Los hallazgos sugieren que el idioma actúa como un interruptor que activa versiones nacionales distintas de la historia, indicando que los LLM funcionan como sistemas de memoria cultural.

arxiv arXiv cs.CL · hace 2 h

La reputación de marca construida por IA está vinculada al idioma

Las reputaciones de marca generadas por IA varían significativamente según el idioma, con las lenguas urálicas y bálticas mostrando un sentimiento más positivo y las lenguas germánicas, incluido el inglés, siendo más críticas. El idioma de la consulta impacta en qué marcas se recomiendan, especialmente para los campeones locales, donde las consultas en el idioma nativo aumentan la visibilidad en 0.80 puntos en comparación con las consultas en inglés. La monitorización exclusivamente en inglés no logra captar la total visibilidad de IA de las marcas con sede local, creando un punto ciego lingüístico medible.

arxiv arXiv cs.CL · hace 2 h

Modelo TTS de Flow-Matching Simula el Efecto Lombard

Se presenta un modelo de texto a voz basado en flow-matching para simular el efecto Lombard, donde las personas hablan más fuerte y con mayor claridad en entornos ruidosos. El modelo permite un control continuo y desacoplado del esfuerzo vocal y la articulación, con énfasis a nivel de palabra para mejorar la claridad. Los experimentos muestran una mejor claridad acústica e inteligibilidad en condiciones ruidosas en comparación con los sistemas base.

arxiv arXiv cs.CL · hace 2 h

DART: Enrutamiento sin entrenamiento para presupuestos de pensamiento adaptativos

DART permite a los modelos de razonamiento híbrido enrutar consultas entre respuesta directa y pensamiento extendido sin datos de entrenamiento. Utiliza dos borradores sin pensar para decidir el modo de respuesta y estima el presupuesto de pensamiento a partir del desacuerdo entre borradores. DART mejora la precisión hasta en 9.0 puntos en matemáticas y 22.-5 puntos en razonamiento de código, mientras reduce los tokens de pensamiento entre un 15-69% y un 51-63% respectivamente.

arxiv arXiv cs.CL · hace 2 h

AgentCIBench evalúa los riesgos de privacidad en agentes de uso informático

AgentCIBench presenta un benchmark para evaluar los riesgos de privacidad en agentes de uso informático. Identifica tres modos de fallo clave: co-localización visual, exceso de información por ambigüedad de tarea y desalineación del destinatario, y encuentra que 11 de los 15 agentes evaluados filtran datos personales en más del 50% de los escenarios, con una filtración promedio del 67.9%.

arxiv arXiv cs.CL · hace 2 h

Contagio de memoria: propagación de sesgo en la memoria del agente

Los investigadores identifican el Contagio de Memoria, un fenómeno donde el sesgo del evaluador se propaga a lo largo del tiempo en la memoria del agente. Incluso con una consolidación de memoria perfecta, el sesgo se extiende a futuros agentes que recuperan información desde el mismo almacén de memoria, detectándose contaminación tan baja como p=0.2. El efecto varía según el tipo de sesgo: el sesgo de longitud se atenúa, mientras que el sesgo de autoridad se amplifica, lo que indica una interacción dependiente del sesgo.

arxiv arXiv cs.CL · hace 2 h

Análisis sensible a la tarea de la autocorrección intrínseca

Un estudio examina cuándo funciona la autocorrección intrínseca analizando su rendimiento en diferentes estructuras de tareas. La investigación encuentra que la autocorrección produce ganancias consistentes solo cuando la tarea admite verificación explícita de restricciones, revisión de razonamiento complejo o evaluación de estrategias. Los resultados muestran que SC es efectiva solo en contextos de tareas específicos, no universalmente.

arxiv arXiv cs.CL · hace 2 h

Evaluación multi-referencia basada en LLM para anotaciones de ruptura de frases

LMRE aborda las limitaciones de la evaluación con referencia única al modelar múltiples formulaciones válidas del habla. Supera a los métodos tradicionales al alinearse con el juicio humano en aceptación y puntuación, demostrando escalabilidad y robustez para anotaciones de habla coreana.

arxiv arXiv cs.CL · hace 2 h

CFPO: Optimización de Política Contrafactual para Razonamiento Multimodal

CFPO introduce un mecanismo de mejora contrafactual cross-modal para mejorar la consistencia causal entre la percepción visual y el razonamiento textual en modelos de visión-lenguaje. Logra ganancias del 3.17%-6.25% sobre las líneas base estándar de RL y del 1.32%-2.13% sobre PAPO, sin requerir recompensas externas ni supervisión.

arxiv arXiv cs.CL · hace 2 h

MuPPET: Benchmark para la privacidad de LLMs en múltiples partes

MuPPET introduce un benchmark para la privacidad contextual en conversaciones entre múltiples partes. Los experimentos revelan que los modelos filtran significativamente más información privada en entornos grupales que en interacciones uno a uno, siendo los modelos de pesos abiertos más pequeños especialmente vulnerables. Las defensas de privacidad existentes proporcionan solo protección parcial y no abordan el problema central del seguimiento de las partes.

arxiv arXiv cs.CL · hace 2 h

Expansión fundamentada en juicios para la generación de revisiones por pares

Un nuevo método de colaboración humano-IA llamado expansión fundamentada en juicios permite la generación responsable de revisiones por pares. El enfoque implica que un revisor proporcione una afirmación evaluativa, la cual el sistema expande en candidatos a comentarios de revisión mediante un proceso estructurado de generar-verificar-refinar. El estudio aborda la evaluación escalable y la curación del conjunto de candidatos, mostrando que la predicción conforme equilibra eficazmente el tamaño de los candidatos y la cobertura.

arxiv arXiv cs.CL · hace 2 h

KDoS: Síntesis optimizada por distribución para la expansión del conocimiento de LLM

KDoS introduce la densidad de conocimiento para guiar la generación de datos sintéticos a través de un mecanismo de retroalimentación en tres etapas. Los experimentos en modelos de 0.6B a 16B y escalas de datos de 1B a 5B tokens muestran que una distribución óptima del conocimiento maximiza consistentemente la expansión del límite de conocimiento, es estable entre diferentes arquitecturas de modelos y supera a los métodos base en seis benchmarks de conocimiento.

arxiv arXiv cs.CL · hace 2 h

Benchmark IMLogic y Framework RootMem para la Recuperación de Memoria Lógica Implícita

IMLogic es el primer benchmark de alta calidad para evaluar la recuperación de memoria lógica implícita en escenarios de diálogo largo. RootMem introduce una representación estructurada y preservadora de decisiones llamada memoria raíz para destilar lógica personalizada reutilizable a partir de historiales de usuario, y utiliza un enrutador basado en LLM para activar las memorias relevantes, superando a las líneas base de recuperación existentes en precisión.

arxiv arXiv cs.CL · hace 2 h

El ancho de segmentación y el tamaño del clúster impactan la resíntesis de habla en GSLMs

Variar el ancho de segmentación y el tamaño del clúster en modelos de lenguaje hablado generativos permite una síntesis de habla inteligible y natural a tasas de bits más bajas que las de referencia. La calidad de la continuación del habla permanece estable a estas tasas de bits más bajas según múltiples métricas, lo que indica que los ajustes convencionales pueden no ser necesarios. Las métricas basadas en LLM se correlacionan mejor con los juicios humanos pero aún muestran una alineación baja, subrayando la necesidad de mejorar la evaluación automática.

arxiv arXiv cs.CL · hace 2 h

Brecha del Oráculo CTC: Agotamiento Acústico y Recuperación Lingüística

La puntuación interna de CTC muestra ninguna mejora en WER sobre la decodización voraz en LibriSpeech, con la confianza acústica fallando en correlacionarse con la plausibilidad lingüística. La decodización MBR usando RoBERTa PLL alcanza un WER del 5.42%, superando a la decodización voraz por 0.535 pp, demostrando que la información lingüística puede superar el límite de saturación de CTC.

arxiv arXiv cs.CL · hace 2 h

Descontaminación basada en incertidumbre para la descontaminación de LLM

Proponemos la Descontaminación Basada en Incertidumbre (UBD), un método que utiliza conjuntos profundos para estimar la memorización por muestra en modelos contaminados sin necesidad de un modelo no contaminado. UBD construye una distribución objetivo corregida por sesgo a partir de la incertidumbre del conjunto para corregir las distribuciones de salida, logrando una alineación significativamente mejor con los modelos no contaminados en comparación con las líneas base, mientras mantiene el rendimiento en datos limpios.

arxiv arXiv cs.CL · hace 2 h

Tmax: Una receta RL sencilla para agentes terminales

Tmax presenta la mejor receta RL de código abierto para agentes terminales, alcanzando un 27% en Terminal-Bench 2.0 con solo 9B parámetros. Utiliza una taxonomía de datos novedosa para generar más de 2.5x entornos terminales que los conjuntos de datos anteriores, permitiendo un entrenamiento eficiente con una receta sencilla basada únicamente en el resultado. El conjunto de datos, los modelos y el código se han publicado como código abierto en https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · hace 2 h

Nous: Un Modelo Predictivo del Mundo para la Memoria de Agentes a Largo Plazo

Nous introduce una arquitectura de memoria basada en la predicción en lugar del almacenamiento, utilizando distribuciones de probabilidad categóricas para modelar el conocimiento del mundo. Evaluado en LoCoMo con GPT-4o-mini, alcanza puntuaciones F1 de 63.50 (un solo salto), 55.32 (múltiples saltos), -58.57 (temporal) y 62.50 (dominio abierto), superando a A-MEM en tres categorías y a BeliefMem en todas, aunque las diferencias en la evaluación limitan la comparabilidad completa.