Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 57

Refinamiento posterior: generación rápida de lenguaje mediante mapas de flujo de cualquier orden

FMLM+ introduce el Refinamiento posterior, una estrategia que permite la autocorrección adaptativa durante la inferencia. Al combinar el transporte de mapas de flujo con programas de ruido estilo enmascaramiento, logra una generación de lenguaje de alta fidelidad con 32x menos evaluaciones sin ruido, superando tanto a MDM como a FMLM en la compensación entre velocidad y calidad.

arxiv arXiv cs.CL · hace 2 h

¿Estamos listos para un sistema de memoria nativo para agentes?

Un nuevo estudio descompone la memoria del agente en cuatro módulos principales y evalúa 12 sistemas a través de cinco cargas de trabajo de referencia. No encuentra que una única arquitectura domine, con el rendimiento dependiente de la alineación con los cuellos de botella de la carga de trabajo, y revela que el mantenimiento localizado es más rentable que la reorganización global.

arxiv arXiv cs.CL · hace 2 h

Mercados de microtransacciones para información verificada de productos en comercio electrónico agente

Los agentes autónomos en el comercio electrónico enfrentan una escasez de información confiable sobre productos, no de coincidencia de productos. Un modelo propuesto de microtransacción permite a los agentes pagar fracciones de centavo para acceder a datos verificados como historiales de servicio e informes de prueba, con precios y confianza puntuados mediante reputación. Este sistema prioriza la calidad genuina del producto y la adquisición de información en tiempo real sobre la fluidez del chatbot.

arxiv arXiv cs.CL · hace 2 h

SHERLOC: Localización diagnóstica estructurada para agentes de reparación de código

SHERLOC presenta un marco de trabajo sin entrenamiento que combina un LLM de razonamiento con herramientas compactas del repositorio y auto-recuperación. Logra una precisión y recuperación de localización de última generación en SWE-Bench, mejorando la tasa de resolución de los agentes de reparación en 5.95 puntos porcentuales mientras reduce el uso de tokens de localización y total en un 36.7% y un 23.1% respectivamente.

arxiv arXiv cs.CL · hace 2 h

L3Cube-MahaPOS: Conjunto de datos y modelos BERT para etiquetado POS en maratí

L3Cube-MahaPOS presenta un conjunto de datos de etiquetado de partes del habla (POS) de referencia dorada para el idioma maratí, anotado manualmente con 32,354 oraciones extraídas de textos noticiosos. Incluye un esquema de Universal Dependencies con 16 etiquetas y evalúa seis familias de modelos, logrando una precisión a nivel de token del 88.67% y una macro-F1 del 81.67% en 15 clases de etiquetas utilizando MahaBERT-v2.

arxiv arXiv cs.CL · hace 2 h

Selección de datos de entrenamiento conscientes de la calidad para resumen científico

Construimos y publicamos un gran conjunto de datos biomédicos con 1.88 millones de artículos de PMC. El análisis muestra que los resúmenes escritos por los autores varían en calidad y alineación con los artículos originales, lo que permite una selección efectiva de datos de entrenamiento. Entrenar con subconjuntos de alta calidad supera al muestreo aleatorio y iguala a subconjuntos aleatorios más grandes en métricas de factualidad.

arxiv arXiv cs.CL · hace 2 h

Marco Match Task to Objective para Modelos Encoder-Decoder

Este estudio presenta el marco Match Task to Objective (MTO) para alinear los objetivos de preentrenamiento y ajuste fino con tareas específicas. El marco permite la adaptación automática y no supervisada de datos y logra mejoras de rendimiento superiores al 120% en configuraciones de few-shot, superando a las líneas base tanto en escenarios de few-shot como de conjunto completo de datos. También mejora el prompt-tuning proporcionando orientación efectiva para la ingeniería de soft prompts.

arxiv arXiv cs.CL · hace 2 h

Las huellas lingüísticas revelan los orígenes regionales de los poetas Tang

Un análisis computacional del Completo de Poemas Tang muestra que los orígenes geográficos de los poetas dejan rastros lingüísticos detectables. Los modelos que utilizan TF-IDF de n-gramas de caracteres y características de dominio logran una precisión de 0.69 en la predicción del origen regional amplio (Sur vs. Norte), superando el azar, y clasifican correctamente orígenes más finos a nivel de circuito. El estudio encuentra que la distancia lingüística entre circuitos se correlaciona con la distancia geográfica, con una divergencia regional que aumenta en el Tang tardío, y destaca los sesgos históricos en el estilo poético del Tang temprano.

arxiv arXiv cs.CL · hace 2 h

Primer Análisis a Gran Escala de Redes de Co-ocurrencia de Algoritmos

Este estudio analiza la influencia de los algoritmos a través de redes de co-ocurrencia en el procesamiento del lenguaje natural, utilizando artículos académicos de texto completo. Revela que las redes de algoritmos presentan características de red complejas, con conexiones más densas emergiendo durante dos décadas, y que los algoritmos clásicos en intersecciones de investigación muestran alta centralidad e influencia equilibrada. La investigación proporciona una visión temporal y estructural de la evolución de los algoritmos y sienta las bases para estudios futuros sobre redes de algoritmos, investigadores y tareas.

arxiv arXiv cs.CL · hace 2 h

PORTER: Representaciones de eventos ancladas al lenguaje para modelos base de EHR portátiles

PORTER introduce un modelo base de EHR estructurado con anclaje lingüístico que representa eventos clínicos mediante descripciones en lugar de vocabularios fijos. Logra un rendimiento superior en 74 tareas de predicción pediátrica y se transfiere eficazmente a nuevos vocabularios sin reentrenamiento, recuperando el 97.1% del AUROC objetivo y superando a los modelos de vocabulario fijo en MIMIC, con 329 veces menos cómputo que los enfoques de serialización de texto.

arxiv arXiv cs.CL · hace 2 h

La calibración del monitor LoRA falla con Top-1 en LM de difusión

La concentración del argmax Top-1 falla como advertencia de colapso en modelos de lenguaje de difusión optimizados con LoRA, mostrando precisión cero en 816 configuraciones. La norma máxima del gradiente LoRA supera esta línea base, alcanzando una precisión de 0.68 y F1 de 0.79 en un conjunto LLaDA retenido, aunque los resultados se limitan a inspecciones de horizonte corto y específicas de familia.

arxiv arXiv cs.CL · hace 2 h

Programador de datos holístico para el preentrenamiento de LLM mediante aprendizaje por refuerzo multiobjetivo

HDS introduce un marco de aprendizaje por refuerzo multiobjetivo para la mezcla en línea de datos durante el preentrenamiento de LLM. Logra un 44% menos de iteraciones de entrenamiento en el benchmark The Pile y mejora el rendimiento MMLU 0-shot en un 7,2%, con ganancias consistentes en otros benchmarks.

arxiv arXiv cs.CL · hace 2 h

InterAligner: Alineación progresiva para ASR

InterAligner introduce un objetivo de alineador intermedio y la pérdida InterCTC para permitir la formación de alineación progresiva en modelos profundos de ASR. En LibriSpeech con un Conformer de 17 capas, reduce el WER de 5.0/7.8 a 3.1/5.6, con mejoras significativas en utterances largas.

arxiv arXiv cs.CL · hace 2 h

Metis: Uniendo la memoria de texto y código para agentes autoevolutivos

Metis introduce una memoria dual jerárquica que combina memoria de texto y código para mejorar los agentes autoevolutivos. Organiza la experiencia en planes de ejecución, hechos y trampas, cristalizando los planes reutilizables en herramientas validadas solo cuando está justificado. Evaluado en AppWorld, Metis logra hasta un 20.6% más de precisión en tareas y un 22.8% menos de costo de ejecución que ReAct, con un mejor equilibrio general entre precisión, eficiencia y costo de memoria.

arxiv arXiv cs.CL · hace 2 h

MedBench v5: Benchmark dinámico para IA clínica

MedBench v5 introduce un benchmark dinámico y orientado al proceso para modelos multimodales clínicos, con capacidad de respuesta cognitiva clínica y habilidades atómicas en 63 tareas. Incluye estresores para análisis de degradación y monitorea la propagación de alucinaciones a través de cinco nodos de razonamiento, revelando que un alto rendimiento en tareas no garantiza estabilidad del proceso.

arxiv arXiv cs.CL · hace 2 h

BehaviorBench lanza un benchmark para modelos de IA conductual

BehaviorBench presenta un benchmark integral para evaluar modelos fundamentales en cuatro capacidades de la ciencia del comportamiento: predicción de conducta, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimientos. Evalúa los modelos tanto a nivel individual como distribucional, revelando que los modelos fundamentales conductuales como Be.FM-1.5 logran una alineación distribucional más fuerte que los modelos de propósito general, destacando la necesidad de evaluación distribucional en IA conductual.

arxiv arXiv cs.CL · hace 2 h

CORE-BREW: Decodificación suave basada en LLR para marca de agua multi-bit robusta en LLM

CORE-BREW introduce un método de decodificación de decisión suave que utiliza razones de verosimilitud logarítmica calibradas para habilitar la marca de agua multi-bit robusta en LLM. Logra tasas de acierto consistentes y un mejor control de falsos positivos mediante modos de detección estrictos y calibrados según FPR, superando a las líneas base anteriores bajo ediciones a nivel de token y paráfrasis mientras preserva la calidad semántica.

arxiv arXiv cs.CL · hace 2 h

Fundación Pāniniana para el Procesamiento de Lenguas Indic

Un nuevo conjunto de pruebas propone aprovechar la gramática antigua de Pānini como un marco unificador para el procesamiento de lenguas indic. Este enfoque tiene como objetivo mejorar la precisión, la eficiencia de los datos y la transferibilidad al fundamentar las herramientas de PLN en una arquitectura morfosintáctica compartida. El marco plantea preguntas sobre si los modelos neuronales representan internamente las categorías lingüísticas de Pānini.

arxiv arXiv cs.CL · hace 2 h

Digi Turbine: Un benchmark de PINN consciente de la fiabilidad para el monitoreo eólico marino

Digi Turbine es un benchmark sintético que combina un modelo simplificado de viga con una fundación de suelo Winkler en su objetivo de entrenamiento. Utiliza identificación inversa bayesiana y cribado del Método de Fiabilidad de Primer Orden para permitir la estimación fiable del estado a partir de datos de sensores escasos. La validación se basa en configuraciones sintéticas derivadas de la turbina NREL 5MW.

arxiv arXiv cs.CL · hace 2 h

Agon: Sistema de investigación autónomo mediante economía de prompts

Agon es un sistema de investigación autónomo que utiliza la economía de prompts para validar afirmaciones comprobables en flujos de trabajo, dejando el juicio a los científicos humanos. Opera a través de 444 iteraciones con mínimos prompts y sin código escrito por humanos, revelando una taxonomía de fallos por severidad, capacidad de corrección, visibilidad y locus de capacidad. El sistema demuestra escalabilidad y avanza la investigación hacia un paradigma donde las máquinas manejan la escala y los humanos guían el juicio.