Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 54

arxiv arXiv cs.CL · hace 1 h En vivo

AVOC: Compresión de Tokens Inspirada en Recuperación para Comprensión Audio-Video de Largo Alcance

AVOC mejora la comprensión audio-video de largo alcance en LLMs omni-modales mediante la introducción de un módulo de compresión de tokens aprendible. Reformula la selección de tokens como un problema de recuperación top-K, utilizando criterios de relevancia, importancia y diversidad para seleccionar tokens compactos e informativos, logrando resultados de vanguardia en OmniVideoBench y LVOmniBench, y manteniendo un rendimiento sólido en tareas de aguja en pajar de audio-video de una hora.

arxiv arXiv cs.CL · hace 1 h En vivo

Se lanza PDT-C 2.0 consolidado

PDT-C 2.0 presenta un corpus checo uniformemente anotado y diversificado por género, de casi 4 millones de tokens. Incluye representaciones de significado y fenómenos interoracionales como la co-referencia y las relaciones discursivas, y está acompañado de lexicons totalmente compatibles. El recurso está disponible bajo una licencia CC BY-NC-SA.

arxiv arXiv cs.CL · hace 1 h En vivo

Modelos Transformer: Arquitecturas, Aplicaciones y Evaluación Crítica

Esta revisión presenta una taxonomía de modelos de lenguaje basados en transformers a través de verticales de dominio, cubriendo variantes solo codificadoras, solo decodificadoras, codificador-decodificador, contexto largo, basadas en permutación y generador-discriminador. Evalúa avances posteriores a 2023 como el ajuste por instrucciones y la escalabilidad de mixture-of-experts, y analiza los despliegues de modelos en salud, finanzas, derecho, educación, servicio al cliente, escritura creativa y trabajo científico, vinculando cada uno a capacidades específicas. El artículo analiza críticamente las arquitecturas de modelos en cuatro ejes clave de despliegue, cuantifica la relación entre conteo de parámetros y costo energético, y examina cómo los métodos de alineación, el origen de los datos y la saturación de benchmarks definen el 'estado del arte'.

arxiv arXiv cs.CL · hace 1 h En vivo

UD_Czech-PDTC: Un árbol de dependencias grande y rico en géneros en Dependencias Universales

El Árbol de Dependencias de Praga-Consolidado (PDT-C) ha sido convertido a Dependencias Universales, dando lugar a UD_Czech-PDTC. Este recurso es más del doble del tamaño del PDT original y significativamente más diverso en géneros y dominios. A pesar de las diferencias estructurales y de granularidad entre PDT-C y UD, las anotaciones multicapa de PDT-C proporcionan datos completos útiles para árboles básicos de UD y más allá.

arxiv arXiv cs.CL · hace 1 h En vivo

PETRA: Conjunto de datos y pipeline para la adaptación de textos de ingeniería petrolera

PETRA transforma textos públicos de la web en un corpus curado de ingeniería petrolera con supervisión sintética para recuperación densa y reordenamiento. Mejora el nDCG in-domain de 0.703 a 0.763 y aumenta el rendimiento en el benchmark de Earth Science en un 44% y en un panel de razonamiento de seis tareas en un 23%.

arxiv arXiv cs.CL · hace 1 h En vivo

Etiquetado POS de los sentidos del diccionario árabe-inglés mediante WordNet

El artículo presenta un algoritmo que transfiere las etiquetas de categoría gramatical (part-of-speech) del Princeton WordNet a los sentidos del diccionario árabe-inglés después de la desambiguación. Esto permite vincular diccionarios bilingües con WordNet y estandarizarlos en formato WordNet-LMF, donde los synsets son la unidad fundamental, con alta precisión a bajo costo.

arxiv arXiv cs.CL · hace 1 h En vivo

MorfFlex: Gestión de la rica morfología en checo

MorfFlex es una arquitectura de diccionario morfológico diseñada para idiomas con inflexión y derivación complejas. MorfFlex CZ, su implementación principal, contiene más de 100 millones de formas léxicas y más de 1 millón de lemas, reducidos mediante patrones de inflexión y derivación codificados. Soporta la consistencia en la anotación de los Prague Dependency Treebanks y alimenta herramientas como MorphoDiTa.

arxiv arXiv cs.CL · hace 1 h En vivo

ComputeFHE: Una biblioteca de computación de propósito general que preserva la privacidad

ComputeFHE es una biblioteca C++ de código abierto que permite computación que preserva la privacidad utilizando el criptosistema TFHE. Ofrece tipos de datos enteros y de punto fijo cifrados con operaciones aritméticas y lógicas, soportando arquitecturas ALU estándar y optimizadas amigables para FHE. Los resultados experimentales muestran mejoras de rendimiento de hasta 3.9x y reducción de operaciones de bootstrapping, con un modo de simulación para pruebas y análisis de complejidad sin ejecución criptográfica.

arxiv arXiv cs.CL · hace 1 h En vivo

Estabilidad del ranking de prompts en la evaluación de LLM

Los rankings de prompts en la evaluación de modelos de lenguaje grandes a menudo son inestables bajo variaciones menores como semillas aleatorias y subconjuntos limitados. Una estrategia de selección consciente de la estabilidad que utiliza límites inferiores de confianza mejora la robustez al tener en cuenta tanto el rendimiento como la varianza, mientras mantiene la competitividad en entornos estables.

arxiv arXiv cs.CL · hace 1 h En vivo

AutoSpecNER: Conjunto de datos de NER de gran detalle para especificaciones de vehículos

AutoSpecNER es un conjunto de datos de 659 anuncios de automóviles con más de 10.000 entidades anotadas en 15 categorías. Alcanza un acuerdo entre anotadores del 91,5% y muestra que DeBERTa supera tanto a los métodos basados en reglas como a los grandes modelos de lenguaje en la extracción de especificaciones de vehículos, alcanzando una puntuación micro-F1 del 90%.

arxiv arXiv cs.CL · hace 1 h En vivo

Era de los LLM: Benchmark para el razonamiento y la diplomacia de los LLM

Age of LLM introduce un benchmark por turnos 1v1 donde dos LLM compiten en una cuadrícula de 13x7 bajo niebla de guerra, diplomacia completa y estrictas reglas de fiabilidad JSON. Los hallazgos muestran que la carrera nuclear domina, la diplomacia es prolífica pero rara vez tiene éxito, y las acciones ilegales revelan errores de seguimiento de creencias, con un vínculo débil entre fiabilidad y victoria. El corpus es pequeño y desequilibrado, y los resultados ofrecen una visión preliminar del razonamiento de los LLM bajo incertidumbre adversarial.

arxiv arXiv cs.CL · hace 1 h En vivo

ExtractConf: Motor de confianza multi-señal para extracción de documentos en LLM

ExtractConf presenta un motor de confianza que utiliza lecturas duales de LLM —guiadas por campo y guiadas por documento— para detectar extracciones no confiables. Fusiona el desacuerdo entre llamadas, la incertidumbre del LLM y las señales del documento en un clasificador, logrando 0.928 ROC AUC en facturas y reduciendo el riesgo de predicción selectiva en un 70%.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco EDV permite el aprendizaje de experiencias confiables para sistemas agénticos

El marco EDV introduce un paradigma Ejecitar-Destilar-Verificar para superar la trampa de autoconfirmación en agentes de modelos de lenguaje grandes. Al utilizar múltiples agentes para explorar tareas, un agente de tercera parte para destilar experiencias y un paso de verificación basado en consenso, EDV asegura que solo se almacenen experiencias precisas en la memoria. La evaluación en tau2-bench, Mind2Web y MMTB muestra que EDV supera a las bases fuertes, demostrando su efectividad para habilitar una autoevolución robusta del agente.

arxiv arXiv cs.CL · hace 1 h En vivo

Control bayesiano para agentes de codificación

El control bayesiano mejora las decisiones de uso de herramientas en agentes de codificación modelando la incertidumbre y eligiendo dinámicamente acciones. Supera a los orquestadores de reglas fijas, especialmente cuando la verificación es costosa y los críticos proporcionan retroalimentación informativa pero imperfecta. El método también produce una puntuación de corrección más interpretable que las métricas de probabilidad de tokens o el éxito bruto de herramientas.

arxiv arXiv cs.CL · hace 1 h En vivo

Transformador de dos etapas basado en LLM para diagnóstico de fallos en rodamientos

Un Transformer ligero estilo GPT-2 permite la extracción jerárquica de características a partir de señales de vibración. El marco logra una precisión promedio del 92.61% utilizando solo el 10% de los datos etiquetados, superando a los métodos más avanzados en 17.24 puntos porcentuales en el diagnóstico de fallos en rodamientos entre dominios.

arxiv arXiv cs.CL · hace 1 h En vivo

Penalización de tokenización en lenguas africanas en LLMs de vanguardia

Las lenguas africanas enfrentan un sobrecosto de tokenización de 1.88x a 8.92x en comparación con el inglés en los LLMs de vanguardia, con los alfabetos etíope y n'ko que soportan los mayores costos. Esta penalización se traduce en costos de inferencia hasta 8.9 veces más altos y una capacidad de contexto reducida, con algunas lenguas recibiendo tan solo el 11% de la ventana de contexto efectiva del inglés. La penalización persiste a través de los corpus y no es eliminada por los tokenizers actuales, destacando una brecha digital estructural.

arxiv arXiv cs.CL · hace 1 h En vivo

UOL@IDEM presenta un modelo de predicción de vocabulario consciente del L1

UOL@IDEM presenta una presentación en pista cerrada para BEA 2026, modelando la predicción de dificultad del vocabulario como regresión para español, alemán y chino. El sistema integra incrustaciones contextuales multilingües con características diseñadas como frecuencia y similitud de cognados, logrando puntuaciones RMSE más bajas que las líneas base, con un análisis de características que destaca la frecuencia como el predictor más estable y la predictibilidad contextual como una señal clave sensible al L1.

arxiv arXiv cs.CL · hace 1 h En vivo

RaDaR: El modelo de IA mejora el diagnóstico de enfermedades raras

RaDaR, un modelo de lenguaje grande compacto de razonamiento, superó a otros modelos de código abierto en el diagnóstico de enfermedades raras. En un ensayo aleatorizado, RaDaR mejoró la precisión diagnóstica de los médicos en 21.44 puntos porcentuales en comparación con la búsqueda por internet sola.

arxiv arXiv cs.CL · hace 1 h En vivo

Póster: Exploración de la detección de estafas basada en audio en turco

Esta investigación presenta el primer conjunto de datos multimodal público de 100 pares alineados de audio-transcripción para llamadas de estafa y benignas en turco. Evalúa siete modelos de lenguaje grandes bajo entradas de audio crudo, transcripción automática y transcripción corregida por humanos, encontrando que las entradas basadas en transcripción superan al procesamiento directo de audio, con la corrección humana teniendo un impacto mínimo.

arxiv arXiv cs.CL · hace 1 h En vivo

AGORA: Benchmark para el razonamiento de documentos en entornos laborales basados en agentes

Agora presenta un benchmark con 362 preguntas y 9,664 documentos auténticos de entornos laborales que suman 372M tokens, superando la ventana de contexto de cualquier modelo. Evalúa la capacidad de los agentes para explorar documentos deliberadamente, reconciliar inconsistencias y razonar entre dominios, revelando que incluso los mejores modelos alcanzan solo un 59.4% de precisión.