Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 56

arxiv arXiv cs.CL · hace 2 h

Diálogo hacia el Descubrimiento: Elicitación de Preferencias Consciente de Atributos

Diálogo hacia el Descubrimiento (D2D) es un marco orientado a atributos que mejora la búsqueda conversacional de productos guiando dinámicamente las interacciones del usuario. Adapta las prioridades de consulta y el momento de las recomendaciones, logrando una precisión en la localización del objetivo 22.2-29.9% mayor, una tasa de abandono 6.6-16.1% menor y conversaciones 27.5% más cortas en comparación con métodos existentes, con estudios de usuarios que confirman satisfacción y eficiencia mejoradas.

arxiv arXiv cs.CL · hace 2 h

MMed-Bench-IR: Un benchmark de recuperación médica multilingüe

MMed-Bench-IR introduce un benchmark heterogéneo para la recuperación de información médica multilingüe en seis idiomas. Evalúa la alineación intercultural, la discriminación de conceptos y la recuperación de evidencia a través de tres tareas distintas sin conceptos ni consultas superpuestos. La evaluación muestra caídas significativas en el rendimiento intercultural, con codificadores biomédicos en inglés que caen de 0.818 a 0.056 nDCG@10 al pasar al japonés, destacando limitaciones no detectadas por los benchmarks solo en inglés.

arxiv arXiv cs.CL · hace 2 h

La decoherencia como defensa en redes neuronales cuánticas para la detección de intrusiones

Una teoría rigurosa de N-qubits demuestra que el ruido despolarizante en las redes neuronales cuánticas estocásticas contrae exponencialmente las lecturas de Pauli, permitiendo una detección robusta de anomalías. En el conjunto de datos NSL-KDD, dicho ruido logra una resiliencia adversarial significativa sin colapso catastrófico, superando a los modelos sin ruido y a los detectores clásicos bajo ataques FGSM y PGD, con una varianza de robustez reducida y una reducción de la brecha entre entrenamiento y prueba de aproximadamente 0.01.

arxiv arXiv cs.CL · hace 2 h

SURGELLM: Puerta de características consciente de la tarea con normalización equilibrada por clase

SURGELLM introduce un marco unificado de transformadores con puerta de características quirúrgicas, tokens de prefijo condicionados a la tarea y Normalización Ponderada por Instancia para abordar desajustes en el sesgo inductivo, desequilibrio de clases y falta de integración de conocimiento léxico. La variante IWN logra un macro-F1 de 0.940 en cuatro tareas, superando a las líneas base en 0.036 en general y en 0.130 en detección de autoría, con ganancias confirmadas como léxicas en lugar de paramétricas.

arxiv arXiv cs.CL · hace 2 h

Los malos prompts provocan el colapso del modelo y errores

Los contextos deficientes en las conversaciones pueden llevar al 'encasillamiento', donde los modelos repiten respuestas incorrectas o se reducen a una única respuesta. Los experimentos muestran caídas de rendimiento del 38-40% y empeoramiento de errores con más turnos de conversación, incluso cuando las entradas iniciales son correctas. Un nuevo método, RLVR con errores sintéticos, mejora el rendimiento del modelo en un 43-60% bajo dichos contextos deficientes.

arxiv arXiv cs.CL · hace 2 h

CALIBER: Calibrando la confianza antes y después del razonamiento en modelos de lenguaje

CALIBER introduce un método que elicita y supervisa estimaciones de confianza en dos etapas: antes y después del razonamiento. Reduce el Error de Calibración Esperada en un 52,5% en BigMathDigits para un modelo de 7B, logrando la mejor puntuación Brier y AUROC, y obtiene los mejores resultados en benchmarks fuera de distribución como GPQA y TriviaQA.

arxiv arXiv cs.CL · hace 2 h

AVOC: Compresión de Tokens Inspirada en Recuperación para Comprensión Audio-Video de Largo Alcance

AVOC mejora la comprensión audio-video de largo alcance en LLMs omni-modales mediante la introducción de un módulo de compresión de tokens aprendible. Reformula la selección de tokens como un problema de recuperación top-K, utilizando criterios de relevancia, importancia y diversidad para seleccionar tokens compactos e informativos, logrando resultados de vanguardia en OmniVideoBench y LVOmniBench, y manteniendo un rendimiento sólido en tareas de aguja en pajar de audio-video de una hora.

arxiv arXiv cs.CL · hace 2 h

Se lanza PDT-C 2.0 consolidado

PDT-C 2.0 presenta un corpus checo uniformemente anotado y diversificado por género, de casi 4 millones de tokens. Incluye representaciones de significado y fenómenos interoracionales como la co-referencia y las relaciones discursivas, y está acompañado de lexicons totalmente compatibles. El recurso está disponible bajo una licencia CC BY-NC-SA.

arxiv arXiv cs.CL · hace 2 h

Modelos Transformer: Arquitecturas, Aplicaciones y Evaluación Crítica

Esta revisión presenta una taxonomía de modelos de lenguaje basados en transformers a través de verticales de dominio, cubriendo variantes solo codificadoras, solo decodificadoras, codificador-decodificador, contexto largo, basadas en permutación y generador-discriminador. Evalúa avances posteriores a 2023 como el ajuste por instrucciones y la escalabilidad de mixture-of-experts, y analiza los despliegues de modelos en salud, finanzas, derecho, educación, servicio al cliente, escritura creativa y trabajo científico, vinculando cada uno a capacidades específicas. El artículo analiza críticamente las arquitecturas de modelos en cuatro ejes clave de despliegue, cuantifica la relación entre conteo de parámetros y costo energético, y examina cómo los métodos de alineación, el origen de los datos y la saturación de benchmarks definen el 'estado del arte'.

arxiv arXiv cs.CL · hace 2 h

UD_Czech-PDTC: Un árbol de dependencias grande y rico en géneros en Dependencias Universales

El Árbol de Dependencias de Praga-Consolidado (PDT-C) ha sido convertido a Dependencias Universales, dando lugar a UD_Czech-PDTC. Este recurso es más del doble del tamaño del PDT original y significativamente más diverso en géneros y dominios. A pesar de las diferencias estructurales y de granularidad entre PDT-C y UD, las anotaciones multicapa de PDT-C proporcionan datos completos útiles para árboles básicos de UD y más allá.

arxiv arXiv cs.CL · hace 2 h

PETRA: Conjunto de datos y pipeline para la adaptación de textos de ingeniería petrolera

PETRA transforma textos públicos de la web en un corpus curado de ingeniería petrolera con supervisión sintética para recuperación densa y reordenamiento. Mejora el nDCG in-domain de 0.703 a 0.763 y aumenta el rendimiento en el benchmark de Earth Science en un 44% y en un panel de razonamiento de seis tareas en un 23%.

arxiv arXiv cs.CL · hace 2 h

Etiquetado POS de los sentidos del diccionario árabe-inglés mediante WordNet

El artículo presenta un algoritmo que transfiere las etiquetas de categoría gramatical (part-of-speech) del Princeton WordNet a los sentidos del diccionario árabe-inglés después de la desambiguación. Esto permite vincular diccionarios bilingües con WordNet y estandarizarlos en formato WordNet-LMF, donde los synsets son la unidad fundamental, con alta precisión a bajo costo.

arxiv arXiv cs.CL · hace 2 h

MorfFlex: Gestión de la rica morfología en checo

MorfFlex es una arquitectura de diccionario morfológico diseñada para idiomas con inflexión y derivación complejas. MorfFlex CZ, su implementación principal, contiene más de 100 millones de formas léxicas y más de 1 millón de lemas, reducidos mediante patrones de inflexión y derivación codificados. Soporta la consistencia en la anotación de los Prague Dependency Treebanks y alimenta herramientas como MorphoDiTa.

arxiv arXiv cs.CL · hace 2 h

ComputeFHE: Una biblioteca de computación de propósito general que preserva la privacidad

ComputeFHE es una biblioteca C++ de código abierto que permite computación que preserva la privacidad utilizando el criptosistema TFHE. Ofrece tipos de datos enteros y de punto fijo cifrados con operaciones aritméticas y lógicas, soportando arquitecturas ALU estándar y optimizadas amigables para FHE. Los resultados experimentales muestran mejoras de rendimiento de hasta 3.9x y reducción de operaciones de bootstrapping, con un modo de simulación para pruebas y análisis de complejidad sin ejecución criptográfica.

arxiv arXiv cs.CL · hace 2 h

Estabilidad del ranking de prompts en la evaluación de LLM

Los rankings de prompts en la evaluación de modelos de lenguaje grandes a menudo son inestables bajo variaciones menores como semillas aleatorias y subconjuntos limitados. Una estrategia de selección consciente de la estabilidad que utiliza límites inferiores de confianza mejora la robustez al tener en cuenta tanto el rendimiento como la varianza, mientras mantiene la competitividad en entornos estables.

arxiv arXiv cs.CL · hace 2 h

AutoSpecNER: Conjunto de datos de NER de gran detalle para especificaciones de vehículos

AutoSpecNER es un conjunto de datos de 659 anuncios de automóviles con más de 10.000 entidades anotadas en 15 categorías. Alcanza un acuerdo entre anotadores del 91,5% y muestra que DeBERTa supera tanto a los métodos basados en reglas como a los grandes modelos de lenguaje en la extracción de especificaciones de vehículos, alcanzando una puntuación micro-F1 del 90%.

arxiv arXiv cs.CL · hace 2 h

Era de los LLM: Benchmark para el razonamiento y la diplomacia de los LLM

Age of LLM introduce un benchmark por turnos 1v1 donde dos LLM compiten en una cuadrícula de 13x7 bajo niebla de guerra, diplomacia completa y estrictas reglas de fiabilidad JSON. Los hallazgos muestran que la carrera nuclear domina, la diplomacia es prolífica pero rara vez tiene éxito, y las acciones ilegales revelan errores de seguimiento de creencias, con un vínculo débil entre fiabilidad y victoria. El corpus es pequeño y desequilibrado, y los resultados ofrecen una visión preliminar del razonamiento de los LLM bajo incertidumbre adversarial.

arxiv arXiv cs.CL · hace 2 h

ExtractConf: Motor de confianza multi-señal para extracción de documentos en LLM

ExtractConf presenta un motor de confianza que utiliza lecturas duales de LLM —guiadas por campo y guiadas por documento— para detectar extracciones no confiables. Fusiona el desacuerdo entre llamadas, la incertidumbre del LLM y las señales del documento en un clasificador, logrando 0.928 ROC AUC en facturas y reduciendo el riesgo de predicción selectiva en un 70%.

arxiv arXiv cs.CL · hace 2 h

El marco EDV permite el aprendizaje de experiencias confiables para sistemas agénticos

El marco EDV introduce un paradigma Ejecitar-Destilar-Verificar para superar la trampa de autoconfirmación en agentes de modelos de lenguaje grandes. Al utilizar múltiples agentes para explorar tareas, un agente de tercera parte para destilar experiencias y un paso de verificación basado en consenso, EDV asegura que solo se almacenen experiencias precisas en la memoria. La evaluación en tau2-bench, Mind2Web y MMTB muestra que EDV supera a las bases fuertes, demostrando su efectividad para habilitar una autoevolución robusta del agente.

arxiv arXiv cs.CL · hace 2 h

Control bayesiano para agentes de codificación

El control bayesiano mejora las decisiones de uso de herramientas en agentes de codificación modelando la incertidumbre y eligiendo dinámicamente acciones. Supera a los orquestadores de reglas fijas, especialmente cuando la verificación es costosa y los críticos proporcionan retroalimentación informativa pero imperfecta. El método también produce una puntuación de corrección más interpretable que las métricas de probabilidad de tokens o el éxito bruto de herramientas.