Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Diálogo hacia el Descubrimiento: Elicitación de Preferencias Consciente de Atributos

Diálogo hacia el Descubrimiento (D2D) es un marco orientado a atributos que mejora la búsqueda conversacional de productos guiando dinámicamente las interacciones del usuario. Adapta las prioridades de consulta y el momento de las recomendaciones, logrando una precisión en la localización del objetivo 22.2-29.9% mayor, una tasa de abandono 6.6-16.1% menor y conversaciones 27.5% más cortas en comparación con métodos existentes, con estudios de usuarios que confirman satisfacción y eficiencia mejoradas.

arxiv arXiv cs.CL · hace 2 h

MMed-Bench-IR: Un benchmark de recuperación médica multilingüe

MMed-Bench-IR introduce un benchmark heterogéneo para la recuperación de información médica multilingüe en seis idiomas. Evalúa la alineación intercultural, la discriminación de conceptos y la recuperación de evidencia a través de tres tareas distintas sin conceptos ni consultas superpuestos. La evaluación muestra caídas significativas en el rendimiento intercultural, con codificadores biomédicos en inglés que caen de 0.818 a 0.056 nDCG@10 al pasar al japonés, destacando limitaciones no detectadas por los benchmarks solo en inglés.

arxiv arXiv cs.CL · hace 2 h

La decoherencia como defensa en redes neuronales cuánticas para la detección de intrusiones

Una teoría rigurosa de N-qubits demuestra que el ruido despolarizante en las redes neuronales cuánticas estocásticas contrae exponencialmente las lecturas de Pauli, permitiendo una detección robusta de anomalías. En el conjunto de datos NSL-KDD, dicho ruido logra una resiliencia adversarial significativa sin colapso catastrófico, superando a los modelos sin ruido y a los detectores clásicos bajo ataques FGSM y PGD, con una varianza de robustez reducida y una reducción de la brecha entre entrenamiento y prueba de aproximadamente 0.01.

arxiv arXiv cs.CL · hace 2 h

SURGELLM: Puerta de características consciente de la tarea con normalización equilibrada por clase

SURGELLM introduce un marco unificado de transformadores con puerta de características quirúrgicas, tokens de prefijo condicionados a la tarea y Normalización Ponderada por Instancia para abordar desajustes en el sesgo inductivo, desequilibrio de clases y falta de integración de conocimiento léxico. La variante IWN logra un macro-F1 de 0.940 en cuatro tareas, superando a las líneas base en 0.036 en general y en 0.130 en detección de autoría, con ganancias confirmadas como léxicas en lugar de paramétricas.

arxiv arXiv cs.CL · hace 2 h

Los malos prompts provocan el colapso del modelo y errores

Los contextos deficientes en las conversaciones pueden llevar al 'encasillamiento', donde los modelos repiten respuestas incorrectas o se reducen a una única respuesta. Los experimentos muestran caídas de rendimiento del 38-40% y empeoramiento de errores con más turnos de conversación, incluso cuando las entradas iniciales son correctas. Un nuevo método, RLVR con errores sintéticos, mejora el rendimiento del modelo en un 43-60% bajo dichos contextos deficientes.

arxiv arXiv cs.CL · hace 2 h

AVOC: Compresión de Tokens Inspirada en Recuperación para Comprensión Audio-Video de Largo Alcance

AVOC mejora la comprensión audio-video de largo alcance en LLMs omni-modales mediante la introducción de un módulo de compresión de tokens aprendible. Reformula la selección de tokens como un problema de recuperación top-K, utilizando criterios de relevancia, importancia y diversidad para seleccionar tokens compactos e informativos, logrando resultados de vanguardia en OmniVideoBench y LVOmniBench, y manteniendo un rendimiento sólido en tareas de aguja en pajar de audio-video de una hora.

arxiv arXiv cs.CL · hace 2 h

Modelos Transformer: Arquitecturas, Aplicaciones y Evaluación Crítica

Esta revisión presenta una taxonomía de modelos de lenguaje basados en transformers a través de verticales de dominio, cubriendo variantes solo codificadoras, solo decodificadoras, codificador-decodificador, contexto largo, basadas en permutación y generador-discriminador. Evalúa avances posteriores a 2023 como el ajuste por instrucciones y la escalabilidad de mixture-of-experts, y analiza los despliegues de modelos en salud, finanzas, derecho, educación, servicio al cliente, escritura creativa y trabajo científico, vinculando cada uno a capacidades específicas. El artículo analiza críticamente las arquitecturas de modelos en cuatro ejes clave de despliegue, cuantifica la relación entre conteo de parámetros y costo energético, y examina cómo los métodos de alineación, el origen de los datos y la saturación de benchmarks definen el 'estado del arte'.

arxiv arXiv cs.CL · hace 2 h

UD_Czech-PDTC: Un árbol de dependencias grande y rico en géneros en Dependencias Universales

El Árbol de Dependencias de Praga-Consolidado (PDT-C) ha sido convertido a Dependencias Universales, dando lugar a UD_Czech-PDTC. Este recurso es más del doble del tamaño del PDT original y significativamente más diverso en géneros y dominios. A pesar de las diferencias estructurales y de granularidad entre PDT-C y UD, las anotaciones multicapa de PDT-C proporcionan datos completos útiles para árboles básicos de UD y más allá.

arxiv arXiv cs.CL · hace 2 h

MorfFlex: Gestión de la rica morfología en checo

MorfFlex es una arquitectura de diccionario morfológico diseñada para idiomas con inflexión y derivación complejas. MorfFlex CZ, su implementación principal, contiene más de 100 millones de formas léxicas y más de 1 millón de lemas, reducidos mediante patrones de inflexión y derivación codificados. Soporta la consistencia en la anotación de los Prague Dependency Treebanks y alimenta herramientas como MorphoDiTa.

arxiv arXiv cs.CL · hace 2 h

ComputeFHE: Una biblioteca de computación de propósito general que preserva la privacidad

ComputeFHE es una biblioteca C++ de código abierto que permite computación que preserva la privacidad utilizando el criptosistema TFHE. Ofrece tipos de datos enteros y de punto fijo cifrados con operaciones aritméticas y lógicas, soportando arquitecturas ALU estándar y optimizadas amigables para FHE. Los resultados experimentales muestran mejoras de rendimiento de hasta 3.9x y reducción de operaciones de bootstrapping, con un modo de simulación para pruebas y análisis de complejidad sin ejecución criptográfica.

arxiv arXiv cs.CL · hace 2 h

Estabilidad del ranking de prompts en la evaluación de LLM

Los rankings de prompts en la evaluación de modelos de lenguaje grandes a menudo son inestables bajo variaciones menores como semillas aleatorias y subconjuntos limitados. Una estrategia de selección consciente de la estabilidad que utiliza límites inferiores de confianza mejora la robustez al tener en cuenta tanto el rendimiento como la varianza, mientras mantiene la competitividad en entornos estables.

arxiv arXiv cs.CL · hace 2 h

Era de los LLM: Benchmark para el razonamiento y la diplomacia de los LLM

Age of LLM introduce un benchmark por turnos 1v1 donde dos LLM compiten en una cuadrícula de 13x7 bajo niebla de guerra, diplomacia completa y estrictas reglas de fiabilidad JSON. Los hallazgos muestran que la carrera nuclear domina, la diplomacia es prolífica pero rara vez tiene éxito, y las acciones ilegales revelan errores de seguimiento de creencias, con un vínculo débil entre fiabilidad y victoria. El corpus es pequeño y desequilibrado, y los resultados ofrecen una visión preliminar del razonamiento de los LLM bajo incertidumbre adversarial.

arxiv arXiv cs.CL · hace 2 h

El marco EDV permite el aprendizaje de experiencias confiables para sistemas agénticos

El marco EDV introduce un paradigma Ejecitar-Destilar-Verificar para superar la trampa de autoconfirmación en agentes de modelos de lenguaje grandes. Al utilizar múltiples agentes para explorar tareas, un agente de tercera parte para destilar experiencias y un paso de verificación basado en consenso, EDV asegura que solo se almacenen experiencias precisas en la memoria. La evaluación en tau2-bench, Mind2Web y MMTB muestra que EDV supera a las bases fuertes, demostrando su efectividad para habilitar una autoevolución robusta del agente.

arxiv arXiv cs.CL · hace 2 h

Control bayesiano para agentes de codificación

El control bayesiano mejora las decisiones de uso de herramientas en agentes de codificación modelando la incertidumbre y eligiendo dinámicamente acciones. Supera a los orquestadores de reglas fijas, especialmente cuando la verificación es costosa y los críticos proporcionan retroalimentación informativa pero imperfecta. El método también produce una puntuación de corrección más interpretable que las métricas de probabilidad de tokens o el éxito bruto de herramientas.