Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Metis: Uniendo la memoria de texto y código para agentes autoevolutivos

Metis introduce una memoria dual jerárquica que combina memoria de texto y código para mejorar los agentes autoevolutivos. Organiza la experiencia en planes de ejecución, hechos y trampas, cristalizando los planes reutilizables en herramientas validadas solo cuando está justificado. Evaluado en AppWorld, Metis logra hasta un 20.6% más de precisión en tareas y un 22.8% menos de costo de ejecución que ReAct, con un mejor equilibrio general entre precisión, eficiencia y costo de memoria.

arxiv arXiv cs.CL · hace 2 h

BehaviorBench lanza un benchmark para modelos de IA conductual

BehaviorBench presenta un benchmark integral para evaluar modelos fundamentales en cuatro capacidades de la ciencia del comportamiento: predicción de conducta, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimientos. Evalúa los modelos tanto a nivel individual como distribucional, revelando que los modelos fundamentales conductuales como Be.FM-1.5 logran una alineación distribucional más fuerte que los modelos de propósito general, destacando la necesidad de evaluación distribucional en IA conductual.

arxiv arXiv cs.CL · hace 2 h

CORE-BREW: Decodificación suave basada en LLR para marca de agua multi-bit robusta en LLM

CORE-BREW introduce un método de decodificación de decisión suave que utiliza razones de verosimilitud logarítmica calibradas para habilitar la marca de agua multi-bit robusta en LLM. Logra tasas de acierto consistentes y un mejor control de falsos positivos mediante modos de detección estrictos y calibrados según FPR, superando a las líneas base anteriores bajo ediciones a nivel de token y paráfrasis mientras preserva la calidad semántica.

arxiv arXiv cs.CL · hace 2 h

Fundación Pāniniana para el Procesamiento de Lenguas Indic

Un nuevo conjunto de pruebas propone aprovechar la gramática antigua de Pānini como un marco unificador para el procesamiento de lenguas indic. Este enfoque tiene como objetivo mejorar la precisión, la eficiencia de los datos y la transferibilidad al fundamentar las herramientas de PLN en una arquitectura morfosintáctica compartida. El marco plantea preguntas sobre si los modelos neuronales representan internamente las categorías lingüísticas de Pānini.

arxiv arXiv cs.CL · hace 2 h

Digi Turbine: Un benchmark de PINN consciente de la fiabilidad para el monitoreo eólico marino

Digi Turbine es un benchmark sintético que combina un modelo simplificado de viga con una fundación de suelo Winkler en su objetivo de entrenamiento. Utiliza identificación inversa bayesiana y cribado del Método de Fiabilidad de Primer Orden para permitir la estimación fiable del estado a partir de datos de sensores escasos. La validación se basa en configuraciones sintéticas derivadas de la turbina NREL 5MW.

arxiv arXiv cs.CL · hace 2 h

Agon: Sistema de investigación autónomo mediante economía de prompts

Agon es un sistema de investigación autónomo que utiliza la economía de prompts para validar afirmaciones comprobables en flujos de trabajo, dejando el juicio a los científicos humanos. Opera a través de 444 iteraciones con mínimos prompts y sin código escrito por humanos, revelando una taxonomía de fallos por severidad, capacidad de corrección, visibilidad y locus de capacidad. El sistema demuestra escalabilidad y avanza la investigación hacia un paradigma donde las máquinas manejan la escala y los humanos guían el juicio.

arxiv arXiv cs.CL · hace 2 h

Evolución del sentimiento basado en aspectos en revisiones por pares multironda

Un estudio de aprendizaje profundo analiza la evolución del sentimiento a través de las rondas de revisión en 11,063 artículos de Nature Communications. A medida que aumentan las rondas de revisión, los sentimientos positivos se elevan y los negativos disminuyen, con los sentimientos a nivel de aspecto mostrando una correlación negativa con el número total de rondas, particularmente en 'experimentos', 'significancia de la investigación' y 'análisis de resultados'.

arxiv arXiv cs.CL · hace 2 h

ReCARE: Borrado robusto de conceptos co-ocurrentes retenidos en el desprendimiento difusivo

ReCARE introduce un marco que preserva los conceptos benignos co-ocurrentes durante el desprendimiento definiendo CARE (conceptos asociados co-ocurrentes retenidos) y utilizando una puntuación CARE para cuantificar su retención. Construye automáticamente un conjunto CARE a partir de imágenes objetivo y lo integra en el entrenamiento para garantizar un desprendimiento estable mientras borra únicamente el concepto objetivo.

arxiv arXiv cs.CL · hace 2 h

Diálogo hacia el Descubrimiento: Elicitación de Preferencias Consciente de Atributos

Diálogo hacia el Descubrimiento (D2D) es un marco orientado a atributos que mejora la búsqueda conversacional de productos guiando dinámicamente las interacciones del usuario. Adapta las prioridades de consulta y el momento de las recomendaciones, logrando una precisión en la localización del objetivo 22.2-29.9% mayor, una tasa de abandono 6.6-16.1% menor y conversaciones 27.5% más cortas en comparación con métodos existentes, con estudios de usuarios que confirman satisfacción y eficiencia mejoradas.

arxiv arXiv cs.CL · hace 2 h

MMed-Bench-IR: Un benchmark de recuperación médica multilingüe

MMed-Bench-IR introduce un benchmark heterogéneo para la recuperación de información médica multilingüe en seis idiomas. Evalúa la alineación intercultural, la discriminación de conceptos y la recuperación de evidencia a través de tres tareas distintas sin conceptos ni consultas superpuestos. La evaluación muestra caídas significativas en el rendimiento intercultural, con codificadores biomédicos en inglés que caen de 0.818 a 0.056 nDCG@10 al pasar al japonés, destacando limitaciones no detectadas por los benchmarks solo en inglés.

arxiv arXiv cs.CL · hace 2 h

La decoherencia como defensa en redes neuronales cuánticas para la detección de intrusiones

Una teoría rigurosa de N-qubits demuestra que el ruido despolarizante en las redes neuronales cuánticas estocásticas contrae exponencialmente las lecturas de Pauli, permitiendo una detección robusta de anomalías. En el conjunto de datos NSL-KDD, dicho ruido logra una resiliencia adversarial significativa sin colapso catastrófico, superando a los modelos sin ruido y a los detectores clásicos bajo ataques FGSM y PGD, con una varianza de robustez reducida y una reducción de la brecha entre entrenamiento y prueba de aproximadamente 0.01.

arxiv arXiv cs.CL · hace 2 h

SURGELLM: Puerta de características consciente de la tarea con normalización equilibrada por clase

SURGELLM introduce un marco unificado de transformadores con puerta de características quirúrgicas, tokens de prefijo condicionados a la tarea y Normalización Ponderada por Instancia para abordar desajustes en el sesgo inductivo, desequilibrio de clases y falta de integración de conocimiento léxico. La variante IWN logra un macro-F1 de 0.940 en cuatro tareas, superando a las líneas base en 0.036 en general y en 0.130 en detección de autoría, con ganancias confirmadas como léxicas en lugar de paramétricas.

arxiv arXiv cs.CL · hace 2 h

Los malos prompts provocan el colapso del modelo y errores

Los contextos deficientes en las conversaciones pueden llevar al 'encasillamiento', donde los modelos repiten respuestas incorrectas o se reducen a una única respuesta. Los experimentos muestran caídas de rendimiento del 38-40% y empeoramiento de errores con más turnos de conversación, incluso cuando las entradas iniciales son correctas. Un nuevo método, RLVR con errores sintéticos, mejora el rendimiento del modelo en un 43-60% bajo dichos contextos deficientes.

arxiv arXiv cs.CL · hace 2 h

AVOC: Compresión de Tokens Inspirada en Recuperación para Comprensión Audio-Video de Largo Alcance

AVOC mejora la comprensión audio-video de largo alcance en LLMs omni-modales mediante la introducción de un módulo de compresión de tokens aprendible. Reformula la selección de tokens como un problema de recuperación top-K, utilizando criterios de relevancia, importancia y diversidad para seleccionar tokens compactos e informativos, logrando resultados de vanguardia en OmniVideoBench y LVOmniBench, y manteniendo un rendimiento sólido en tareas de aguja en pajar de audio-video de una hora.

arxiv arXiv cs.CL · hace 2 h

Modelos Transformer: Arquitecturas, Aplicaciones y Evaluación Crítica

Esta revisión presenta una taxonomía de modelos de lenguaje basados en transformers a través de verticales de dominio, cubriendo variantes solo codificadoras, solo decodificadoras, codificador-decodificador, contexto largo, basadas en permutación y generador-discriminador. Evalúa avances posteriores a 2023 como el ajuste por instrucciones y la escalabilidad de mixture-of-experts, y analiza los despliegues de modelos en salud, finanzas, derecho, educación, servicio al cliente, escritura creativa y trabajo científico, vinculando cada uno a capacidades específicas. El artículo analiza críticamente las arquitecturas de modelos en cuatro ejes clave de despliegue, cuantifica la relación entre conteo de parámetros y costo energético, y examina cómo los métodos de alineación, el origen de los datos y la saturación de benchmarks definen el 'estado del arte'.