Todos los artículos
arxiv arXiv cs.CL · hace 2 h

PORTER: Representaciones de eventos ancladas al lenguaje para modelos base de EHR portátiles

PORTER introduce un modelo base de EHR estructurado con anclaje lingüístico que representa eventos clínicos mediante descripciones en lugar de vocabularios fijos. Logra un rendimiento superior en 74 tareas de predicción pediátrica y se transfiere eficazmente a nuevos vocabularios sin reentrenamiento, recuperando el 97.1% del AUROC objetivo y superando a los modelos de vocabulario fijo en MIMIC, con 329 veces menos cómputo que los enfoques de serialización de texto.

arxiv arXiv cs.CL · hace 2 h

La calibración del monitor LoRA falla con Top-1 en LM de difusión

La concentración del argmax Top-1 falla como advertencia de colapso en modelos de lenguaje de difusión optimizados con LoRA, mostrando precisión cero en 816 configuraciones. La norma máxima del gradiente LoRA supera esta línea base, alcanzando una precisión de 0.68 y F1 de 0.79 en un conjunto LLaDA retenido, aunque los resultados se limitan a inspecciones de horizonte corto y específicas de familia.

arxiv arXiv cs.CL · hace 2 h

Metis: Uniendo la memoria de texto y código para agentes autoevolutivos

Metis introduce una memoria dual jerárquica que combina memoria de texto y código para mejorar los agentes autoevolutivos. Organiza la experiencia en planes de ejecución, hechos y trampas, cristalizando los planes reutilizables en herramientas validadas solo cuando está justificado. Evaluado en AppWorld, Metis logra hasta un 20.6% más de precisión en tareas y un 22.8% menos de costo de ejecución que ReAct, con un mejor equilibrio general entre precisión, eficiencia y costo de memoria.

arxiv arXiv cs.CL · hace 2 h

BehaviorBench lanza un benchmark para modelos de IA conductual

BehaviorBench presenta un benchmark integral para evaluar modelos fundamentales en cuatro capacidades de la ciencia del comportamiento: predicción de conducta, toma de decisiones estratégicas, inferencia de rasgos del sujeto y aplicación de conocimientos. Evalúa los modelos tanto a nivel individual como distribucional, revelando que los modelos fundamentales conductuales como Be.FM-1.5 logran una alineación distribucional más fuerte que los modelos de propósito general, destacando la necesidad de evaluación distribucional en IA conductual.

arxiv arXiv cs.CL · hace 2 h

CORE-BREW: Decodificación suave basada en LLR para marca de agua multi-bit robusta en LLM

CORE-BREW introduce un método de decodificación de decisión suave que utiliza razones de verosimilitud logarítmica calibradas para habilitar la marca de agua multi-bit robusta en LLM. Logra tasas de acierto consistentes y un mejor control de falsos positivos mediante modos de detección estrictos y calibrados según FPR, superando a las líneas base anteriores bajo ediciones a nivel de token y paráfrasis mientras preserva la calidad semántica.

arxiv arXiv cs.CL · hace 2 h

Fundación Pāniniana para el Procesamiento de Lenguas Indic

Un nuevo conjunto de pruebas propone aprovechar la gramática antigua de Pānini como un marco unificador para el procesamiento de lenguas indic. Este enfoque tiene como objetivo mejorar la precisión, la eficiencia de los datos y la transferibilidad al fundamentar las herramientas de PLN en una arquitectura morfosintáctica compartida. El marco plantea preguntas sobre si los modelos neuronales representan internamente las categorías lingüísticas de Pānini.

arxiv arXiv cs.CL · hace 2 h

Digi Turbine: Un benchmark de PINN consciente de la fiabilidad para el monitoreo eólico marino

Digi Turbine es un benchmark sintético que combina un modelo simplificado de viga con una fundación de suelo Winkler en su objetivo de entrenamiento. Utiliza identificación inversa bayesiana y cribado del Método de Fiabilidad de Primer Orden para permitir la estimación fiable del estado a partir de datos de sensores escasos. La validación se basa en configuraciones sintéticas derivadas de la turbina NREL 5MW.

arxiv arXiv cs.CL · hace 2 h

Agon: Sistema de investigación autónomo mediante economía de prompts

Agon es un sistema de investigación autónomo que utiliza la economía de prompts para validar afirmaciones comprobables en flujos de trabajo, dejando el juicio a los científicos humanos. Opera a través de 444 iteraciones con mínimos prompts y sin código escrito por humanos, revelando una taxonomía de fallos por severidad, capacidad de corrección, visibilidad y locus de capacidad. El sistema demuestra escalabilidad y avanza la investigación hacia un paradigma donde las máquinas manejan la escala y los humanos guían el juicio.

arxiv arXiv cs.CL · hace 2 h

Evolución del sentimiento basado en aspectos en revisiones por pares multironda

Un estudio de aprendizaje profundo analiza la evolución del sentimiento a través de las rondas de revisión en 11,063 artículos de Nature Communications. A medida que aumentan las rondas de revisión, los sentimientos positivos se elevan y los negativos disminuyen, con los sentimientos a nivel de aspecto mostrando una correlación negativa con el número total de rondas, particularmente en 'experimentos', 'significancia de la investigación' y 'análisis de resultados'.

arxiv arXiv cs.CL · hace 2 h

ReCARE: Borrado robusto de conceptos co-ocurrentes retenidos en el desprendimiento difusivo

ReCARE introduce un marco que preserva los conceptos benignos co-ocurrentes durante el desprendimiento definiendo CARE (conceptos asociados co-ocurrentes retenidos) y utilizando una puntuación CARE para cuantificar su retención. Construye automáticamente un conjunto CARE a partir de imágenes objetivo y lo integra en el entrenamiento para garantizar un desprendimiento estable mientras borra únicamente el concepto objetivo.

arxiv arXiv cs.CL · hace 3 h

Diálogo hacia el Descubrimiento: Elicitación de Preferencias Consciente de Atributos

Diálogo hacia el Descubrimiento (D2D) es un marco orientado a atributos que mejora la búsqueda conversacional de productos guiando dinámicamente las interacciones del usuario. Adapta las prioridades de consulta y el momento de las recomendaciones, logrando una precisión en la localización del objetivo 22.2-29.9% mayor, una tasa de abandono 6.6-16.1% menor y conversaciones 27.5% más cortas en comparación con métodos existentes, con estudios de usuarios que confirman satisfacción y eficiencia mejoradas.

arxiv arXiv cs.CL · hace 3 h

MMed-Bench-IR: Un benchmark de recuperación médica multilingüe

MMed-Bench-IR introduce un benchmark heterogéneo para la recuperación de información médica multilingüe en seis idiomas. Evalúa la alineación intercultural, la discriminación de conceptos y la recuperación de evidencia a través de tres tareas distintas sin conceptos ni consultas superpuestos. La evaluación muestra caídas significativas en el rendimiento intercultural, con codificadores biomédicos en inglés que caen de 0.818 a 0.056 nDCG@10 al pasar al japonés, destacando limitaciones no detectadas por los benchmarks solo en inglés.

arxiv arXiv cs.CL · hace 3 h

La decoherencia como defensa en redes neuronales cuánticas para la detección de intrusiones

Una teoría rigurosa de N-qubits demuestra que el ruido despolarizante en las redes neuronales cuánticas estocásticas contrae exponencialmente las lecturas de Pauli, permitiendo una detección robusta de anomalías. En el conjunto de datos NSL-KDD, dicho ruido logra una resiliencia adversarial significativa sin colapso catastrófico, superando a los modelos sin ruido y a los detectores clásicos bajo ataques FGSM y PGD, con una varianza de robustez reducida y una reducción de la brecha entre entrenamiento y prueba de aproximadamente 0.01.

arxiv arXiv cs.CL · hace 3 h

SURGELLM: Puerta de características consciente de la tarea con normalización equilibrada por clase

SURGELLM introduce un marco unificado de transformadores con puerta de características quirúrgicas, tokens de prefijo condicionados a la tarea y Normalización Ponderada por Instancia para abordar desajustes en el sesgo inductivo, desequilibrio de clases y falta de integración de conocimiento léxico. La variante IWN logra un macro-F1 de 0.940 en cuatro tareas, superando a las líneas base en 0.036 en general y en 0.130 en detección de autoría, con ganancias confirmadas como léxicas en lugar de paramétricas.

arxiv arXiv cs.CL · hace 3 h

Los malos prompts provocan el colapso del modelo y errores

Los contextos deficientes en las conversaciones pueden llevar al 'encasillamiento', donde los modelos repiten respuestas incorrectas o se reducen a una única respuesta. Los experimentos muestran caídas de rendimiento del 38-40% y empeoramiento de errores con más turnos de conversación, incluso cuando las entradas iniciales son correctas. Un nuevo método, RLVR con errores sintéticos, mejora el rendimiento del modelo en un 43-60% bajo dichos contextos deficientes.

arxiv arXiv cs.CL · hace 3 h

AVOC: Compresión de Tokens Inspirada en Recuperación para Comprensión Audio-Video de Largo Alcance

AVOC mejora la comprensión audio-video de largo alcance en LLMs omni-modales mediante la introducción de un módulo de compresión de tokens aprendible. Reformula la selección de tokens como un problema de recuperación top-K, utilizando criterios de relevancia, importancia y diversidad para seleccionar tokens compactos e informativos, logrando resultados de vanguardia en OmniVideoBench y LVOmniBench, y manteniendo un rendimiento sólido en tareas de aguja en pajar de audio-video de una hora.