Todos los artículos
arxiv arXiv cs.CL · hace 4 h

Evaluación de los cambios post-reforma en la calidad de la divulgación de riesgos con un enfoque de análisis textual multidimensional

Este estudio propone un marco de análisis textual longitudinal que combina la extracción de métricas de PLN en japonés con pruebas emparejadas y análisis de funciones de cambio para evaluar cambios cualitativos en las divulgaciones de riesgos corporativos. Aplicado a las reformas de divulgación de Japón de 2019, el enfoque analiza 19.770 observaciones empresa-año durante diez años para capturar dinámicas multidimensionales que a menudo se ocultan con métodos de un solo indicador.

arxiv arXiv cs.CL · hace 5 h

Mapeo de redes de élites políticas en Europa con una canalización multilingüe conjunta de extracción de entidades y relaciones

Los investigadores presentan una canalización modular y completamente de peso abierto para la extracción conjunta multilingüe de entidades y relaciones que construye grafos de conocimiento temporales y firmados a partir de grandes corpus de noticias no estructuradas. El sistema combina reconocimiento de entidades nombradas basado en intervalos con una cascada de vinculación a Wikidata y un modelo de mezcla de expertos restringido por ontología para extraer relaciones dirigidas.

arxiv arXiv cs.CL · hace 5 h

DanceOPD: Destilación de campos generativos con política en línea

Los autores presentan DanceOPD, un marco de destilación de campos generativos con política en línea diseñado para unificar la generación de texto a imagen con capacidades de edición local y global en modelos de emparejamiento de flujos. Este enfoque enruta las muestras a campos de capacidad específicos y entrena utilizando un objetivo de MSE de velocidad para componer habilidades expertas sin interferencia mutua.

arxiv arXiv cs.CL · hace 5 h

Nemotron-TwoTower: Modelado de lenguaje con difusión utilizando contexto autoregresivo preentrenado

NVIDIA presenta Nemotron-TwoTower, un modelo de lenguaje por difusión que desacopla la representación del contexto y el denoising iterativo en dos redes separadas para superar las limitaciones de capacidad en los enfoques existentes. Construido sobre el modelo de pesos abiertos Nemotron-3-Nano-30B-A3B y entrenado con 2.1T tokens, conserva el 98.7% de la calidad de la línea base autoregresiva mientras logra una velocidad de generación en tiempo real 2.42X mayor.

arxiv arXiv cs.CL · hace 5 h

Los humanos se desconectan, los modelos de razonamiento persisten: Separar el registro de la dificultad de la asignación de deliberación

Un estudio revela que, aunque los grandes modelos de razonamiento (LRM) y los humanos dedican más tiempo a problemas más difíciles, divergen significativamente en cómo asignan la deliberación dentro de elementos específicos. Al cometer errores, los LRM generan más tokens que cuando aciertan, mientras que los humanos hacen lo contrario, dedicando menos tiempo a los ensayos que fallan.

arxiv arXiv cs.CL · hace 5 h

MemStrata: Eliminación de errores de hechos obsoletos en agentes RAG mediante validez temporal

El artículo presenta MemStrata, un sistema de memoria de recuperación diseñado para eliminar errores de hechos obsoletos en agentes de IA manteniendo la validez temporal dentro del conocimiento acumulado. A diferencia de la Generación Aumentada por Recuperación (RAG) estándar, que tiene dificultades para distinguir entre hechos duplicados y contradichos debido a la similitud de incrustaciones, MemStrata utiliza una regla determinista de suplantación para retirar información desactualizada.

arxiv arXiv cs.CL · hace 5 h

Atención Erase-then-Delta: Desacoplar direcciones de borrado y escritura en la atención lineal basada en regla delta

Los autores proponen Atención Erase-then-Delta (EDA), una regla de actualización de memoria para modelos recurrentes que desacopla la dirección utilizada para borrar información obsoleta de la dirección utilizada para escribir nuevo contenido. Este enfoque aborda la limitación de la atención lineal basada en regla delta, que no puede eliminar activamente datos desactualizados almacenados en diferentes ubicaciones antes de escribir.

arxiv arXiv cs.CL · hace 6 h

La brecha de inatención: los modelos condicionados por tarea omiten señales de seguridad

Un estudio revela que condicionar modelos de lenguaje y visión en tareas estrechas suprime su capacidad para informar sobre señales críticas para la seguridad presentes simultáneamente, las cuales pueden detectar de otro modo. Este fenómeno, denominado "brecha de inatención", demuestra una disociación entre la seguridad medida en benchmarks y la seguridad en el mundo real.

arxiv arXiv cs.CL · hace 6 h

DiARC: Distinguir muestras positivas y negativas ayuda a mejorar la capacidad de razonamiento tipo ARC en modelos de lenguaje grandes

El artículo presenta DiARC, un método que mejora las capacidades de razonamiento abstracto de los modelos de lenguaje grandes al incorporar supervisión con muestras negativas junto con ejemplos positivos. Este enfoque aborda las limitaciones de los métodos actuales que dependen en gran medida del aumento de datos o de modelos cerrados costosos.

arxiv arXiv cs.CL · hace 6 h

Ajuste de aproximaciones impulsado por el compilador para computación hiperdimensional

Los autores presentan ApproxHDC, un marco que automatiza la identificación y aplicación de aproximaciones específicas del dominio en cargas de trabajo de Computación Hiperdimensional (HDC). Este sistema extiende la infraestructura del compilador HPVM-HDC para habilitar la compilación retargetable a través de diversos backends de hardware, incluyendo CPUs, GPUs y aceleradores simulados de ReRAM y PCM.

arxiv arXiv cs.CL · hace 6 h

Difusión adversarial entre modalidades: Una encuesta de fusión de ataques, defensas y evaluación

Esta encuesta integra cuatro vías desconectadas de evaluación adversarial—ataques basados en difusión sobre texto y LLMs, clasificadores de imágenes, modelos visión-lenguaje y defensas de purificación de entrada—en un único marco conceptual. Se centra en la sección de los LLMs para unificar el vocabulario, los modelos de amenaza y las pruebas en torno a la difusión de denoising como un mecanismo generativo compartido.

arxiv arXiv cs.CL · hace 6 h

Detección de postura a nivel de tweet con cero ejemplos mejorada mediante conocimiento externo y razonamiento reflexivo de cadena de pensamiento

Los investigadores proponen KIRP, un marco de detección de postura con cero ejemplos que aborda la escasez de contexto y la relevancia implícita del objetivo en textos cortos integrando conocimiento externo con razonamiento reflexivo de cadena de pensamiento. El estudio también presenta el primer conjunto de datos japonés a nivel de tweet para la detección de postura, diseñado para apoyar esta evaluación multi-tópica.

arxiv arXiv cs.CL · hace 7 h

SocialPersona: Evaluación de perfiles personalizados y respuestas con contexto multimodal de redes sociales

Los autores presentan SocialPersona, un benchmark diseñado para evaluar si los modelos de lenguaje grandes multimodales (MLLMs) pueden recuperar preferencias reveladas a partir de cronologías longitudinales de redes sociales y utilizarlas en diálogos. Este trabajo aborda la limitación de las evaluaciones actuales que se centran únicamente en la memoria explícita, probando la capacidad del modelo para inferir intereses a partir de rastros multimodales naturales.