Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Beaver: Arnés de agente para curación científica a partir de fuentes multimodales

Beaver es un arnés de agente que extrae información estructurada de artículos científicos integrando herramientas de evidencia multimodal, andamiaje de tareas y autoresearch basado en artefactos. Alcanza 81.0 en la Puntuación de Atributos con Referencia Dorada, superando a agentes de vanguardia por más de 23 puntos, con ganancias clave en atributos de alto valor que requieren razonamiento cross-modal.

arxiv arXiv cs.CL · hace 1 h En vivo

Metanym Game: Benchmark autocontenido de LLM para inteligencia estructural

El Metanym Game introduce un benchmark resistente a la contaminación para LLMs que mide la inteligencia estructural mediante la creación dinámica y al vuelo de analogías. Una descomposición en valores singulares de las calificaciones del evaluador revela tanto la competencia de generación como la de juzgamiento, con una correlación fuerte entre precisión factual y GPQA Diamond en r = 0.92. El juicio es una habilidad más rara: los mejores generadores son jueces promedio, mientras que los mejores jueces producen salidas de nivel medio, y los modelos más fuertes obtienen asientos en un consejo que se autoevalúa y gobierna el benchmark.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLMs caen en el engaño más que los humanos

Un estudio encuentra que todos los 21 LLMs evaluados caen en trampas engañosas a una tasa significativamente mayor que los atacantes humanos. A pesar de reconocer las trampas en su razonamiento, los LLMs explotan elementos engañosos el 73.4% del tiempo, sin correlación entre el reconocimiento y el comportamiento (Spearman r = +0.-08, p = 0.73). Estos resultados muestran que las teorías de engaño centradas en humanos no se aplican a los atacantes de IA, lo que exige investigación de defensa nativa para IA.

arxiv arXiv cs.CL · hace 1 h En vivo

ConceptE: Expansión de Ontología de Eventos Mejorada con LLM

ConceptE presenta un marco que utiliza modelos de lenguaje grandes para derivar semántica a nivel de concepto a partir de activadores de eventos, permitiendo una agrupación de eventos más coherente y una expansión jerárquica confiable. Los experimentos en ACE, ERE y MAVEN muestran que ConceptE supera a los métodos existentes, con hasta un 12.37\% de mejora en BCubed-F1 y un 6.48\% en Taxo_F1.

arxiv arXiv cs.CL · hace 1 h En vivo

Los metadatos demográficos perjudican la puntuación de ensayos con DistilBERT

Un estudio descubre que concatenar metadatos demográficos con texto en modelos de puntuación de ensayos basados en DistilBERT degrada la precisión predictiva y aumenta el sesgo en la puntuación. El modelo experimental obtuvo un Kappa ponderado cuadrático más bajo (0,656 frente a 0,727) y una pérdida de validación más alta (1,29 frente a 1,25), con una paridad de puntuaciones que disminuyó de 15 a 12 de cada 19 pruebas.

arxiv arXiv cs.CL · hace 1 h En vivo

Anotación de emociones multietiqueta: Análisis de acuerdo y votación suave

Un estudio de caso evalúa cómo la variación entre anotadores y los métodos de agregación afectan la anotación de emociones multietiqueta. El artículo muestra que las etiquetas de proporción de votación suave, incluidas las variantes ponderadas por intensidad, capturan mejor la incertidumbre del anotador y mejoran la alineación del modelo con la varianza empírica en comparación con las etiquetas duras.

arxiv arXiv cs.CL · hace 1 h En vivo

Transformer de doble rama coordinado por FiLM para modelado de lenguaje

Una nueva arquitectura Transformer introduce ramas globales y locales separadas para el modelado de lenguaje, utilizando FiLM para coordinarlas dinámicamente. Los experimentos muestran que supera a los modelos de rama única y de doble rama debilitados en conjuntos de datos pequeños como TinyShakespeare y WikiText-2, con resultados estables en múltiples semillas y patrones de modulación selectiva por canal.

arxiv arXiv cs.CL · hace 1 h En vivo

OTTER: Sistema de Pruebas de Penetración para la Optimización de Prompts de Jailbreak que Evaden la Toxicidad

OTTER es un marco de pruebas de penetración de caja negra que elude los filtros de toxicidad modificando tan solo cinco tokens. Evaluado en 457 prompts de AdvBench a través de cuatro modelos GPT, aumenta la tasa de éxito de jailbreak del 7.0% al 84.0%, ofreciendo el primer análisis cuantitativo de las relaciones de evasión de toxicidad y recomendaciones accionables para el endurecimiento del clasificador.

arxiv arXiv cs.CL · hace 1 h En vivo

Análisis mecanicista con validación para la detección de suicidio en LLMs

Un marco con validación evalúa las características internas de los LLM solo después de observar el comportamiento, revelando una característica intermedia de la red que contribuye causalmente a la detección del suicidio. Esta característica es semántica, de rango bajo, transversal a modelos y específica para el suicidio en lugar de la angustia general, aunque la dirección es necesaria pero no suficiente. El patrón muestra que los modelos más pequeños codifican el suicidio pero solo los más grandes actúan sobre él, con evidencia limitada al texto de Reddit en inglés.

media r/LocalLLaMA · hace 1 h En vivo

Nuevo operador de ablación: edición de covector contrastivo

Apostate introduce un nuevo operador de edición de covector contrastivo definido como E = I − R Dᵀ. Este método elimina el comportamiento de rechazo al aislar la varianza dañina mientras preserva el comportamiento inofensivo a través de un predictor W entrenado en activaciones inofensivas y suprimido en prompts dañinos. En granite-3.3-8b, reduce la tasa de rechazo del 96.0% al 5.0% con solo un aumento de 0.081-nat en la divergencia KL inofensiva.

arxiv arXiv cs.CL · hace 1 h En vivo

Transformers de atención jerárquica para la detección de jailbreaks multi-turno

Un nuevo modelo de atención jerárquica detecta jailbreaks multi-turno codificando los turnos en representaciones compactas y utilizando un módulo de conversación ligero para capturar las dinámicas del diálogo. En 14,038 conversaciones, alcanza una puntuación F1 de 0.9394, superando a Claude Opus 4.7 por 0.07 y reduciendo la tasa de falsos positivos a la mitad. Los estudios de ablation muestran que combinar la atención cruzada y la autoatención en el módulo de conversación reduce los falsos positivos en 2.26 puntos porcentuales.

arxiv arXiv cs.CL · hace 1 h En vivo

El marco GRAG desacopla la fundamentación y la personalización en IA conversacional

GRAG desacopla la fundamentación de contenido y la personalización en modelos conversacionales mediante el uso de respuestas genéricas de grandes modelos de lenguaje como andamiaje estructural. Este enfoque permite que modelos más pequeños y con recursos limitados logren hasta un 47% de mejora en ROUGE-2 y un 36% en puntuaciones BLEU sobre métodos de última generación en diversos benchmarks.

arxiv arXiv cs.CL · hace 1 h En vivo

Ingeniería de Respuestas: Edición de Trayectorias Locales para la Toma de Decisiones Restringida por Protocolo

La Ingeniería de Respuestas introduce una capa en tiempo de ejecución que aplica correcciones localizadas basadas en reglas a la trayectoria de razonamiento de un modelo durante la generación, sin necesidad de reentrenamiento. En una evaluación clínica para la pérdida auditiva neurosensorial súbita, aumentó los resultados conformes al protocolo del 54,5% al 83,5% y el cumplimiento en casos conductivos del 1,6% al 58,9%.

arxiv arXiv cs.CL · hace 1 h En vivo

Un estudio revela que la IA sigue sin detectar alucinaciones en citas legales

Un nuevo estudio revela que más de 1.000 escritos legales contienen citas fabricadas, con un número que aumenta anualmente. La evaluación de cinco modelos de IA muestra un rendimiento mejorado, con GPT-5 alcanzando una recuperación del 82,8% y un F1 de 60,5 en entornos agénticos, aunque todos los modelos tienen dificultades con errores sutiles y enfrentan limitaciones de recursos debido al acceso limitado a la información.

arxiv arXiv cs.CL · hace 1 h En vivo

MedLayXPlain: Evaluando la brecha entre expertos y no expertos en modelos de visión e idioma médicos

MedLayXPlain presenta el primer benchmark a gran escala para la generación de lenguaje médico para no expertos, con 122.789 muestras ancladas por región en ocho modalidades de imagen. Evalúa modelos de visión e idioma médicos en la alineación entre expertos y no expertos utilizando un sistema de ontología jerárquica y un evaluador ligero, revelando una brecha sistemática: el rendimiento a nivel de experto en la generación de descripciones coexiste con una degradación significativa en el lenguaje para no expertos, mientras que los modelos de propósito general carecen de precisión clínica.

arxiv arXiv cs.CL · hace 1 h En vivo

Referencia basada en perfiles en el anclaje de LLM

El artículo sostiene que la referencia en los modelos de lenguaje grandes no es un enlace fijo, sino un fenómeno basado en perfiles, sensible al contexto y estructurado numéricamente. Propone que los LLM anclan la referencia a través de rastros lingüísticos parametrizados mediante optimización, con perfiles referenciales distribuidos y activados mediante computaciones sensibles al contexto en espacios vectoriales.