Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Expansión fundamentada en juicios para la generación de revisiones por pares

Un nuevo método de colaboración humano-IA llamado expansión fundamentada en juicios permite la generación responsable de revisiones por pares. El enfoque implica que un revisor proporcione una afirmación evaluativa, la cual el sistema expande en candidatos a comentarios de revisión mediante un proceso estructurado de generar-verificar-refinar. El estudio aborda la evaluación escalable y la curación del conjunto de candidatos, mostrando que la predicción conforme equilibra eficazmente el tamaño de los candidatos y la cobertura.

arxiv arXiv cs.CL · hace 1 h En vivo

KDoS: Síntesis optimizada por distribución para la expansión del conocimiento de LLM

KDoS introduce la densidad de conocimiento para guiar la generación de datos sintéticos a través de un mecanismo de retroalimentación en tres etapas. Los experimentos en modelos de 0.6B a 16B y escalas de datos de 1B a 5B tokens muestran que una distribución óptima del conocimiento maximiza consistentemente la expansión del límite de conocimiento, es estable entre diferentes arquitecturas de modelos y supera a los métodos base en seis benchmarks de conocimiento.

arxiv arXiv cs.CL · hace 1 h En vivo

Benchmark IMLogic y Framework RootMem para la Recuperación de Memoria Lógica Implícita

IMLogic es el primer benchmark de alta calidad para evaluar la recuperación de memoria lógica implícita en escenarios de diálogo largo. RootMem introduce una representación estructurada y preservadora de decisiones llamada memoria raíz para destilar lógica personalizada reutilizable a partir de historiales de usuario, y utiliza un enrutador basado en LLM para activar las memorias relevantes, superando a las líneas base de recuperación existentes en precisión.

arxiv arXiv cs.CL · hace 1 h En vivo

El ancho de segmentación y el tamaño del clúster impactan la resíntesis de habla en GSLMs

Variar el ancho de segmentación y el tamaño del clúster en modelos de lenguaje hablado generativos permite una síntesis de habla inteligible y natural a tasas de bits más bajas que las de referencia. La calidad de la continuación del habla permanece estable a estas tasas de bits más bajas según múltiples métricas, lo que indica que los ajustes convencionales pueden no ser necesarios. Las métricas basadas en LLM se correlacionan mejor con los juicios humanos pero aún muestran una alineación baja, subrayando la necesidad de mejorar la evaluación automática.

arxiv arXiv cs.CL · hace 1 h En vivo

Brecha del Oráculo CTC: Agotamiento Acústico y Recuperación Lingüística

La puntuación interna de CTC muestra ninguna mejora en WER sobre la decodización voraz en LibriSpeech, con la confianza acústica fallando en correlacionarse con la plausibilidad lingüística. La decodización MBR usando RoBERTa PLL alcanza un WER del 5.42%, superando a la decodización voraz por 0.535 pp, demostrando que la información lingüística puede superar el límite de saturación de CTC.

arxiv arXiv cs.CL · hace 1 h En vivo

Descontaminación basada en incertidumbre para la descontaminación de LLM

Proponemos la Descontaminación Basada en Incertidumbre (UBD), un método que utiliza conjuntos profundos para estimar la memorización por muestra en modelos contaminados sin necesidad de un modelo no contaminado. UBD construye una distribución objetivo corregida por sesgo a partir de la incertidumbre del conjunto para corregir las distribuciones de salida, logrando una alineación significativamente mejor con los modelos no contaminados en comparación con las líneas base, mientras mantiene el rendimiento en datos limpios.

arxiv arXiv cs.CL · hace 1 h En vivo

Tmax: Una receta RL sencilla para agentes terminales

Tmax presenta la mejor receta RL de código abierto para agentes terminales, alcanzando un 27% en Terminal-Bench 2.0 con solo 9B parámetros. Utiliza una taxonomía de datos novedosa para generar más de 2.5x entornos terminales que los conjuntos de datos anteriores, permitiendo un entrenamiento eficiente con una receta sencilla basada únicamente en el resultado. El conjunto de datos, los modelos y el código se han publicado como código abierto en https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · hace 1 h En vivo

Nous: Un Modelo Predictivo del Mundo para la Memoria de Agentes a Largo Plazo

Nous introduce una arquitectura de memoria basada en la predicción en lugar del almacenamiento, utilizando distribuciones de probabilidad categóricas para modelar el conocimiento del mundo. Evaluado en LoCoMo con GPT-4o-mini, alcanza puntuaciones F1 de 63.50 (un solo salto), 55.32 (múltiples saltos), -58.57 (temporal) y 62.50 (dominio abierto), superando a A-MEM en tres categorías y a BeliefMem en todas, aunque las diferencias en la evaluación limitan la comparabilidad completa.

arxiv arXiv cs.CL · hace 1 h En vivo

WaveDetect: Marco para la detección de texto generado por máquinas mediante transformada wavelet

WaveDetect introduce un enfoque de procesamiento de señales que utiliza transformadas wavelet continuas para detectar texto generado por máquinas identificando huellas espectrales. Supera a los métodos existentes en precisión y robustez frente a ataques adversarios, cambios de dominio y LLMs en evolución, demostrando una fuerte generalización en los conjuntos de datos RAID, EvoBench y Domain-Shift.

arxiv arXiv cs.CL · hace 1 h En vivo

TF-RefusalBench mide la sobre-alineación en LLMs para derecho penal

TF-RefusalBench es un benchmark multilingüe derivado de sentencias del Tribunal Supremo suizo, que contiene 5.200 prompts en francés, alemán, italiano e inglés. Revela que la sobre-alineación en LLMs está influenciada por factores del modelo y del idioma, y que las negativas impactan la fidelidad de la tarea más allá de las tasas simples de rechazo. La abliteration de directivas de rechazo reduce la sobre-alineación con una pérdida mínima de rendimiento en tareas de derecho penal.

arxiv arXiv cs.CL · hace 1 h En vivo

Transformers basados en energía predicen la dificultad de lectura

Los transformers basados en energía muestran un poder predictivo robusto para los tiempos de lectura en múltiples corpus, superando al surprisal en todos los casos. La medida de energía captura las asimetrías conocidas objeto/sujeto en el procesamiento de cláusulas relativas y abarca tanto la entropía de atención como el surprisal, lo que sugiere su uso como un predictor unificado de la dificultad de lectura.

arxiv arXiv cs.CL · hace 1 h En vivo

El autoestigma no es uniforme: los LLM necesitan apoyo consciente de la personalidad

Un estudio de 1,174 usuarios de Reddit revela cuatro personalidades distintas de autoestigma. Los LLM entrenados para reconocer estas personalidades superan a los modelos genéricos en respuestas dirigidas, aunque los expertos clínicos prefieren la empatía genérica al apoyo basado en la personalidad. La investigación destaca una tensión entre la empatía personalizada y la preferencia holística del usuario en intervenciones de IA relacionadas con el estigma.

arxiv arXiv cs.CL · hace 1 h En vivo

UnBias-Plus: Detectar, explicar y reescribir sesgos

UnBias-Plus es un kit de herramientas de código abierto que permite la clasificación de sesgos a nivel de segmento, la localización de segmentos con sesgo, la reescritura de texto neutral y el razonamiento de decisiones. Ofrece múltiples métodos de acceso, incluyendo Python, CLI, REST API e interfaces web, con todo el código fuente, modelos, conjuntos de datos y documentación disponibles públicamente.

arxiv arXiv cs.CL · hace 1 h En vivo

TriggerBench: Evaluando la memoria prospectiva en LLMs

TriggerBench presenta un benchmark para evaluar la memoria prospectiva en modelos de lenguaje grandes, revelando una compensación entre precisión y recuperación, y fragilidad atencional. Se encuentra que la memoria prospectiva es significativamente más difícil que la memoria retrospectiva y se correlaciona con la capacidad de razonamiento disponible, lo que indica que la MP refleja recursos cognitivos subyacentes más allá del conteo de tokens.

arxiv arXiv cs.CL · hace 1 h En vivo

Lenguaje militarizado en aumento en resúmenes científicos

Entre 2010 y 2025, los términos militaristas en resúmenes científicos aumentaron un 48% en OpenAlex y un 32% en PubMed, con un fuerte incremento después de 2019. El uso de este lenguaje está alineado con los niveles globales de conflicto y crece más rápido en publicaciones del Sur Global, particularmente en ciencias sociales e ingeniería. Un experimento controlado muestra que el encuadre bélico reduce la credibilidad percibida, la disposición a financiar y el apoyo político, con un ligero aumento en la urgencia.

arxiv arXiv cs.CL · hace 1 h En vivo

SelfCompact: Compacción de contexto autónoma para modelos de lenguaje

SelfCompact permite a los modelos de lenguaje decidir de forma autónoma cuándo y cómo compactar el contexto acumulado durante el razonamiento. Al combinar una herramienta de resumen invocada por el modelo con una rúbrica ligera que guía la compacción basada en la estructura de la trayectoria, logra una compacción adaptativa efectiva sin necesidad de ajuste fino. Los resultados muestran que iguala o supera a los métodos de intervalo fijo en benchmarks de matemáticas y búsqueda agéntica, mejorando las líneas base hasta 18.1 puntos en matemáticas y 5-9 puntos en búsqueda, con un costo de tokens un 30-70% menor.

arxiv arXiv cs.CL · hace 1 h En vivo

VeriEvol: Escalar el razonamiento matemático multimodal con evolución verificable

VeriEvol introduce un marco de construcción de datos verificable para el razonamiento matemático visual, desacoplando la dificultad del prompt y la fiabilidad de la respuesta. Evoluciona prompts de imagen-pregunta utilizando operadores conscientes del tipo y verifica las respuestas mediante falsificación por contra-evidencia multi-fuente. En cinco benchmarks, escalar de 10K a 250K muestras mejora la precisión media de 35.42 a 54.73, con un acumulado de +3.88 sobre la línea base, impulsado por prompts evolucionados y verificación HTV-Agent.

arxiv arXiv cs.CL · hace 1 h En vivo

Modelo de consumo energético para el entrenamiento de Transformers

Un nuevo marco modela el consumo energético en el entrenamiento de Transformers en múltiples GPUs. Utiliza barridos arquitecturales de BERT para vincular la energía medida con el cómputo, el tráfico de memoria y los proxies de eficiencia del hardware. El modelo, inspirado en el análisis roofline, incluye un factor de eficiencia del hardware basado en aceleración y predice la energía de entrenamiento en diversas configuraciones de GPU.

arxiv arXiv cs.CL · hace 1 h En vivo

LangMAP: Tokenización adaptativa al idioma para modelos multilingües

LangMAP extiende UnigramLM para crear tokenización específica del idioma a partir de un vocabulario compartido, permitiendo el entrenamiento o adaptación de modelos multilingües sin cambios en el vocabulario. Mejora la alineación de límites morfológicos y la alineación de hojas AST en lenguajes de programación, y mejora la aceptabilidad gramatical en los idiomas objetivo, aunque los beneficios varían en tareas basadas en conocimiento.