Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

Optimización de Preferencias Culturales Dirigibles en Modelos de Recompensa

Este artículo presenta SCPO, un nuevo algoritmo de entrenamiento de modelos de recompensa que equilibra diversas preferencias culturales entre subcomunidades. SCPO mejora el rendimiento de los modelos de recompensa de minorías hasta en 7 puntos en dos conjuntos de datos y siete países, mientras que es hasta un 280% más eficiente en el uso de datos de entrenamiento que el ajuste fino con todos los datos. El análisis muestra una reducción del sesgo a través de la evaluación dirigida de las preferencias de la subcomunidad.

arxiv arXiv cs.CL · hace 1 h En vivo

BCL: Aprendizaje en contexto bayesiano para extracción de información

BCL es el primer marco que utiliza filtrado de partículas y actualizaciones bayesianas para refinar sistemáticamente las representaciones de etiquetas en la extracción de información. Logra un rendimiento consistente a través de escalas de modelos y se generaliza tanto al etiquetado de secuencias como a la clasificación de relaciones mediante cuatro pasos clave: inicialización, observación, actualización de pesos y remuestreo.

arxiv arXiv cs.CL · hace 1 h En vivo

PragReST: Razonamiento contrafáctico auto-reforzante para la comprensión del lenguaje pragmático

PragReST es un marco de aprendizaje autosupervisado que mejora el razonamiento pragmático de los modelos de lenguaje grandes mediante la generación de trazas de razonamiento contrafáctico y el entrenamiento mediante ajuste fino supervisado y aprendizaje por refuerzo. Supera a los modelos base en cuatro benchmarks pragmáticos, mejorando la precisión de Qwen3-8B y Qwen3-14B en un 5.37% y un 5-5.50% respectivamente, y mantiene un rendimiento sólido en tareas de razonamiento sobre conocimiento general y matemático.

arxiv arXiv cs.CL · hace 1 h En vivo

Los segmentos de mitad a finales de los artículos de investigación revelan información metodológica clave

Este estudio encuentra que la información metodológica en los artículos de investigación está distribuida de manera desigual, con los segmentos de mitad a finales y los finales mostrando mayor poder discriminativo. Combinar estos segmentos con metadatos bibliográficos mejora la precisión de la clasificación automática del método de investigación en la ciencia de la biblioteca y la información.

arxiv arXiv cs.CL · hace 1 h En vivo

PEC-Home: Conjunto de datos simulado para la interpretación de comandos elípticos

PEC-Home es el primer conjunto de datos simulado diseñado para permitir que los asistentes del hogar inteligente interpreten comandos progresivamente elípticos. Los experimentos muestran que incluso con herramientas de historial de diálogo, modelos de lenguaje grandes como GPT-4o no logran una ejecución precisa de comandos a partir de entradas elípticas, lo que destaca una brecha significativa en las capacidades actuales de los asistentes.

arxiv arXiv cs.CL · hace 1 h En vivo

La Red de Sincronización Frustrada supera a los Transformers

La Red de Sincronización Frustrada (FSN) logra una pérdida de validación menor que un transformer RoPE-SwiGLU en cada época en tareas de texto y código a nivel de caracteres. Con un millón de parámetros, FSN converge a una pérdida de validación de 1.5953 ± 0.0014, superando la pérdida convergida del transformer de 1.611. Esta ventaja persiste hasta cuatro millones de parámetros, con evaluaciones en curso más allá de esa escala.

arxiv arXiv cs.CL · hace 1 h En vivo

TW-LegalBench: Evaluando LLMs en la Ley de Taiwán

TW-LegalBench introduce un benchmark que utiliza el corpus legal público de Taiwán para evaluar el rendimiento de los modelos de lenguaje grandes en la ley taiwanesa. Incluye más de 16,000 preguntas de opción múltiple, 117 preguntas de ensayo abiertas con rúbricas de puntuación y más de 14,000 instancias de predicción de fallos. La evaluación muestra que los mejores modelos superan los umbrales de aprobación de los abogados (11%) pero se quedan cortos en el nivel de jueces/fiscales (1-2%), y tienen dificultades con las citas precisas de artículos legales en las predicciones de sentencias.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLM tienen dificultades para capturar la discriminación de ítems en evaluaciones de lectura

Un estudio descubre que los modelos de lenguaje grandes no logran medir de manera confiable la discriminación de ítems en evaluaciones de comprensión lectora. Aunque algunos modelos muestran una alineación débil con las puntuaciones calibradas por humanos —que oscilan entre 0.152 y 0.241—, los LLM actuales no capturan adecuadamente cómo los ítems de evaluación distinguen a estudiantes de diferentes niveles de competencia.

arxiv arXiv cs.CL · hace 1 h En vivo

Morpheus: Tokenizador y embebido neuronal para turco

Morpheus es un tokenizador y embebido de palabras neuronal consciente de la morfología para turco que preserva el texto original mediante codificación y decodificación sin pérdidas. Logra la menor cantidad de bits por carácter (1.425), mejora la alineación morfológica (Macro-F1 de MorphScore 0.61) y utiliza un 19% menos de memoria GPU que los tokenizadores de subpalabras con vocabulario de 64K. Los embebidos congelados de Morpheus superan a BGE-M3 y BERTurk en recuperación léxica, con MAP de familia raíz de 0.85 y ROC-AUC de 1.00.

arxiv arXiv cs.CL · hace 1 h En vivo

La edición de vectores de salida reduce la memorización en LLMs

Un nuevo método llamado edición de vectores de salida modifica mínimamente los vectores de salida de las neuronas MLP para suprimir secuencias memorizadas en modelos de lenguaje grandes, logrando hasta un 87.9% de supresión en OLMo-7B. Este enfoque supera la anulación de activaciones neuronales por un factor de 2.7 y funciona en cuatro modelos de 36-7B parámetros, con tasas de éxito que escalan con el tamaño del modelo y muestran un rendimiento consistente entre arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

SAMA: Marco unificado para la aumento de datos multimodales con pocos recursos

SAMA introduce un marco unificado que genera datos sintéticos de alta fidelidad y conscientes de la tarea al alinear anclas semánticas entre modalidades. Utiliza un Modelo de Lenguaje Multimodal Grande con Múltiples Expertos Colaborativos, con adaptadores compartidos y específicos de la tarea, y emplea un mecanismo de Difusión Preservadora de Anclas para la síntesis de imágenes, garantizando consistencia semántica mientras diversifica los contextos visuales. Experimentos extensos muestran que SAMA supera a los métodos más avanzados en MNER, MRE y MEE bajo condiciones de pocos recursos.

arxiv arXiv cs.CL · hace 1 h En vivo

RedactionBench: Un benchmark para la privacidad contextual en IA

RedactionBench introduce un benchmark anotado manualmente de 200 documentos diversos en 11 dominios para evaluar la redacción que preserva la privacidad. Cuenta con R-Score, una métrica a nivel de caracteres que trata las redacciones semánticamente similares por igual y reduce el sesgo derivado de las elecciones de formato. Las evaluaciones humanas revelan un desacuerdo significativo en las redacciones contextuales (47.7% de consenso), destacando la naturaleza subjetiva de la privacidad y motivando la necesidad de benchmarks estandarizados y conscientes del contexto.

arxiv arXiv cs.CL · hace 1 h En vivo

Las métricas basadas en LLM mejoran la evaluación de la significancia clínica en radiología

Un estudio introduce métricas ligeras e interpretables que afilan el límite entre errores clínicamente significativos y variaciones inofensivas en los informes de radiología. Estas métricas superan a los grandes LLM médicos y compiten con modelos propietarios, habiéndose demostrado que el entrenamiento de un solo paso es eficaz para despliegues sensibles al costo. El ajuste de dos pasos no mejora consistentemente el rendimiento y desvía el enfoque de la detección de errores hacia la robustez.