Todos los artículos
arxiv arXiv cs.CL · hace 1 h En vivo

La Red de Sincronización Frustrada supera a los Transformers

La Red de Sincronización Frustrada (FSN) logra una pérdida de validación menor que un transformer RoPE-SwiGLU en cada época en tareas de texto y código a nivel de caracteres. Con un millón de parámetros, FSN converge a una pérdida de validación de 1.5953 ± 0.0014, superando la pérdida convergida del transformer de 1.611. Esta ventaja persiste hasta cuatro millones de parámetros, con evaluaciones en curso más allá de esa escala.

arxiv arXiv cs.CL · hace 1 h En vivo

TW-LegalBench: Evaluando LLMs en la Ley de Taiwán

TW-LegalBench introduce un benchmark que utiliza el corpus legal público de Taiwán para evaluar el rendimiento de los modelos de lenguaje grandes en la ley taiwanesa. Incluye más de 16,000 preguntas de opción múltiple, 117 preguntas de ensayo abiertas con rúbricas de puntuación y más de 14,000 instancias de predicción de fallos. La evaluación muestra que los mejores modelos superan los umbrales de aprobación de los abogados (11%) pero se quedan cortos en el nivel de jueces/fiscales (1-2%), y tienen dificultades con las citas precisas de artículos legales en las predicciones de sentencias.

arxiv arXiv cs.CL · hace 1 h En vivo

Los LLM tienen dificultades para capturar la discriminación de ítems en evaluaciones de lectura

Un estudio descubre que los modelos de lenguaje grandes no logran medir de manera confiable la discriminación de ítems en evaluaciones de comprensión lectora. Aunque algunos modelos muestran una alineación débil con las puntuaciones calibradas por humanos —que oscilan entre 0.152 y 0.241—, los LLM actuales no capturan adecuadamente cómo los ítems de evaluación distinguen a estudiantes de diferentes niveles de competencia.

arxiv arXiv cs.CL · hace 1 h En vivo

Morpheus: Tokenizador y embebido neuronal para turco

Morpheus es un tokenizador y embebido de palabras neuronal consciente de la morfología para turco que preserva el texto original mediante codificación y decodificación sin pérdidas. Logra la menor cantidad de bits por carácter (1.425), mejora la alineación morfológica (Macro-F1 de MorphScore 0.61) y utiliza un 19% menos de memoria GPU que los tokenizadores de subpalabras con vocabulario de 64K. Los embebidos congelados de Morpheus superan a BGE-M3 y BERTurk en recuperación léxica, con MAP de familia raíz de 0.85 y ROC-AUC de 1.00.

arxiv arXiv cs.CL · hace 1 h En vivo

La edición de vectores de salida reduce la memorización en LLMs

Un nuevo método llamado edición de vectores de salida modifica mínimamente los vectores de salida de las neuronas MLP para suprimir secuencias memorizadas en modelos de lenguaje grandes, logrando hasta un 87.9% de supresión en OLMo-7B. Este enfoque supera la anulación de activaciones neuronales por un factor de 2.7 y funciona en cuatro modelos de 36-7B parámetros, con tasas de éxito que escalan con el tamaño del modelo y muestran un rendimiento consistente entre arquitecturas.

arxiv arXiv cs.CL · hace 1 h En vivo

SAMA: Marco unificado para la aumento de datos multimodales con pocos recursos

SAMA introduce un marco unificado que genera datos sintéticos de alta fidelidad y conscientes de la tarea al alinear anclas semánticas entre modalidades. Utiliza un Modelo de Lenguaje Multimodal Grande con Múltiples Expertos Colaborativos, con adaptadores compartidos y específicos de la tarea, y emplea un mecanismo de Difusión Preservadora de Anclas para la síntesis de imágenes, garantizando consistencia semántica mientras diversifica los contextos visuales. Experimentos extensos muestran que SAMA supera a los métodos más avanzados en MNER, MRE y MEE bajo condiciones de pocos recursos.

arxiv arXiv cs.CL · hace 1 h En vivo

RedactionBench: Un benchmark para la privacidad contextual en IA

RedactionBench introduce un benchmark anotado manualmente de 200 documentos diversos en 11 dominios para evaluar la redacción que preserva la privacidad. Cuenta con R-Score, una métrica a nivel de caracteres que trata las redacciones semánticamente similares por igual y reduce el sesgo derivado de las elecciones de formato. Las evaluaciones humanas revelan un desacuerdo significativo en las redacciones contextuales (47.7% de consenso), destacando la naturaleza subjetiva de la privacidad y motivando la necesidad de benchmarks estandarizados y conscientes del contexto.

arxiv arXiv cs.CL · hace 1 h En vivo

Las métricas basadas en LLM mejoran la evaluación de la significancia clínica en radiología

Un estudio introduce métricas ligeras e interpretables que afilan el límite entre errores clínicamente significativos y variaciones inofensivas en los informes de radiología. Estas métricas superan a los grandes LLM médicos y compiten con modelos propietarios, habiéndose demostrado que el entrenamiento de un solo paso es eficaz para despliegues sensibles al costo. El ajuste de dos pasos no mejora consistentemente el rendimiento y desvía el enfoque de la detección de errores hacia la robustez.

arxiv arXiv cs.CL · hace 1 h En vivo

GateMem: Evaluación de la gobernanza de memoria en agentes de memoria compartida con múltiples principios

GateMem presenta un benchmark para agentes de memoria compartida con múltiples principios, evaluando utilidad, control de acceso y olvido activo en los dominios médico, de oficina, educativo y doméstico. Ningún método logra un rendimiento sólido en los tres aspectos de gobernanza; el uso de prompts de contexto largo ofrece los mejores resultados a alto costo, mientras que los enfoques basados en recuperación y memoria externa reducen el costo pero aún sufren fugas de información.

arxiv arXiv cs.CL · hace 1 h En vivo

La receta de datos mejora el razonamiento de contexto largo en LLMs

Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando los conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.

arxiv arXiv cs.CL · hace 1 h En vivo

ScholarSum: Resumen abstractivo estudiante-profesor mediante razonamiento con grafos de conocimiento

ScholarSum introduce un marco de grafo de conocimiento jerárquico que emula un proceso estudiante-profesor para la resumización científica. Genera resúmenes fluidos y consistentes con los hechos, primero estructurando los documentos en unidades semánticas y luego refinando borradores mediante recuperación de evidencia y revisión iterativa por un componente similar a un profesor. Los experimentos muestran que ScholarSum supera a los métodos existentes en completitud y fidelidad factual.

arxiv arXiv cs.CL · hace 1 h En vivo

ImpSH mejora la detección de discurso de odio implícito en múltiples dominios

ImpSH, un marco basado en tripletes, alinea publicaciones con declaraciones implícitas y utiliza negativos semi-duros delimitados por contexto para mejorar la detección de discurso de odio implícito. Las evaluaciones en IHC, SBIC y DynaHate muestran que ImpSH supera a los métodos contrastivos supervisados estándar en configuraciones de dominio cruzado, con mayor estabilidad de representación y reducción de falsos negativos bajo cambios de dominio.

arxiv arXiv cs.CL · hace 1 h En vivo

Destilación con datos sintéticos para análisis de sentimiento financiero

Un marco transfiere conocimiento de modelos grandes ajustados por instrucciones a otros compactos utilizando datos sintéticos generados mediante estructuración de pocos ejemplos. La selección de semillas basada en agrupamiento produce ejemplos sintéticos más representativos que el muestreo aleatorio, permitiendo que los modelos compactos logren un rendimiento sólido con mínima etiquetación humana. En texto financiero complejo y ruidoso, el modelo estudiante supera al modelo maestro, mientras se mantiene competitivo en texto formal.

arxiv arXiv cs.CL · hace 1 h En vivo

RPCL mejora la extracción de pares emoción-causa multimodales

RPCL, un marco de trabajo solo de entrenamiento, mejora la confianza en los pares de extracción de pares emoción-causa multimodales al imponer márgenes de confianza discriminativos y estables. Supera a un modelo base en ECF, MECAD y MEC4 entre 2.58 y 2.83 puntos porcentuales en F1 de par e mejora el AUPRC medio de pares en todos los conjuntos de datos, con una separación más fuerte entre pares de referencia y negativos difíciles.