Todos los artículos
media Hugging Face Forums · hace 4 h

Una guía completa y bilingüe sobre Transformers: De los fundamentos a la compresión de KV-cache y la dinámica de atención

Carles Marin ha lanzado una guía de código abierto y bilingüe (inglés y español) que conecta los fundamentos matemáticos de las arquitecturas Transformer con su implementación práctica. El recurso se centra en la mecánica de bajo nivel, proporcionando código reproducible y elementos interactivos para explicar temas complejos.

arxiv arXiv cs.CL · hace 4 h

Mitigación del p-hacking basado en LLM mediante la preregistración para el siguiente LLM

Los investigadores proponen un protocolo para mitigar el p-hacking en la investigación con modelos de lenguaje grande (LLM) mediante la preregistración de experimentos y la ejecución de análisis confirmatorios en el primer LLM elegible lanzado después del compromiso. Este enfoque impide que los investigadores ajusten prompts o parámetros para obtener resultados deseados, ya que el modelo objetivo no existe en el momento de la preregistración.

arxiv arXiv cs.CL · hace 4 h

Transcripción y descifrado conjuntos de imágenes de documentos manuscritos cifrados: una comparación con la tubería tradicional

Los investigadores proponen Descifrado Directo de Imágenes, un enfoque de extremo a extremo que mapea imágenes de manuscritos cifradas directamente a texto plano, omitiendo la etapa intermedia de transcripción utilizada en las tuberías tradicionales. Usando el cifrado Copiale como estudio de caso, los autores comparan esta arquitectura conjunta con el método convencional de dos etapas de transcripción seguido de descifrado.

arxiv arXiv cs.CL · hace 4 h

Mitigación del sesgo de posición en Transformers mediante escalado de incrustaciones posicionales específicas por capa

Los investigadores introducen el escalado de incrustaciones posicionales específicas por capa (LPES) para abordar el problema del "perdido-en-el-medio" en modelos de lenguaje grandes, donde la información crítica en entradas de contexto largo a menudo está infrarrepresentada. Este método asigna factores de escalado distintos a cada capa de Transformer para lograr una distribución de atención más equilibrada sin requerir ajuste fino de parámetros ni aumentar la latencia de inferencia.

arxiv arXiv cs.CL · hace 4 h

¿Los modelos de énfasis en el habla generalizan entre idiomas y emociones?

El artículo presenta MMEE, un corpus multilingüe y multi-emoción de 10.000 expresiones habladas a través de siete idiomas y 34 categorías emocionales, para evaluar modelos de detección de énfasis en el habla. Evalúa qué tan bien estos modelos generalizan entre diferentes contextos lingüísticos y emocionales en comparación con el entrenamiento tradicional de habla neutra monolingüe.

arxiv arXiv cs.CL · hace 4 h

Mejora de la predicción numérica en LLMs mediante alineación MMD suave

Los investigadores introducen la Discrepancia Media de Kernel Suave (SMMD) para abordar la falta de fiabilidad de los modelos de lenguaje grandes en tareas numéricamente precisas, causada por los objetivos de entrenamiento estándar de entropía cruzada. SMMD incorpora kernels de distancia de valor sobre tokens numéricos y suavidad basada en grafos para alinear las distribuciones predichas con los objetivos, fomentando al mismo tiempo la consistencia local.

arxiv arXiv cs.CL · hace 4 h

Estrategias de fusión temporal para NER en textos históricos

Este estudio investiga cómo los metadatos temporales pueden incrustarse estructuralmente en modelos de Reconocimiento de Entidades Nombradas (NER) para abordar el desafío del desplazamiento de entidades en textos históricos. Los autores evalúan sistemáticamente estrategias de fusión ligeras, incluyendo atención cruzada, adaptadores y concatenación, dentro de arquitecturas basadas en Transformers.

arxiv arXiv cs.CL · hace 5 h

Costos de Asignación en el Espacio de Salida para la Compresión de LLM Guiada por Calibración: Un Estudio Empírico

Este estudio investiga si alinear los costos de asignación con los objetivos del espacio de salida mejora la fidelidad de los modelos de lenguaje grandes comprimidos, probando específicamente una modificación al método de compresión ROCKET. Los autores comparan el uso del error de Frobenius en el espacio de pesos frente a un objetivo de reconstrucción de salida para la asignación del problema de la mochila multidimensional.

arxiv arXiv cs.CL · hace 5 h

SHIFT: Dirección de Activación Modulada por Puerta para Mitigar Conflictos de Conocimiento

El artículo presenta SHIFT, un marco novel que mitiga conflictos de conocimiento en la Generación Aumentada con Recuperación (RAG) reformulando la modificación a nivel de neurona como modulación de puerta aprendible. Este enfoque permite a los modelos de lenguaje grandes regular adaptativamente las activaciones internas para resolver conflictos entre el contexto recuperado y el conocimiento paramétrico.

arxiv arXiv cs.CL · hace 5 h

Selección de capas de atención completa guiada por NLL para adaptación de ventana deslizante sin entrenamiento

Los investigadores proponen un método sin entrenamiento para seleccionar qué capas en modelos de atención híbrida deben conservar la atención completa, abordando la ineficiencia de los patrones fijos en la inferencia de contexto largo. Al medir la degradación de la verosimilitud logarítmica negativa en los tokens de respuesta, el enfoque identifica las capas críticas para mantener la precisión al cambiar a atención de ventana deslizante.

arxiv arXiv cs.CL · hace 5 h

La corrección del sesgo de posición es insuficiente para el ordenamiento por atención de un solo pase

El estudio investiga si corregir el sesgo de posición permite que el ordenamiento por atención de un solo pase iguale el rendimiento de los métodos iterativos en modelos de lenguaje de contexto largo. Los experimentos en los modelos LLaMA-2 y YaRN-Llama-2 refutan la hipótesis de que la desviación del sesgo por sí sola es suficiente para cerrar la brecha de rendimiento.

arxiv arXiv cs.CL · hace 5 h

Lobo de Tres Cabezas: Un Rol de Bufón para la Teoría de la Mente Multi-salto en LLMs

Los investigadores ampliaron el juego del Lobo con un rol de Bufón para crear un entorno de deducción social triádico que requiere razonamiento a través de tres funciones de utilidad opuestas, desafiando las capacidades de teoría de la mente de los modelos de lenguaje grandes. Las evaluaciones en GPT-4.1, DeepSeek-V3.1 y Llama-3.3-70B revelaron que, aunque el Bufón ganó el 60-70% de las partidas, los lobos de GPT-4.1 votaron frecuentemente para expulsar al Bufón en el día 1 en el 60-70% de los casos, una acción autodestructiva impulsada por priores lingüísticos.

arxiv arXiv cs.CL · hace 5 h

Resolución de problemas geométricos verificables: Autoformalización y propuesta de teoremas impulsadas por el solver

Los investigadores proponen SD-GPS, un framework impulsado por el solver para la resolución de problemas geométricos que aborda los cuellos de botella en la autoformalización y la predicción de teoremas tratando al solver simbólico como un oráculo de ejecución. Este enfoque unifica la adaptación supervisada del lenguaje formal con el aprendizaje por refuerzo guiado por la solvabilidad para garantizar la ejecutabilidad durante la formalización.

arxiv arXiv cs.CL · hace 6 h

Un análisis empírico de errores factuales en textos escritos por humanos y su aplicación

Este estudio aborda la negligencia en la detección de errores factuales en textos escritos por humanos mediante la extracción de una taxonomía de errores a partir de correcciones de artículos periodísticos, revelando categorías como las malconversiones de kanji que están ausentes en los benchmarks actuales de alucinación. Los autores evalúan modelos de lenguaje grandes estándar en casos de prueba sintetizados y correcciones reales para evaluar su rendimiento en esta tarea específica.