Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 114

Estados de creencia textual para modelos del mundo: Aprendizaje de representaciones identificables bajo mediación estricta

Este artículo aborda el problema de los estados latentes no identificables en modelos del mundo basados en LLM causados por la omisión del historial, proponiendo una mediación estricta de estados latentes para resolverlo. Los autores introducen estados latentes textuales y GRPO factorizado (fGRPO), un método de aprendizaje por refuerzo estructurado en árbol que impone una mediación estricta durante el entrenamiento.

media Hugging Face Forums · hace 6 h

El análisis de la dinámica del estado oculto en 7 LLMs de peso abierto revela patrones funcionales recurrentes

Un investigador independiente analizó la evolución de las representaciones ocultas durante la inferencia en siete modelos de peso abierto, incluyendo GPT-2, OPT-125M y Llama-3.2-1B, para identificar regímenes dinámicos internos más allá de los benchmarks de salida estándar.

media Hugging Face Forums · hace 6 h

Explorando regímenes funcionales dentro de modelos de lenguaje pequeños

Este proyecto de investigación independiente caracteriza la dinámica interna de siete modelos de lenguaje pequeños y medianos analizando cómo evolucionan las representaciones ocultas durante la inferencia, en lugar de depender de los estándares de evaluación de salida. El estudio investiga el comportamiento dinámico, la organización funcional y la geometría de las representaciones para identificar patrones reproducibles a través de diferentes arquitecturas.

media Hugging Face Forums · hace 6 h

Predictor de la Copa Mundial 2026

Un desarrollador ha creado una herramienta de predicción para la Copa Mundial 2026 que utiliza datos históricos para simular los resultados del torneo. La aplicación proporciona probabilidades de victoria y predicciones de marcador para cualquier par de selecciones nacionales basándose en patrones aprendidos de aproximadamente 50,000 partidos internacionales que abarcan más de un siglo.

media Hugging Face Forums · hace 6 h

Una guía completa y bilingüe sobre Transformers: De los fundamentos a la compresión de KV-cache y la dinámica de atención

Carles Marin ha lanzado una guía de código abierto y bilingüe (inglés y español) que conecta los fundamentos matemáticos de las arquitecturas Transformer con su implementación práctica. El recurso se centra en la mecánica de bajo nivel, proporcionando código reproducible y elementos interactivos para explicar temas complejos.

media Hugging Face Forums · hace 6 h

Guía bilingüe de código abierto sobre mecánica de Transformers publicada

Se ha publicado una guía bilingüe (inglés/español) de código abierto que detalla el funcionamiento interno de los Transformers. El recurso cubre las matemáticas exactas y la mecánica detrás de conceptos como el colapso de atención y la compresión de KV-cache.

arxiv arXiv cs.CL · hace 7 h

Mitigación del p-hacking basado en LLM mediante la preregistración para el siguiente LLM

Los investigadores proponen un protocolo para mitigar el p-hacking en la investigación con modelos de lenguaje grande (LLM) mediante la preregistración de experimentos y la ejecución de análisis confirmatorios en el primer LLM elegible lanzado después del compromiso. Este enfoque impide que los investigadores ajusten prompts o parámetros para obtener resultados deseados, ya que el modelo objetivo no existe en el momento de la preregistración.

arxiv arXiv cs.CL · hace 7 h

Transcripción y descifrado conjuntos de imágenes de documentos manuscritos cifrados: una comparación con la tubería tradicional

Los investigadores proponen Descifrado Directo de Imágenes, un enfoque de extremo a extremo que mapea imágenes de manuscritos cifradas directamente a texto plano, omitiendo la etapa intermedia de transcripción utilizada en las tuberías tradicionales. Usando el cifrado Copiale como estudio de caso, los autores comparan esta arquitectura conjunta con el método convencional de dos etapas de transcripción seguido de descifrado.

arxiv arXiv cs.CL · hace 7 h

Mitigación del sesgo de posición en Transformers mediante escalado de incrustaciones posicionales específicas por capa

Los investigadores introducen el escalado de incrustaciones posicionales específicas por capa (LPES) para abordar el problema del "perdido-en-el-medio" en modelos de lenguaje grandes, donde la información crítica en entradas de contexto largo a menudo está infrarrepresentada. Este método asigna factores de escalado distintos a cada capa de Transformer para lograr una distribución de atención más equilibrada sin requerir ajuste fino de parámetros ni aumentar la latencia de inferencia.

arxiv arXiv cs.CL · hace 7 h

Condicionamiento de personalidad de baja amabilidad para el ajuste fino seguro de LLM

Investigaciones recientes indican que el ajuste fino de modelos de lenguaje grandes para la calidez social degrada la fiabilidad factual y aumenta la sycophancy, debilitando además la seguridad adversarial. Este estudio investiga si este modo de fallo proviene de la adaptación empática o de artefactos en la construcción de datos.

arxiv arXiv cs.CL · hace 7 h

¿Los modelos de énfasis en el habla generalizan entre idiomas y emociones?

El artículo presenta MMEE, un corpus multilingüe y multi-emoción de 10.000 expresiones habladas a través de siete idiomas y 34 categorías emocionales, para evaluar modelos de detección de énfasis en el habla. Evalúa qué tan bien estos modelos generalizan entre diferentes contextos lingüísticos y emocionales en comparación con el entrenamiento tradicional de habla neutra monolingüe.

arxiv arXiv cs.CL · hace 7 h

Mejora de la predicción numérica en LLMs mediante alineación MMD suave

Los investigadores introducen la Discrepancia Media de Kernel Suave (SMMD) para abordar la falta de fiabilidad de los modelos de lenguaje grandes en tareas numéricamente precisas, causada por los objetivos de entrenamiento estándar de entropía cruzada. SMMD incorpora kernels de distancia de valor sobre tokens numéricos y suavidad basada en grafos para alinear las distribuciones predichas con los objetivos, fomentando al mismo tiempo la consistencia local.

arxiv arXiv cs.CL · hace 7 h

KG2Cypher: Pipeline centrado en datos para construir sistemas de texto a Cypher empresariales

Los investigadores presentan KG2Cypher, un pipeline centrado en datos diseñado para construir sistemas empresariales de texto a Cypher a partir de Knowledge Graphs existentes. El sistema genera consultas Cypher ejecutables a partir de hechos del grafo y utiliza modelos de lenguaje grandes para crear preguntas correspondientes en lenguaje natural.

arxiv arXiv cs.CL · hace 7 h

Estrategias de fusión temporal para NER en textos históricos

Este estudio investiga cómo los metadatos temporales pueden incrustarse estructuralmente en modelos de Reconocimiento de Entidades Nombradas (NER) para abordar el desafío del desplazamiento de entidades en textos históricos. Los autores evalúan sistemáticamente estrategias de fusión ligeras, incluyendo atención cruzada, adaptadores y concatenación, dentro de arquitecturas basadas en Transformers.

arxiv arXiv cs.CL · hace 8 h

Costos de Asignación en el Espacio de Salida para la Compresión de LLM Guiada por Calibración: Un Estudio Empírico

Este estudio investiga si alinear los costos de asignación con los objetivos del espacio de salida mejora la fidelidad de los modelos de lenguaje grandes comprimidos, probando específicamente una modificación al método de compresión ROCKET. Los autores comparan el uso del error de Frobenius en el espacio de pesos frente a un objetivo de reconstrucción de salida para la asignación del problema de la mochila multidimensional.

arxiv arXiv cs.CL · hace 8 h

SHIFT: Dirección de Activación Modulada por Puerta para Mitigar Conflictos de Conocimiento

El artículo presenta SHIFT, un marco novel que mitiga conflictos de conocimiento en la Generación Aumentada con Recuperación (RAG) reformulando la modificación a nivel de neurona como modulación de puerta aprendible. Este enfoque permite a los modelos de lenguaje grandes regular adaptativamente las activaciones internas para resolver conflictos entre el contexto recuperado y el conocimiento paramétrico.

arxiv arXiv cs.CL · hace 8 h

Selección de capas de atención completa guiada por NLL para adaptación de ventana deslizante sin entrenamiento

Los investigadores proponen un método sin entrenamiento para seleccionar qué capas en modelos de atención híbrida deben conservar la atención completa, abordando la ineficiencia de los patrones fijos en la inferencia de contexto largo. Al medir la degradación de la verosimilitud logarítmica negativa en los tokens de respuesta, el enfoque identifica las capas críticas para mantener la precisión al cambiar a atención de ventana deslizante.

arxiv arXiv cs.CL · hace 8 h

La corrección del sesgo de posición es insuficiente para el ordenamiento por atención de un solo pase

El estudio investiga si corregir el sesgo de posición permite que el ordenamiento por atención de un solo pase iguale el rendimiento de los métodos iterativos en modelos de lenguaje de contexto largo. Los experimentos en los modelos LLaMA-2 y YaRN-Llama-2 refutan la hipótesis de que la desviación del sesgo por sí sola es suficiente para cerrar la brecha de rendimiento.

arxiv arXiv cs.CL · hace 8 h

Aprendizaje de Modelado de Acciones Complementarias a partir de Instrucciones de Mantenimiento Automotriz

El artículo introduce el Modelado de Acciones Complementarias (CAM), una tarea centrada en identificar o generar contrapartes procedimentales en instrucciones de mantenimiento automotriz modificando únicamente la frase de acción mientras se preserva el contexto restante de la oración.

arxiv arXiv cs.CL · hace 8 h

Lobo de Tres Cabezas: Un Rol de Bufón para la Teoría de la Mente Multi-salto en LLMs

Los investigadores ampliaron el juego del Lobo con un rol de Bufón para crear un entorno de deducción social triádico que requiere razonamiento a través de tres funciones de utilidad opuestas, desafiando las capacidades de teoría de la mente de los modelos de lenguaje grandes. Las evaluaciones en GPT-4.1, DeepSeek-V3.1 y Llama-3.3-70B revelaron que, aunque el Bufón ganó el 60-70% de las partidas, los lobos de GPT-4.1 votaron frecuentemente para expulsar al Bufón en el día 1 en el 60-70% de los casos, una acción autodestructiva impulsada por priores lingüísticos.