Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 115

El Transformer listo para contexto

Los autores presentan el transformer listo para contexto, una arquitectura de red neuronal recurrente que pre-contextualiza cada token antes de que ingrese a un bloque de transformer D-layer utilizando una red de corrección.

arxiv arXiv cs.CL · hace 7 h

EntMTP: Acelerando la inferencia de LLM con Predicción Multi-Token Guiada por Entropía

Los autores proponen la Predicción Multi-Token Guiada por Entropía (EntMTP), un programador sin entrenamiento que ajusta dinámicamente la profundidad de especulación durante la inferencia de LLM basándose en la entropía local de generación. Este enfoque aborda la ineficiencia de las topologías estáticas de atención basada en árboles al igualar los requisitos de cómputo con la predecibilidad del contexto.

arxiv arXiv cs.CL · hace 7 h

Ko-WideSearch: Una prueba de referencia de búsqueda amplia en coreano para la enumeración exhaustiva de conjuntos por agentes web

El artículo presenta Ko-WideSearch, una nueva prueba de referencia diseñada para evaluar las capacidades de búsqueda amplia de los agentes web en coreano, abordando la falta de métricas de enumeración exhaustiva de conjuntos fuera del inglés.

arxiv arXiv cs.CL · hace 7 h

Narrative-UFET: Generación de narrativas para la tipificación ultra-fina de entidades

Los autores presentan Narrative-UFET, una extensión controlada de la tipificación ultra-fina de entidades que empareja menciones de entidades con narrativas cortas generadas automáticamente para abordar limitaciones en la desambiguación de tipos de cola larga. El estudio demuestra que el contexto narrativo produce mejoras consistentes sobre las líneas base a nivel de oración, particularmente cuando el tipo de la entidad cambia dentro del texto.

arxiv arXiv cs.CL · hace 7 h

Modelos de Flujo de Lenguaje Enmascarado

Los autores presentan los Modelos de Flujo de Lenguaje Enmascarado (MLFMs), que combinan la difusión enmascarada con flujos continuos para permitir un razonamiento eficiente y multi-paso en la generación de lenguaje. Este enfoque cierra la brecha entre la eficiencia de la generación paralela y el rendimiento en tareas complejas al permitir que los modelos preentrenados se adapten a MLFMs.

arxiv arXiv cs.CL · hace 7 h

DysLexLens: Un marco de LLM de bajo recurso para analizar las perspectivas de estudiantes con dislexia a partir de foros en línea

Este artículo presenta DysLexLens, un marco de LLM de bajo recurso diseñado para analizar las experiencias de estudiantes con dislexia al utilizar herramientas de IA a través de discusiones en foros en línea. El sistema proporciona una arquitectura integral y rastreable en cuanto a evidencia que transforma publicaciones ruidosas de redes sociales en corpus enfocados y genera respuestas verificables a consultas.

arxiv arXiv cs.CL · hace 7 h

Detección de comentarios ofensivos chinos entre plataformas mediante minería de ejemplos difíciles con umbral dual

Este artículo aborda la degradación del rendimiento de los modelos de detección de comentarios ofensivos cuando se implementan en diferentes plataformas de redes sociales chinas, proponiendo un método de minería de ejemplos difíciles con umbral dual.

media Hugging Face Forums · hace 7 h

La Arquitectura de Contexto Generacional: Resolviendo la Rotación del Contexto en LLM

La Arquitectura de Contexto Generacional (GCA) propone tratar la ventana de contexto de un LLM como una vida útil finita en lugar de almacenamiento infinito para resolver la "rotación del contexto" y la dilución de la atención en sistemas multi-agente. Al imponer mortalidad artificial, los agentes se terminan antes de que su rendimiento se degrade, pasando su estado a nuevas generaciones mediante un almacén de archivos Markdown plano.

arxiv arXiv cs.CL · hace 8 h

Yuvion LLM: Un modelo de lenguaje grande consciente de la adversarialidad para la seguridad del contenido y la IA

El Yuvion LLM es un nuevo modelo de lenguaje grande diseñado para abordar fallos de seguridad al tratar la robustez adversarial y la capacidad agéntica como objetivos primarios. Utiliza una tubería que combina la construcción de datos consciente de la adversarialidad, el preentrenamiento continuo mejorado con conocimiento y el post-entrenamiento de seguridad multi-tarea basado en políticas.

arxiv arXiv cs.CL · hace 8 h

DiscoBench: Un benchmark para la búsqueda profunda consciente de la aclaración

Los autores presentan DiscoBench, un benchmark diseñado para evaluar si los agentes de búsqueda impulsados por modelos de lenguaje grandes pueden identificar proactivamente la ambigüedad y formular preguntas de aclaración efectivas durante tareas de búsqueda profunda. A diferencia de los benchmarks existentes que asumen consultas de usuario completas, este marco aborda la realidad de las solicitudes vagas o insuficientemente especificadas en escenarios del mundo real.

arxiv arXiv cs.CL · hace 8 h

Estudio factorizado de la estimación de incertidumbre basada en sondas en LLMs

Este estudio realiza un análisis factorizado de la estimación de incertidumbre basada en sondas para determinar qué impulsa el rendimiento en la detección de alucinaciones dentro de los Modelos de Lenguaje Grande. La investigación aísla variables en el diseño de características, datos de entrenamiento y configuraciones de evaluación para proporcionar claras perspectivas sobre metodologías efectivas.

arxiv arXiv cs.CL · hace 8 h

Estados de creencia textual para modelos del mundo: Aprendizaje de representaciones identificables bajo mediación estricta

Este artículo aborda el problema de los estados latentes no identificables en modelos del mundo basados en LLM causados por la omisión del historial, proponiendo una mediación estricta de estados latentes para resolverlo. Los autores introducen estados latentes textuales y GRPO factorizado (fGRPO), un método de aprendizaje por refuerzo estructurado en árbol que impone una mediación estricta durante el entrenamiento.

media Hugging Face Forums · hace 8 h

El análisis de la dinámica del estado oculto en 7 LLMs de peso abierto revela patrones funcionales recurrentes

Un investigador independiente analizó la evolución de las representaciones ocultas durante la inferencia en siete modelos de peso abierto, incluyendo GPT-2, OPT-125M y Llama-3.2-1B, para identificar regímenes dinámicos internos más allá de los benchmarks de salida estándar.

media Hugging Face Forums · hace 8 h

Explorando regímenes funcionales dentro de modelos de lenguaje pequeños

Este proyecto de investigación independiente caracteriza la dinámica interna de siete modelos de lenguaje pequeños y medianos analizando cómo evolucionan las representaciones ocultas durante la inferencia, en lugar de depender de los estándares de evaluación de salida. El estudio investiga el comportamiento dinámico, la organización funcional y la geometría de las representaciones para identificar patrones reproducibles a través de diferentes arquitecturas.

media Hugging Face Forums · hace 8 h

Predictor de la Copa Mundial 2026

Un desarrollador ha creado una herramienta de predicción para la Copa Mundial 2026 que utiliza datos históricos para simular los resultados del torneo. La aplicación proporciona probabilidades de victoria y predicciones de marcador para cualquier par de selecciones nacionales basándose en patrones aprendidos de aproximadamente 50,000 partidos internacionales que abarcan más de un siglo.

media Hugging Face Forums · hace 8 h

Una guía completa y bilingüe sobre Transformers: De los fundamentos a la compresión de KV-cache y la dinámica de atención

Carles Marin ha lanzado una guía de código abierto y bilingüe (inglés y español) que conecta los fundamentos matemáticos de las arquitecturas Transformer con su implementación práctica. El recurso se centra en la mecánica de bajo nivel, proporcionando código reproducible y elementos interactivos para explicar temas complejos.

media Hugging Face Forums · hace 8 h

Guía bilingüe de código abierto sobre mecánica de Transformers publicada

Se ha publicado una guía bilingüe (inglés/español) de código abierto que detalla el funcionamiento interno de los Transformers. El recurso cubre las matemáticas exactas y la mecánica detrás de conceptos como el colapso de atención y la compresión de KV-cache.

arxiv arXiv cs.CL · hace 9 h

Mitigación del p-hacking basado en LLM mediante la preregistración para el siguiente LLM

Los investigadores proponen un protocolo para mitigar el p-hacking en la investigación con modelos de lenguaje grande (LLM) mediante la preregistración de experimentos y la ejecución de análisis confirmatorios en el primer LLM elegible lanzado después del compromiso. Este enfoque impide que los investigadores ajusten prompts o parámetros para obtener resultados deseados, ya que el modelo objetivo no existe en el momento de la preregistración.

arxiv arXiv cs.CL · hace 9 h

Transcripción y descifrado conjuntos de imágenes de documentos manuscritos cifrados: una comparación con la tubería tradicional

Los investigadores proponen Descifrado Directo de Imágenes, un enfoque de extremo a extremo que mapea imágenes de manuscritos cifradas directamente a texto plano, omitiendo la etapa intermedia de transcripción utilizada en las tuberías tradicionales. Usando el cifrado Copiale como estudio de caso, los autores comparan esta arquitectura conjunta con el método convencional de dos etapas de transcripción seguido de descifrado.

arxiv arXiv cs.CL · hace 9 h

Mitigación del sesgo de posición en Transformers mediante escalado de incrustaciones posicionales específicas por capa

Los investigadores introducen el escalado de incrustaciones posicionales específicas por capa (LPES) para abordar el problema del "perdido-en-el-medio" en modelos de lenguaje grandes, donde la información crítica en entradas de contexto largo a menudo está infrarrepresentada. Este método asigna factores de escalado distintos a cada capa de Transformer para lograr una distribución de atención más equilibrada sin requerir ajuste fino de parámetros ni aumentar la latencia de inferencia.