Todos los artículos
arxiv arXiv cs.CL · hace 7 h

EntMTP: Acelerando la inferencia de LLM con Predicción Multi-Token Guiada por Entropía

Los autores proponen la Predicción Multi-Token Guiada por Entropía (EntMTP), un programador sin entrenamiento que ajusta dinámicamente la profundidad de especulación durante la inferencia de LLM basándose en la entropía local de generación. Este enfoque aborda la ineficiencia de las topologías estáticas de atención basada en árboles al igualar los requisitos de cómputo con la predecibilidad del contexto.

arxiv arXiv cs.CL · hace 7 h

Narrative-UFET: Generación de narrativas para la tipificación ultra-fina de entidades

Los autores presentan Narrative-UFET, una extensión controlada de la tipificación ultra-fina de entidades que empareja menciones de entidades con narrativas cortas generadas automáticamente para abordar limitaciones en la desambiguación de tipos de cola larga. El estudio demuestra que el contexto narrativo produce mejoras consistentes sobre las líneas base a nivel de oración, particularmente cuando el tipo de la entidad cambia dentro del texto.

arxiv arXiv cs.CL · hace 7 h

DysLexLens: Un marco de LLM de bajo recurso para analizar las perspectivas de estudiantes con dislexia a partir de foros en línea

Este artículo presenta DysLexLens, un marco de LLM de bajo recurso diseñado para analizar las experiencias de estudiantes con dislexia al utilizar herramientas de IA a través de discusiones en foros en línea. El sistema proporciona una arquitectura integral y rastreable en cuanto a evidencia que transforma publicaciones ruidosas de redes sociales en corpus enfocados y genera respuestas verificables a consultas.

media Hugging Face Forums · hace 7 h

La Arquitectura de Contexto Generacional: Resolviendo la Rotación del Contexto en LLM

La Arquitectura de Contexto Generacional (GCA) propone tratar la ventana de contexto de un LLM como una vida útil finita en lugar de almacenamiento infinito para resolver la "rotación del contexto" y la dilución de la atención en sistemas multi-agente. Al imponer mortalidad artificial, los agentes se terminan antes de que su rendimiento se degrade, pasando su estado a nuevas generaciones mediante un almacén de archivos Markdown plano.

arxiv arXiv cs.CL · hace 8 h

Yuvion LLM: Un modelo de lenguaje grande consciente de la adversarialidad para la seguridad del contenido y la IA

El Yuvion LLM es un nuevo modelo de lenguaje grande diseñado para abordar fallos de seguridad al tratar la robustez adversarial y la capacidad agéntica como objetivos primarios. Utiliza una tubería que combina la construcción de datos consciente de la adversarialidad, el preentrenamiento continuo mejorado con conocimiento y el post-entrenamiento de seguridad multi-tarea basado en políticas.

arxiv arXiv cs.CL · hace 8 h

DiscoBench: Un benchmark para la búsqueda profunda consciente de la aclaración

Los autores presentan DiscoBench, un benchmark diseñado para evaluar si los agentes de búsqueda impulsados por modelos de lenguaje grandes pueden identificar proactivamente la ambigüedad y formular preguntas de aclaración efectivas durante tareas de búsqueda profunda. A diferencia de los benchmarks existentes que asumen consultas de usuario completas, este marco aborda la realidad de las solicitudes vagas o insuficientemente especificadas en escenarios del mundo real.

arxiv arXiv cs.CL · hace 8 h

Estudio factorizado de la estimación de incertidumbre basada en sondas en LLMs

Este estudio realiza un análisis factorizado de la estimación de incertidumbre basada en sondas para determinar qué impulsa el rendimiento en la detección de alucinaciones dentro de los Modelos de Lenguaje Grande. La investigación aísla variables en el diseño de características, datos de entrenamiento y configuraciones de evaluación para proporcionar claras perspectivas sobre metodologías efectivas.

arxiv arXiv cs.CL · hace 8 h

Estados de creencia textual para modelos del mundo: Aprendizaje de representaciones identificables bajo mediación estricta

Este artículo aborda el problema de los estados latentes no identificables en modelos del mundo basados en LLM causados por la omisión del historial, proponiendo una mediación estricta de estados latentes para resolverlo. Los autores introducen estados latentes textuales y GRPO factorizado (fGRPO), un método de aprendizaje por refuerzo estructurado en árbol que impone una mediación estricta durante el entrenamiento.

media Hugging Face Forums · hace 8 h

Explorando regímenes funcionales dentro de modelos de lenguaje pequeños

Este proyecto de investigación independiente caracteriza la dinámica interna de siete modelos de lenguaje pequeños y medianos analizando cómo evolucionan las representaciones ocultas durante la inferencia, en lugar de depender de los estándares de evaluación de salida. El estudio investiga el comportamiento dinámico, la organización funcional y la geometría de las representaciones para identificar patrones reproducibles a través de diferentes arquitecturas.

media Hugging Face Forums · hace 8 h

Una guía completa y bilingüe sobre Transformers: De los fundamentos a la compresión de KV-cache y la dinámica de atención

Carles Marin ha lanzado una guía de código abierto y bilingüe (inglés y español) que conecta los fundamentos matemáticos de las arquitecturas Transformer con su implementación práctica. El recurso se centra en la mecánica de bajo nivel, proporcionando código reproducible y elementos interactivos para explicar temas complejos.

arxiv arXiv cs.CL · hace 9 h

Mitigación del p-hacking basado en LLM mediante la preregistración para el siguiente LLM

Los investigadores proponen un protocolo para mitigar el p-hacking en la investigación con modelos de lenguaje grande (LLM) mediante la preregistración de experimentos y la ejecución de análisis confirmatorios en el primer LLM elegible lanzado después del compromiso. Este enfoque impide que los investigadores ajusten prompts o parámetros para obtener resultados deseados, ya que el modelo objetivo no existe en el momento de la preregistración.

arxiv arXiv cs.CL · hace 9 h

Transcripción y descifrado conjuntos de imágenes de documentos manuscritos cifrados: una comparación con la tubería tradicional

Los investigadores proponen Descifrado Directo de Imágenes, un enfoque de extremo a extremo que mapea imágenes de manuscritos cifradas directamente a texto plano, omitiendo la etapa intermedia de transcripción utilizada en las tuberías tradicionales. Usando el cifrado Copiale como estudio de caso, los autores comparan esta arquitectura conjunta con el método convencional de dos etapas de transcripción seguido de descifrado.

arxiv arXiv cs.CL · hace 9 h

Mitigación del sesgo de posición en Transformers mediante escalado de incrustaciones posicionales específicas por capa

Los investigadores introducen el escalado de incrustaciones posicionales específicas por capa (LPES) para abordar el problema del "perdido-en-el-medio" en modelos de lenguaje grandes, donde la información crítica en entradas de contexto largo a menudo está infrarrepresentada. Este método asigna factores de escalado distintos a cada capa de Transformer para lograr una distribución de atención más equilibrada sin requerir ajuste fino de parámetros ni aumentar la latencia de inferencia.