Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 63

Regularización de Activación Guiada por SAE para Aprendizaje Continuo en LLM

Este artículo propone un nuevo enfoque para el olvido catastrófico en modelos de lenguaje grandes mediante la regularización en el espacio de activaciones utilizando Autoencoders Esparsos (SAEs) preentrenados como diccionario de características monosemánticas, en lugar de depender de métodos tradicionales en el espacio de pesos como la Consolidación Elástica de Pesos (EWC).

arxiv arXiv cs.CL · hace 3 h

CAT-Q: Cuantización ternaria eficiente en costos y precisa para LLM

Los investigadores presentan CAT-Q, un esquema de cuantización post-entrenamiento que comprime grandes modelos de lenguaje a precisión ternaria sin requerir entrenamiento consciente de la cuantización costoso. El método utiliza modulación aprendible y ternarización suavizada para lograr alta precisión usando solo 512 muestras de calibración.

media Hugging Face Forums · hace 3 h

¿Experiencia con la ablación de lenguas diversas?

Un usuario pregunta por experiencias sobre la ablación del mandarín, el ruso y el árabe de un modelo para crear una versión principalmente basada en latín. El objetivo es liberar espacio para un entrenamiento adicional o una poda segura en contextos donde el inglés no tiene activación.

arxiv arXiv cs.CL · hace 4 h

SocialPersona: Evaluación de perfiles personalizados y respuestas con contexto multimodal de redes sociales

Los autores presentan SocialPersona, un benchmark diseñado para evaluar si los modelos de lenguaje grandes multimodales (MLLMs) pueden recuperar preferencias reveladas a partir de cronologías longitudinales de redes sociales y utilizarlas en diálogos. Este trabajo aborda la limitación de las evaluaciones actuales que se centran únicamente en la memoria explícita, probando la capacidad del modelo para inferir intereses a partir de rastros multimodales naturales.

arxiv arXiv cs.CL · hace 4 h

LeanGuard: Un enfoque rápido y ligero para la moderación robusta

Este artículo investiga si las barreras de seguridad realmente requieren razonamiento en cadena mediante el entrenamiento de un codificador bidireccional ligero junto con una barrera basada en razonamiento sobre el mismo corpus. Los autores encuentran que eliminar el razonamiento no mejora la precisión de la moderación, desafiando la creencia común de que el pensamiento paso a paso es necesario para una moderación efectiva.

arxiv arXiv cs.CL · hace 4 h

Más allá de las formas lógicas: patrones extraídos por LLM para la clasificación de falacias

Este estudio investiga si fusionar estructuras lógicas abstractas con señales lingüísticas a nivel de contexto mejora la clasificación automatizada de falacias lógicas, que a menudo aparecen en formas matizadas.

arxiv arXiv cs.CL · hace 4 h

HyperDFlash: Descodificación especulativa por bloques alineada con MHC y reducción residual con puertas

HyperDFlash es un marco de descodificación especulativa en paralelo por bloques diseñado para abordar problemas de desalineación de características al adaptar DFlash a la arquitectura de hiper-conexión múltiple (MHC) de DeepSeek-V4. Los autores proponen dos optimizaciones clave: utilizar estados residuales previos al colapso para el condicionamiento y reemplazar el compresor lineal genérico por un reductor residual con puertas ligero heredado de la cabeza de hiper-conexión del modelo.

arxiv arXiv cs.CL · hace 4 h

Estructura antes del colapso: Geometría semántica transitoria en la predicción del siguiente token

Este artículo investiga cómo los modelos de lenguaje aprenden una estructura semántica latente a pesar de ser entrenados con etiquetas one-hot que teóricamente eliminan las estadísticas de contexto compartido. Los autores identifican una tensión entre la teoría del Colapso Neural y la capacidad observada de los modelos para capturar características categóricas como las propiedades de los objetos.

arxiv arXiv cs.CL · hace 4 h

ConvMemory v3 introduce una capa de contexto de validez para la memoria conversacional

ConvMemory v3 añade una capa de contexto de validez para detectar y mostrar evidencia de actualización en las memorias recuperadas mediante verificación de relaciones condicionada al objetivo. Este mecanismo se sitúa después de la ruta de recuperación estándar y utiliza un filtro de doble evidencia para puntuar pares (objetivo, fuente) basándose en proposiciones específicas.

arxiv arXiv cs.CL · hace 4 h

Errores y desafíos en la evaluación de la extracción de eventos multimedia

Este trabajo presenta el primer análisis sistemático de los errores de evaluación en la extracción de eventos multimedia, identificando tres fuentes principales de problemas: procesamiento inconsistente de datos, suposiciones de tarea inconsistentes y configuraciones de evaluación demasiado relajadas.

arxiv arXiv cs.CL · hace 4 h

Estudio de reproducibilidad de AlphaEdit: Edición de conocimiento con restricción en el espacio nulo

Este estudio reproduce los resultados de AlphaEdit, un método de proyección con restricción en el espacio nulo para la edición de conocimiento en modelos de lenguaje, y amplía la evaluación a arquitecturas más recientes y horizontes de edición secuencial más largos. Los autores confirman que AlphaEdit funciona según lo reportado dentro de su alcance original, pero identifican limitaciones significativas en cuanto a generalización y escalabilidad.

arxiv arXiv cs.CL · hace 4 h

AIGP: Un marco basado en LLM para la alineación de valores a largo plazo en la fijación de precios de comercio electrónico

Los investigadores proponen AIGP, un marco que utiliza Modelos de Lenguaje Grande para abordar la interpretabilidad y la desalineación de objetivos a largo plazo en la fijación dinámica de precios de comercio electrónico. El sistema emplea ajuste fino supervisado y un Estimador de Valor a Largo Plazo entrenado mediante aprendizaje por refuerzo offline para alinear las decisiones de precios con los objetivos comerciales.

arxiv arXiv cs.CL · hace 4 h

OPID: Destilación de habilidades on-policy para aprendizaje por refuerzo agéntico

Los autores proponen OPID, un marco que extrae supervisión de habilidades directamente de trayectorias on-policy completadas para abordar el problema de recompensa escasa en el aprendizaje por refuerzo basado en resultados. Al representar la retrospectiva de la trayectoria como habilidades jerárquicas, OPID proporciona supervisión token a nivel denso y coincidente con la distribución sin depender de memoria externa.

arxiv arXiv cs.CL · hace 5 h

Estudio computacional de la transmisión léxica a través de las tradiciones devocionales bengalíes

Un estudio computacional de corpus analiza las relaciones del vocabulario en ocho capas de literatura devocional bengalí y sánscrita desde los siglos VIII hasta el XIX, cuantificando la afirmación histórica de que el vocabulario budista Vajrayana fue absorbido por la tradición Shakta Tantra. Mediante la vectorización de n-gramas de caracteres TF-IDF en 75 textos, la investigación proporciona la primera corroboración cuantitativa de esta cadena de transmisión léxica.

arxiv arXiv cs.CL · hace 5 h

KARLA: Recuperación aumentada con base de conocimientos para modelos de lenguaje

Los autores proponen KARLA, un método que permite a los grandes modelos de lenguaje recuperar automáticamente conocimiento factual de una base de conocimientos externa durante la generación de tokens. Este enfoque permite actualizaciones factuales sin reentrenar el modelo y garantiza que las salidas sean rastreables hasta los datos de origen.

arxiv arXiv cs.CL · hace 5 h

SpeechLLMs de FBK para seguimiento de instrucciones en IWSLT 2026

Este artículo detalla la presentación de FBK a la tarea compartida de seguimiento de instrucciones de IWSLT 2026, presentando SpeechLLMs diseñados tanto para el seguimiento de instrucciones de voz en formatos cortos como largos bajo configuraciones restringidas.

arxiv arXiv cs.CL · hace 5 h

AgentX: Hacia la Auto-iteración Dirigida por Agentes de Sistemas de Recomendación Industriales

AgentX es un sistema multi-agente desplegado en producción diseñado para automatizar la iteración de sistemas de recomendación industriales, abordando el cuello de botella donde la innovación actualmente escala linealmente con la cantidad de personal humano.

arxiv arXiv cs.CL · hace 5 h

Poda en cascada de múltiples granularidades para inferencia de LLM en dispositivos locales en IoT industrial

Este artículo presenta un marco de poda en cascada de múltiples granularidades diseñado para desplegar modelos de lenguaje grandes en dispositivos periféricos del Internet Industrial de las Cosas (IIoT) eliminando capas, cabezales de atención y canales de alimentación hacia adelante en un orden de grueso a fino. El método utiliza una recuperación ligera de bajo rango entre etapas para re-estimar la importancia de los componentes, abordando el colapso de los métodos estructurados de poda existentes a altas tasas de compresión.

arxiv arXiv cs.CL · hace 5 h

InfoKV: Compresión de caché KV consciente de la información para razonamiento largo

Los investigadores presentan InfoKV, un marco de trabajo consciente de la entropía que comprime los cachés de clave-valor combinando la incertidumbre predictiva a nivel de token con puntuaciones de atención para mejorar el razonamiento de contexto largo.

arxiv arXiv cs.CL · hace 5 h

Predictividad neuronal heterogénea de modelos de lenguaje durante la comprensión naturalista

Este estudio demuestra que los modelos de lenguaje congelados pueden servir como predictores neuronales efectivos para la actividad cerebral durante la comprensión de habla y texto naturales, al tiempo que distinguen la utilidad predictiva de las afirmaciones sobre la organización neuronal compartida. El análisis de datos MEG y ECoG reveló ganancias de predicción positivas generalizadas en comparación con las líneas base de bajo nivel, aunque las ventajas a nivel de participante fueron localizadas en lugar de uniformes.