Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 66

Solicitud de buenos canales de YouTube para noticias sobre LLM locales

Un usuario de Reddit busca recomendaciones de canales de YouTube que proporcionen noticias y actualizaciones sobre el desarrollo de modelos de lenguaje grandes locales.

media r/LocalLLaMA · hace 9 h

Cuando no tienes una GPU de centro de datos

El artículo hace referencia al modelo LiquidAI LFM2.5-230M como una alternativa para usuarios sin acceso a GPUs de centros de datos.

media r/LocalLLaMA · hace 9 h

Ornith-1.0: LLMs de código abierto para programación agéntica

Ornith-1.0 es una nueva familia de modelos de lenguaje grandes (LLM) de código abierto especializados en tareas de programación agéntica. La familia de modelos abarca múltiples tamaños de parámetros, incluyendo configuraciones Dense de 9B, MoE de 35B y MoE de 397B.

arxiv arXiv cs.CL · hace 9 h

Nemotron-TwoTower: Modelado de lenguaje con difusión utilizando contexto autoregresivo preentrenado

NVIDIA presenta Nemotron-TwoTower, un modelo de lenguaje por difusión que desacopla la representación del contexto y el denoising iterativo en dos redes separadas para superar las limitaciones de capacidad en los enfoques existentes. Construido sobre el modelo de pesos abiertos Nemotron-3-Nano-30B-A3B y entrenado con 2.1T tokens, conserva el 98.7% de la calidad de la línea base autoregresiva mientras logra una velocidad de generación en tiempo real 2.42X mayor.

arxiv arXiv cs.CL · hace 9 h

Los humanos se desconectan, los modelos de razonamiento persisten: Separar el registro de la dificultad de la asignación de deliberación

Un estudio revela que, aunque los grandes modelos de razonamiento (LRM) y los humanos dedican más tiempo a problemas más difíciles, divergen significativamente en cómo asignan la deliberación dentro de elementos específicos. Al cometer errores, los LRM generan más tokens que cuando aciertan, mientras que los humanos hacen lo contrario, dedicando menos tiempo a los ensayos que fallan.

arxiv arXiv cs.CL · hace 9 h

MemStrata: Eliminación de errores de hechos obsoletos en agentes RAG mediante validez temporal

El artículo presenta MemStrata, un sistema de memoria de recuperación diseñado para eliminar errores de hechos obsoletos en agentes de IA manteniendo la validez temporal dentro del conocimiento acumulado. A diferencia de la Generación Aumentada por Recuperación (RAG) estándar, que tiene dificultades para distinguir entre hechos duplicados y contradichos debido a la similitud de incrustaciones, MemStrata utiliza una regla determinista de suplantación para retirar información desactualizada.

arxiv arXiv cs.CL · hace 9 h

Atención Erase-then-Delta: Desacoplar direcciones de borrado y escritura en la atención lineal basada en regla delta

Los autores proponen Atención Erase-then-Delta (EDA), una regla de actualización de memoria para modelos recurrentes que desacopla la dirección utilizada para borrar información obsoleta de la dirección utilizada para escribir nuevo contenido. Este enfoque aborda la limitación de la atención lineal basada en regla delta, que no puede eliminar activamente datos desactualizados almacenados en diferentes ubicaciones antes de escribir.

arxiv arXiv cs.CL · hace 9 h

La brecha de inatención: los modelos condicionados por tarea omiten señales de seguridad

Un estudio revela que condicionar modelos de lenguaje y visión en tareas estrechas suprime su capacidad para informar sobre señales críticas para la seguridad presentes simultáneamente, las cuales pueden detectar de otro modo. Este fenómeno, denominado "brecha de inatención", demuestra una disociación entre la seguridad medida en benchmarks y la seguridad en el mundo real.

arxiv arXiv cs.CL · hace 9 h

DiARC: Distinguir muestras positivas y negativas ayuda a mejorar la capacidad de razonamiento tipo ARC en modelos de lenguaje grandes

El artículo presenta DiARC, un método que mejora las capacidades de razonamiento abstracto de los modelos de lenguaje grandes al incorporar supervisión con muestras negativas junto con ejemplos positivos. Este enfoque aborda las limitaciones de los métodos actuales que dependen en gran medida del aumento de datos o de modelos cerrados costosos.

arxiv arXiv cs.CL · hace 9 h

Ajuste de aproximaciones impulsado por el compilador para computación hiperdimensional

Los autores presentan ApproxHDC, un marco que automatiza la identificación y aplicación de aproximaciones específicas del dominio en cargas de trabajo de Computación Hiperdimensional (HDC). Este sistema extiende la infraestructura del compilador HPVM-HDC para habilitar la compilación retargetable a través de diversos backends de hardware, incluyendo CPUs, GPUs y aceleradores simulados de ReRAM y PCM.

arxiv arXiv cs.CL · hace 9 h

Difusión adversarial entre modalidades: Una encuesta de fusión de ataques, defensas y evaluación

Esta encuesta integra cuatro vías desconectadas de evaluación adversarial—ataques basados en difusión sobre texto y LLMs, clasificadores de imágenes, modelos visión-lenguaje y defensas de purificación de entrada—en un único marco conceptual. Se centra en la sección de los LLMs para unificar el vocabulario, los modelos de amenaza y las pruebas en torno a la difusión de denoising como un mecanismo generativo compartido.

arxiv arXiv cs.CL · hace 9 h

Detección de postura a nivel de tweet con cero ejemplos mejorada mediante conocimiento externo y razonamiento reflexivo de cadena de pensamiento

Los investigadores proponen KIRP, un marco de detección de postura con cero ejemplos que aborda la escasez de contexto y la relevancia implícita del objetivo en textos cortos integrando conocimiento externo con razonamiento reflexivo de cadena de pensamiento. El estudio también presenta el primer conjunto de datos japonés a nivel de tweet para la detección de postura, diseñado para apoyar esta evaluación multi-tópica.

arxiv arXiv cs.CL · hace 9 h

Cerrando la brecha de calidad en texto-a-voz de bajo recurso: Ajuste fino con LoRA de VoxCPM2 para jemer y coreano

Los investigadores abordan la brecha de calidad en texto-a-voz de bajo recurso mediante el ajuste fino del modelo VoxCPM2 de 2.4B parámetros utilizando Adaptación de Bajo Rango (LoRA) en un corpus compartido de jemer y coreano.

arxiv arXiv cs.CL · hace 9 h

Regularización de Activación Guiada por SAE para Aprendizaje Continuo en LLM

Este artículo propone un nuevo enfoque para el olvido catastrófico en modelos de lenguaje grandes mediante la regularización en el espacio de activaciones utilizando Autoencoders Esparsos (SAEs) preentrenados como diccionario de características monosemánticas, en lugar de depender de métodos tradicionales en el espacio de pesos como la Consolidación Elástica de Pesos (EWC).

arxiv arXiv cs.CL · hace 9 h

CAT-Q: Cuantización ternaria eficiente en costos y precisa para LLM

Los investigadores presentan CAT-Q, un esquema de cuantización post-entrenamiento que comprime grandes modelos de lenguaje a precisión ternaria sin requerir entrenamiento consciente de la cuantización costoso. El método utiliza modulación aprendible y ternarización suavizada para lograr alta precisión usando solo 512 muestras de calibración.

media Hugging Face Forums · hace 9 h

¿Experiencia con la ablación de lenguas diversas?

Un usuario pregunta por experiencias sobre la ablación del mandarín, el ruso y el árabe de un modelo para crear una versión principalmente basada en latín. El objetivo es liberar espacio para un entrenamiento adicional o una poda segura en contextos donde el inglés no tiene activación.

arxiv arXiv cs.CL · hace 10 h

SocialPersona: Evaluación de perfiles personalizados y respuestas con contexto multimodal de redes sociales

Los autores presentan SocialPersona, un benchmark diseñado para evaluar si los modelos de lenguaje grandes multimodales (MLLMs) pueden recuperar preferencias reveladas a partir de cronologías longitudinales de redes sociales y utilizarlas en diálogos. Este trabajo aborda la limitación de las evaluaciones actuales que se centran únicamente en la memoria explícita, probando la capacidad del modelo para inferir intereses a partir de rastros multimodales naturales.

arxiv arXiv cs.CL · hace 10 h

LeanGuard: Un enfoque rápido y ligero para la moderación robusta

Este artículo investiga si las barreras de seguridad realmente requieren razonamiento en cadena mediante el entrenamiento de un codificador bidireccional ligero junto con una barrera basada en razonamiento sobre el mismo corpus. Los autores encuentran que eliminar el razonamiento no mejora la precisión de la moderación, desafiando la creencia común de que el pensamiento paso a paso es necesario para una moderación efectiva.

arxiv arXiv cs.CL · hace 10 h

Más allá de las formas lógicas: patrones extraídos por LLM para la clasificación de falacias

Este estudio investiga si fusionar estructuras lógicas abstractas con señales lingüísticas a nivel de contexto mejora la clasificación automatizada de falacias lógicas, que a menudo aparecen en formas matizadas.

arxiv arXiv cs.CL · hace 10 h

HyperDFlash: Descodificación especulativa por bloques alineada con MHC y reducción residual con puertas

HyperDFlash es un marco de descodificación especulativa en paralelo por bloques diseñado para abordar problemas de desalineación de características al adaptar DFlash a la arquitectura de hiper-conexión múltiple (MHC) de DeepSeek-V4. Los autores proponen dos optimizaciones clave: utilizar estados residuales previos al colapso para el condicionamiento y reemplazar el compresor lineal genérico por un reductor residual con puertas ligero heredado de la cabeza de hiper-conexión del modelo.