Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 76

Impacto de PCIe 5.0 x8/x4 vs x8/x8 en inferencia con GPU dual

Un usuario pregunta si ejecutar dos GPUs en una configuración PCIe 5.0 x8/x4 en lugar de x8/x8 provoca caídas significativas de rendimiento para la inferencia de LLM.

arxiv arXiv cs.CL · hace 11 h

Composicionalidad y el léxico en la semántica evolutiva

Este artículo presenta un marco de modelado evolutivo que integra la semántica formal al permitir que los significados léxicos y las funciones composicionales coevolucionen bajo presiones por simplicidad conceptual y precisión comunicativa.

arxiv arXiv cs.CL · hace 11 h

Conectando el habla y el pensamiento: comprender la dinámica del diálogo en contextos de resolución colaborativa de problemas

Este artículo presenta un marco conceptual para analizar la dinámica del diálogo en contextos de resolución colaborativa de problemas, con un enfoque específico en las interacciones humano-IA y multiagente. Los autores argumentan que comprender estas interacciones dialógicas es crucial para optimizar las asociaciones a medida que los sistemas inteligentes ganan capacidades de razonamiento autónomo.

arxiv arXiv cs.CL · hace 11 h

LMs como Bases de Conocimiento Específicas para Tareas: Un Análisis de Interpretabilidad

Este estudio investiga si los modelos de lenguaje funcionan como bases de conocimiento consistentes al analizar si los hechos adquiridos durante una tarea permanecen accesibles en otras. La investigación revela que los LMs codifican el conocimiento de manera específica para la tarea, con subconjuntos distintos de parámetros subyacentes a diferentes tareas para el mismo hecho.

arxiv arXiv cs.CL · hace 12 h

CARVE: Recurrencia Consciente del Contenido con Eficiencia de Valor para Atención Lineal Chunk-Paralela

La arquitectura CARVE aborda tres defectos críticos en el modelo recurrente GDN-2 basado en la regla delta, al restringir las operaciones de borrado al eje de clave, permitiendo así la resolución triangular válida de chunks en forma WY y mejorando la eficiencia del valor. Al reutilizar el tensor de salida recurrente como señal de contenido y reemplazar las proyecciones de puerta de escritura por valor individual con escalares únicos, CARVE mantiene una inicialización bit a bit idéntica a GDN-2 mientras resuelve los problemas de enmascaramiento ciego de memoria.

arxiv arXiv cs.CL · hace 12 h

La geometría de las actualizaciones: Alineación de Fisher a escala de vocabulario

Este artículo aborda el desafío de la selección de fuentes sin entrenamiento para modelos de lenguaje grandes con vocabularios compartidos en dominios científicos como SMILES y genómica, donde las métricas clásicas son poco informativas o computacionalmente prohibitivas. Los autores demuestran que las métricas de similitud de representación no son identificables para la transferencia porque los modelos pueden compartir representaciones idénticas pero tener actualizaciones de cabeza ortogonales.

arxiv arXiv cs.CL · hace 12 h

¿Qué tan sorprendente es el italiano histórico para los modelos de lenguaje? Costo de tokenización, costo de comprensión y una mitigación simple

Este artículo propone un marco diagnóstico que descompone la dificultad del lenguaje histórico en costo de tokenización, incertidumbre predictiva, robustez semántica y sensibilidad al contexto. Los autores evalúan este marco en textos italianos del siglo XVII, italiano del siglo XIX y ruso del siglo XVIII para comprender cómo los LLM procesan lenguas históricas.

arxiv arXiv cs.CL · hace 12 h

Las Cascadas de Razonamiento Multilingüe Necesitan Más Contexto

Las cascadas de traducción para razonamiento traducen las consultas al inglés, realizan el razonamiento y traducen de vuelta, pero este proceso es estructuralmente con pérdidas debido a la descarte de información en cada etapa. Los autores proponen una cascada de traducción consciente del contexto que preserva la pregunta original, la consulta traducida y la traza de razonamiento para mitigar estas pérdidas.

arxiv arXiv cs.CL · hace 12 h

Más allá de las formas superficiales: Una taxonomía integral y orientada a mecanismos de codificación lingüística indirecta para la detección de lenguaje codificado basado en LLM

Los investigadores proponen una taxonomía orientada a mecanismos de expresiones lingüísticas indirectas (ILE) para categorizar las operaciones subyacentes utilizadas para codificar y recuperar significado en el lenguaje codificado. Este enfoque se abstrae de los objetivos comunicativos para centrarse en los mecanismos específicos de codificación encontrados en el algospeak, los eufemismos y la ofuscación adversarial.

arxiv arXiv cs.CL · hace 12 h

Examen basado en LLM de los criterios de elegibilidad en los prospectos de valores del Banco Central Alemán

Este artículo presenta el primer estudio de caso que aplica Modelos de Lenguaje Grande al proceso del Banco Central Alemán para verificar la elegibilidad de valores como garantía, pasando del Reconocimiento Tradicional de Entidades Nombradas a una pipeline generativa de Extracción de Información. El enfoque descompone la tarea en extracción, normalización e interpretación para manejar el texto ruidoso y el contenido bilingüe de manera más efectiva.

arxiv arXiv cs.CL · hace 12 h

Potenciación de agentes GUI mediante exploración autónoma de experiencias y utilización de experiencias retrospectivas

Los investigadores presentan el método PEEU (Planning Experience Exploration and Utilization) para mejorar la planificación de tareas en agentes web multimodales utilizando pequeños modelos de lenguaje grande multimodales (MLLMs) de código abierto. Este enfoque explora autónomamente los entornos para descubrir experiencias y sintetiza datos de entrenamiento de alto nivel mediante la utilización de experiencias retrospectivas.

arxiv arXiv cs.CL · hace 12 h

Evaluación de los cambios post-reforma en la calidad de la divulgación de riesgos con un enfoque de análisis textual multidimensional

Este estudio propone un marco de análisis textual longitudinal que combina la extracción de métricas de PLN en japonés con pruebas emparejadas y análisis de funciones de cambio para evaluar cambios cualitativos en las divulgaciones de riesgos corporativos. Aplicado a las reformas de divulgación de Japón de 2019, el enfoque analiza 19.770 observaciones empresa-año durante diez años para capturar dinámicas multidimensionales que a menudo se ocultan con métodos de un solo indicador.

arxiv arXiv cs.CL · hace 13 h

Mapeo de redes de élites políticas en Europa con una canalización multilingüe conjunta de extracción de entidades y relaciones

Los investigadores presentan una canalización modular y completamente de peso abierto para la extracción conjunta multilingüe de entidades y relaciones que construye grafos de conocimiento temporales y firmados a partir de grandes corpus de noticias no estructuradas. El sistema combina reconocimiento de entidades nombradas basado en intervalos con una cascada de vinculación a Wikidata y un modelo de mezcla de expertos restringido por ontología para extraer relaciones dirigidas.

arxiv arXiv cs.CL · hace 13 h

DanceOPD: Destilación de campos generativos con política en línea

Los autores presentan DanceOPD, un marco de destilación de campos generativos con política en línea diseñado para unificar la generación de texto a imagen con capacidades de edición local y global en modelos de emparejamiento de flujos. Este enfoque enruta las muestras a campos de capacidad específicos y entrena utilizando un objetivo de MSE de velocidad para componer habilidades expertas sin interferencia mutua.

media r/LocalLLaMA · hace 13 h

Solicitud de buenos canales de YouTube para noticias sobre LLM locales

Un usuario de Reddit busca recomendaciones de canales de YouTube que proporcionen noticias y actualizaciones sobre el desarrollo de modelos de lenguaje grandes locales.

media r/LocalLLaMA · hace 13 h

Cuando no tienes una GPU de centro de datos

El artículo hace referencia al modelo LiquidAI LFM2.5-230M como una alternativa para usuarios sin acceso a GPUs de centros de datos.

media r/LocalLLaMA · hace 13 h

Ornith-1.0: LLMs de código abierto para programación agéntica

Ornith-1.0 es una nueva familia de modelos de lenguaje grandes (LLM) de código abierto especializados en tareas de programación agéntica. La familia de modelos abarca múltiples tamaños de parámetros, incluyendo configuraciones Dense de 9B, MoE de 35B y MoE de 397B.

arxiv arXiv cs.CL · hace 13 h

Nemotron-TwoTower: Modelado de lenguaje con difusión utilizando contexto autoregresivo preentrenado

NVIDIA presenta Nemotron-TwoTower, un modelo de lenguaje por difusión que desacopla la representación del contexto y el denoising iterativo en dos redes separadas para superar las limitaciones de capacidad en los enfoques existentes. Construido sobre el modelo de pesos abiertos Nemotron-3-Nano-30B-A3B y entrenado con 2.1T tokens, conserva el 98.7% de la calidad de la línea base autoregresiva mientras logra una velocidad de generación en tiempo real 2.42X mayor.

arxiv arXiv cs.CL · hace 13 h

Los humanos se desconectan, los modelos de razonamiento persisten: Separar el registro de la dificultad de la asignación de deliberación

Un estudio revela que, aunque los grandes modelos de razonamiento (LRM) y los humanos dedican más tiempo a problemas más difíciles, divergen significativamente en cómo asignan la deliberación dentro de elementos específicos. Al cometer errores, los LRM generan más tokens que cuando aciertan, mientras que los humanos hacen lo contrario, dedicando menos tiempo a los ensayos que fallan.

arxiv arXiv cs.CL · hace 13 h

MemStrata: Eliminación de errores de hechos obsoletos en agentes RAG mediante validez temporal

El artículo presenta MemStrata, un sistema de memoria de recuperación diseñado para eliminar errores de hechos obsoletos en agentes de IA manteniendo la validez temporal dentro del conocimiento acumulado. A diferencia de la Generación Aumentada por Recuperación (RAG) estándar, que tiene dificultades para distinguir entre hechos duplicados y contradichos debido a la similitud de incrustaciones, MemStrata utiliza una regla determinista de suplantación para retirar información desactualizada.