Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 116

DeepSeek V4 por am17an · Pull Request #24162 · ggml-org/llama.cpp

Una pull request enviada al repositorio ggml-org/llama.cpp permite la ejecución local del modelo DeepSeek V4.

DMV-Bench: Diagnosticando la memoria visual de agentes multimodales de largo horizonte mediante inyección de pistas incidentales

Los investigadores presentan DMV-Bench, el primer benchmark interactivo diseñado para evaluar la memoria visual en agentes multimodales dentro de entornos controlados. El estudio propone DualMem, una arquitectura de memoria visual y verbal paralela que supera significativamente a los sistemas existentes en esta nueva herramienta de diagnóstico.

arxiv arXiv cs.LG · hace 8 h

Concordia: Puntos de control persistentes con núcleo JIT-compilado para inferencia tolerante a fallos de LLM

Este artículo presenta Concordia, un entorno de ejecución diseñado para proporcionar tolerancia a fallos en agentes LLM de larga duración manteniendo el estado valioso en las GPUs sin reiniciar la pila de servicio. El sistema utiliza un núcleo persistente residente en el dispositivo que se interpone en la carga del módulo GPU para admitir instrumentación a nivel PTX y SASS.

media r/LocalLLaMA · hace 8 h

GLM 5.2 Q1_S vs Qwen 27B Q8: Una comparación de LLM local

Una comparación amateur en hardware de consumo demuestra que el GLM-5.2 altamente cuantizado (Q1_S) supera al Qwen 3.6 27B de mayor precisión (Q8) en una tarea de codificación compleja, a pesar de velocidades de inferencia significativamente más lentas.

media r/LocalLLaMA · hace 8 h

Usuario de Reddit busca interfaz de chat con IA llamativa y rica en funciones, sobre opciones minimalistas

Un usuario de Reddit está pidiendo recomendaciones para interfaces de chat "llamativas" y cargadas de funciones, comparando específicamente LibreChat y OpenWebUI, para un amigo técnicamente inclinado pero analfabeto en IA.

media r/LocalLLaMA · hace 8 h

MiCA ahora forma parte de Hugging Face PEFT

El método MiCA (Minor Component Adaptation) se ha fusionado en la rama principal de la biblioteca PEFT de Hugging Face, permitiendo a los usuarios instalarlo directamente desde el código fuente. Se expone a través de la interfaz LoRA existente estableciendo `init_lora_weights="mica"`.

media r/LocalLLaMA · hace 8 h

AMD MI210 64GB vs DCU K100 64GB

Un usuario de Reddit compara los precios y especificaciones de las GPUs AMD Instinct MI210 64GB y la DCU K100 64GB china disponibles en el mercado chino de eBay. La discusión destaca que, aunque ambas tarjetas ofrecen capacidades de memoria similares, difieren significativamente en precio, ancho de banda y detalles arquitectónicos.

media r/LocalLLaMA · hace 8 h

Actualización: Primeros resultados manuales de pruebas sobre la transferencia de habilidades procedimentales en modelos pequeños

Un experimento manual evaluó si un andamio procedural generado por un modelo grande puede transferir disciplina de planificación a modelos más pequeños sin ajuste fino ni revelación de la respuesta objetivo. Los resultados indican que este enfoque mejora significativamente la legibilidad estructural y la composición en modelos pequeños cuando se aplica en diferentes dominios de Three.js.

arxiv arXiv cs.CL · hace 8 h

El enfoque del desarrollo revela el aprendizaje estadístico de los Modelos de Lenguaje Neuronales: los Transformers generalizan a partir de los patrones estadísticos más abstractos

Este estudio investiga el aprendizaje estadístico y la representación mental de los modelos de lenguaje neuronales mediante el entrenamiento de modelos Transformer generativos en una gramática sintética y el análisis de sus representaciones internas en diversas etapas.

arxiv arXiv cs.CL · hace 8 h

Supersede: Diagnosticar y entrenar la brecha de actualización de memoria en agentes LLM

Este artículo identifica un modo de fallo distinto en agentes de modelos de lenguaje grandes donde tienen dificultades para descartar hechos obsoletos en favor de los actuales, incluso cuando la comprensión está intacta. Los autores demuestran que esta "brecha de supresión" persiste a través de las escalas del modelo y los tamaños de memoria, lo que indica que es un cuello de botella entrenable en lugar de una limitación de la ventana de contexto o la fuerza del modelo.

github llama.cpp · hace 8 h

Lanzamiento de llama.cpp b9838: Compilaciones para macOS, Linux, Windows y Android

El proyecto llama.cpp ha lanzado la versión b9838, proporcionando binarios precompilados para una amplia gama de sistemas operativos y aceleradores de hardware. Esta versión incluye soporte para CPU, GPU (CUDA, Vulkan, ROCm, OpenCL) y aceleradores de IA especializados en macOS, Linux, Windows, Android y openEuler.

arxiv arXiv cs.CL · hace 9 h

Aloe-Vision: Modelos robustos de visión y lenguaje para atención médica

Este trabajo presenta Aloe-Vision, una familia de modelos grandes de visión y lenguaje de código abierto (7B y 72B) entrenados en el recién lanzado conjunto de datos Aloe-Vision-Data para abordar la escasez de datos y los problemas de robustez en la IA para atención médica. Los autores demuestran que su mezcla de entrenamiento de alta calidad produce ganancias significativas de rendimiento sobre las líneas base mientras mantiene capacidades generales.

arxiv arXiv cs.CL · hace 9 h

La maldición de los múltiples mediadores: Efectos de interacción ocultos en el parcheo de activaciones

Una nueva derivación del estimador de parcheo de activaciones desde el análisis de mediación causal revela que el efecto indirecto natural (NIE) captura no solo el efecto causal a través de un componente específico, sino también efectos de interacción (INT). Estos términos INT miden cuánto depende el efecto causal de un componente del estado de otros componentes en el modelo, desafiando la suposición de que el NIE aísla las contribuciones individuales.

arxiv arXiv cs.CL · hace 9 h

El Transformer listo para contexto

Los autores presentan el transformer listo para contexto, una arquitectura de red neuronal recurrente que pre-contextualiza cada token antes de que ingrese a un bloque de transformer D-layer utilizando una red de corrección.

arxiv arXiv cs.CL · hace 9 h

EntMTP: Acelerando la inferencia de LLM con Predicción Multi-Token Guiada por Entropía

Los autores proponen la Predicción Multi-Token Guiada por Entropía (EntMTP), un programador sin entrenamiento que ajusta dinámicamente la profundidad de especulación durante la inferencia de LLM basándose en la entropía local de generación. Este enfoque aborda la ineficiencia de las topologías estáticas de atención basada en árboles al igualar los requisitos de cómputo con la predecibilidad del contexto.

arxiv arXiv cs.CL · hace 9 h

Ko-WideSearch: Una prueba de referencia de búsqueda amplia en coreano para la enumeración exhaustiva de conjuntos por agentes web

El artículo presenta Ko-WideSearch, una nueva prueba de referencia diseñada para evaluar las capacidades de búsqueda amplia de los agentes web en coreano, abordando la falta de métricas de enumeración exhaustiva de conjuntos fuera del inglés.

arxiv arXiv cs.CL · hace 9 h

Narrative-UFET: Generación de narrativas para la tipificación ultra-fina de entidades

Los autores presentan Narrative-UFET, una extensión controlada de la tipificación ultra-fina de entidades que empareja menciones de entidades con narrativas cortas generadas automáticamente para abordar limitaciones en la desambiguación de tipos de cola larga. El estudio demuestra que el contexto narrativo produce mejoras consistentes sobre las líneas base a nivel de oración, particularmente cuando el tipo de la entidad cambia dentro del texto.

arxiv arXiv cs.CL · hace 9 h

Modelos de Flujo de Lenguaje Enmascarado

Los autores presentan los Modelos de Flujo de Lenguaje Enmascarado (MLFMs), que combinan la difusión enmascarada con flujos continuos para permitir un razonamiento eficiente y multi-paso en la generación de lenguaje. Este enfoque cierra la brecha entre la eficiencia de la generación paralela y el rendimiento en tareas complejas al permitir que los modelos preentrenados se adapten a MLFMs.

arxiv arXiv cs.CL · hace 9 h

DysLexLens: Un marco de LLM de bajo recurso para analizar las perspectivas de estudiantes con dislexia a partir de foros en línea

Este artículo presenta DysLexLens, un marco de LLM de bajo recurso diseñado para analizar las experiencias de estudiantes con dislexia al utilizar herramientas de IA a través de discusiones en foros en línea. El sistema proporciona una arquitectura integral y rastreable en cuanto a evidencia que transforma publicaciones ruidosas de redes sociales en corpus enfocados y genera respuestas verificables a consultas.

arxiv arXiv cs.CL · hace 9 h

Detección de comentarios ofensivos chinos entre plataformas mediante minería de ejemplos difíciles con umbral dual

Este artículo aborda la degradación del rendimiento de los modelos de detección de comentarios ofensivos cuando se implementan en diferentes plataformas de redes sociales chinas, proponiendo un método de minería de ejemplos difíciles con umbral dual.