Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 57

¿Qué herramientas utilizan las personas para estimar la VRAM y RAM para LLMs locales?

Los usuarios comparten que hf-accelerate's model-memory-usage y el calculador de VRAM de LLM de NyxKrage son herramientas comunes para estimar las necesidades de VRAM y RAM. La herramienta de NyxKrage se destaca por ser consciente del KV-cache y configurable con ajustes de cuantización y longitud de contexto, aunque los resultados pueden variar entre modelos y motores como llama.cpp o vLLM debido a los comportamientos de cuantización y caché.

media r/LocalLLaMA · hace 2 h

Unlimited-OCR de Baidu transcribe docenas de páginas en un solo pase hacia adelante

Baidu ha lanzado Unlimited-OCR, un modelo que transcribe docenas de páginas en un único pase hacia adelante utilizando Atención de Ventana Deslizante de Referencia (R-SWA). Se basa en DeepSeek-OCR, heredando su codificador, compresión de imágenes y arquitectura MoE, con solo 500M de parámetros activos por token. El modelo alcanza una precisión del 93.92% en OmniDocBench v1.6, superando el 87.01% de DeepSeek-OCR en v1.5, aunque los resultados reportados por el fabricante requieren validación independiente.

media r/LocalLLaMA · hace 2 h

Qwen3.6 27B más tonto en vLLM comparado con llama.cpp

Un usuario informa que Qwen3.6-27B se ejecuta significativamente menos de manera inteligente en vLLM que en llama.cpp, presentando problemas como ignorar mensajes, alucinar llamadas a herramientas y no reconocer el contexto de conversaciones previas. A pesar de la configuración adecuada y las plantillas de prompt, el modelo parece perder coherencia e interpretar mal su propio uso de herramientas, con errores que ocurren de manera consistente en lugar de esporádica.

media r/LocalLLaMA · hace 2 h

KaLM-Reranker-V1: Reordenamiento rápido y eficiente de documentos

KaLM-Reranker-V1 es un reordenador rápido, pero no de interacción tardía, que desacopla el cálculo de la consulta y del pasaje mientras mantiene una fuerte modelación de relevancia a través de cross-attention. Alcanza rendimiento de vanguardia en BEIR, supera a modelos industriales como Qwen3-Reranker, y muestra excelentes resultados en MIRACL y LMEB, con el modelo Nano de 0.27B manteniéndose competitivo frente a modelos de 7-12B.

media r/LocalLLaMA · hace 2 h

actualizaciones de llama.cpp: modelos Granite-Speech, LFM2.5-ColBERT, mejoras en el backend Vulkan

llama.cpp ahora soporta los modelos granite-speech-4.1-2b-plus y LFM2.5-ColBERT/Embedding-350M. Las actualizaciones del backend Vulkan incluyen soporte para convoluciones 3D, operaciones alineadas, GET_ROWS_BACK y estabilidad numérica mejorada en las capas feedforward. Las mejoras adicionales cubren mejoras en la interfaz de usuario y cobertura de pruebas del backend.

media r/LocalLLaMA · hace 2 h

El nuevo modelo de IA europeo Domyn tendrá 400B parámetros

Una startup ha desarrollado un modelo cerrado Domyn Large de 260B parámetros para uso empresarial y un modelo abierto de 10B disponible en HuggingFace. La compañía anuncia un nuevo modelo de IA europeo, Domyn, que escalará a 400 mil millones de parámetros.

media r/LocalLLaMA · hace 2 h

¿Quién paga por el trabajo con LLMs locales?

Los usuarios preguntan frecuentemente cómo procesar 10 mil millones de documentos con información personal identificable (PII) utilizando IA, citando requisitos del cliente. Un post en Reddit plantea la pregunta de quién está financiando este tipo de trabajo con LLMs locales y cuál es la demanda actual del mercado.

media r/LocalLLaMA · hace 2 h

División de PCIe 5.0 16x a 2x8 con cable elevador

Un usuario pregunta si dividir una ranura PCIe 5.0 16x en dos carriles 8x mediante un cable elevador puede mejorar el rendimiento de VRAM para tareas de generación de contexto grande. Señala que, aunque su configuración actual maneja bien el contexto de 16k, el rendimiento cae significativamente con un contexto de 128k, y se pregunta si la división con el cable elevador ayudaría o perjudicaría a su RTX 5070 Ti.

media r/LocalLLaMA · hace 2 h

Qwen lanza el modelo Qwen-AgentWorld-397B-A17B

Qwen ha anunciado un nuevo modelo de lenguaje grande llamado Qwen-AgentWorld-397B-A17B. El modelo se menciona en Hugging Face y en el blog oficial de Qwen, lo que indica su lanzamiento público y disponibilidad para su uso.

media r/LocalLLaMA · hace 2 h

llama-server se bloquea con el aviso 'pegado como archivo' para la extracción de datos de imagen

llama-server se bloquea cuando un usuario pega un aviso largo como un archivo de texto junto con una imagen, tratándolo como un archivo adjunto. El servidor funciona correctamente cuando el aviso se envía en lotes más pequeños, pero falla cuando todo el aviso se combina en un solo bloque de texto y se envía junto con la imagen.

media r/LocalLLaMA · hace 2 h

Unlimited-OCR ya está disponible en ModelScope

Unlimited-OCR, un modelo de OCR multilingüe de 3.3B, está disponible en ModelScope. Admite análisis en un solo paso para imágenes individuales, documentos multipágina y PDFs, con análisis de documento completo y hasta 32K de longitud de salida. El modelo incluye modos de imagen base y gundam para diversos diseños de documentos y admite inferencia con Transformers mediante streaming compatible con OpenAI.

media r/LocalLLaMA · hace 2 h

Repositorio de GitHub: Qwen-AgentWorld para Modelos del Mundo del Lenguaje

Qwen-AgentWorld es un repositorio de GitHub que introduce modelos del mundo del lenguaje diseñados para agentes de propósito general. El proyecto tiene como objetivo permitir a los agentes una comprensión del mundo más amplia y realista a través de la modelización basada en el lenguaje.

media r/LocalLLaMA · hace 2 h

Qwen lanza MoE de 35B parámetros para simulación de entornos de agentes

Qwen ha lanzado Qwen-AgentWorld-35B-A3B, un modelo MoE de 35B parámetros con solo unos 3B parámetros activos por token. Está entrenado para simular respuestas de entornos MCP, terminal, ingeniería de software, Android, web y GUI del sistema operativo, prediciendo las siguientes observaciones después de las acciones del agente, lo que permite un entrenamiento eficiente del agente y la simulación del entorno sin ejecución real de herramientas.

media r/LocalLLaMA · hace 2 h

La supercomputadora china desplaza a las máquinas de EE.UU. como la más rápida del mundo por primera vez desde 2017

Una supercomputadora china ha superado a las máquinas de EE.UU. para convertirse en la más rápida del mundo por primera vez desde 2017. Este logro marca un hito significativo en la computación de alto rendimiento global, destacando los avances en la tecnología y la infraestructura chinas.

media r/LocalLLaMA · hace 2 h

Proyecto de ley que exige el rastreo de ubicación de chips de IA obtiene apoyo de la industria

Media docena de empresas han expresado su apoyo a la Ley de Seguridad de Chips, que requeriría mecanismos de rastreo de ubicación en los chips de computación más avanzados de Estados Unidos. El proyecto de ley tiene como objetivo mejorar la seguridad permitiendo a las autoridades rastrear la ubicación física de los chips de IA de alto riesgo.

arxiv arXiv cs.CL · hace 2 h

Estudiando los modelos mentales de los usuarios en la traducción por voz

Un nuevo marco que utiliza preguntas y respuestas entre idiomas revela los modelos mentales de los usuarios sobre los sistemas de traducción por voz. Los usuarios desarrollan modelos mentales más sólidos con la práctica, especialmente con conocimiento del idioma original, basándose en pistas de errores superficiales. Proporcionar transcripciones de voz mejora el desarrollo del modelo, mostrando el potencial de las preguntas y respuestas entre idiomas en la investigación de colaboración humano-IA.

arxiv arXiv cs.CL · hace 2 h

ParaPairAudioBench: Benchmark para la Evaluación de Habla Paralingüística

ParaPairAudioBench introduce un benchmark por pares de 5.175 pares de audio en cinco dimensiones paralingüísticas. Revela que los jueces LALM actuales están un 32% por debajo de los juicios humanos en promedio y fallan al calibrarse, especialmente en casos de empate donde la abstención es correcta.

arxiv arXiv cs.CL · hace 2 h

AI-PAVE-Br: PAVE basado en LLM para el comercio electrónico brasileño

AI-PAVE-Br utiliza modelos de lenguaje grandes para mejorar la extracción de valores de atributos de productos en el comercio electrónico brasileño. El sistema supera a los métodos tradicionales de NER, con un nuevo conjunto Golden Set que proporciona una referencia manualmente anotada para datos de productos en portugués.

arxiv arXiv cs.CL · hace 2 h

DREAM: Entrenamiento autoregresivo para incrustaciones de recuperación densa

DREAM utiliza la predicción del siguiente token autoregresiva para supervisar el entrenamiento de incrustaciones de recuperación densa. Inyecta puntuaciones de similitud entre consulta y documento en las cabezas de atención de un LLM congelado, permitiendo la retropropagación de gradientes para la optimización del recuperador. DREAM supera a las líneas base en los benchmarks BEIR y RTEB a través de las escalas de modelos.

arxiv arXiv cs.CL · hace 2 h

CN-NewsTTS Bench v0.1 Lanzado

CN-NewsTTS Bench v0.1 es una evaluación abierta para evaluar la capacidad de los sistemas de TTS de noticias en chino para pronunciar correctamente los objetivos de texto crudo. Incluye 200 registros de desarrollo y 800 de prueba pública, 992 objetivos auto-evaluables, y resultados para siete sistemas TTS, con el mejor logrando una precisión estricta de 0.879 y varios por debajo de 0.60.