Todos los artículos
media r/LocalLLaMA · hace 2 h

¿Qué herramientas utilizan las personas para estimar la VRAM y RAM para LLMs locales?

Los usuarios comparten que hf-accelerate's model-memory-usage y el calculador de VRAM de LLM de NyxKrage son herramientas comunes para estimar las necesidades de VRAM y RAM. La herramienta de NyxKrage se destaca por ser consciente del KV-cache y configurable con ajustes de cuantización y longitud de contexto, aunque los resultados pueden variar entre modelos y motores como llama.cpp o vLLM debido a los comportamientos de cuantización y caché.

media r/LocalLLaMA · hace 2 h

Unlimited-OCR de Baidu transcribe docenas de páginas en un solo pase hacia adelante

Baidu ha lanzado Unlimited-OCR, un modelo que transcribe docenas de páginas en un único pase hacia adelante utilizando Atención de Ventana Deslizante de Referencia (R-SWA). Se basa en DeepSeek-OCR, heredando su codificador, compresión de imágenes y arquitectura MoE, con solo 500M de parámetros activos por token. El modelo alcanza una precisión del 93.92% en OmniDocBench v1.6, superando el 87.01% de DeepSeek-OCR en v1.5, aunque los resultados reportados por el fabricante requieren validación independiente.

media r/LocalLLaMA · hace 2 h

Qwen3.6 27B más tonto en vLLM comparado con llama.cpp

Un usuario informa que Qwen3.6-27B se ejecuta significativamente menos de manera inteligente en vLLM que en llama.cpp, presentando problemas como ignorar mensajes, alucinar llamadas a herramientas y no reconocer el contexto de conversaciones previas. A pesar de la configuración adecuada y las plantillas de prompt, el modelo parece perder coherencia e interpretar mal su propio uso de herramientas, con errores que ocurren de manera consistente en lugar de esporádica.

media r/LocalLLaMA · hace 2 h

KaLM-Reranker-V1: Reordenamiento rápido y eficiente de documentos

KaLM-Reranker-V1 es un reordenador rápido, pero no de interacción tardía, que desacopla el cálculo de la consulta y del pasaje mientras mantiene una fuerte modelación de relevancia a través de cross-attention. Alcanza rendimiento de vanguardia en BEIR, supera a modelos industriales como Qwen3-Reranker, y muestra excelentes resultados en MIRACL y LMEB, con el modelo Nano de 0.27B manteniéndose competitivo frente a modelos de 7-12B.

media r/LocalLLaMA · hace 2 h

actualizaciones de llama.cpp: modelos Granite-Speech, LFM2.5-ColBERT, mejoras en el backend Vulkan

llama.cpp ahora soporta los modelos granite-speech-4.1-2b-plus y LFM2.5-ColBERT/Embedding-350M. Las actualizaciones del backend Vulkan incluyen soporte para convoluciones 3D, operaciones alineadas, GET_ROWS_BACK y estabilidad numérica mejorada en las capas feedforward. Las mejoras adicionales cubren mejoras en la interfaz de usuario y cobertura de pruebas del backend.

media r/LocalLLaMA · hace 2 h

División de PCIe 5.0 16x a 2x8 con cable elevador

Un usuario pregunta si dividir una ranura PCIe 5.0 16x en dos carriles 8x mediante un cable elevador puede mejorar el rendimiento de VRAM para tareas de generación de contexto grande. Señala que, aunque su configuración actual maneja bien el contexto de 16k, el rendimiento cae significativamente con un contexto de 128k, y se pregunta si la división con el cable elevador ayudaría o perjudicaría a su RTX 5070 Ti.

media r/LocalLLaMA · hace 2 h

Qwen lanza MoE de 35B parámetros para simulación de entornos de agentes

Qwen ha lanzado Qwen-AgentWorld-35B-A3B, un modelo MoE de 35B parámetros con solo unos 3B parámetros activos por token. Está entrenado para simular respuestas de entornos MCP, terminal, ingeniería de software, Android, web y GUI del sistema operativo, prediciendo las siguientes observaciones después de las acciones del agente, lo que permite un entrenamiento eficiente del agente y la simulación del entorno sin ejecución real de herramientas.

arxiv arXiv cs.CL · hace 2 h

Estudiando los modelos mentales de los usuarios en la traducción por voz

Un nuevo marco que utiliza preguntas y respuestas entre idiomas revela los modelos mentales de los usuarios sobre los sistemas de traducción por voz. Los usuarios desarrollan modelos mentales más sólidos con la práctica, especialmente con conocimiento del idioma original, basándose en pistas de errores superficiales. Proporcionar transcripciones de voz mejora el desarrollo del modelo, mostrando el potencial de las preguntas y respuestas entre idiomas en la investigación de colaboración humano-IA.

arxiv arXiv cs.CL · hace 2 h

DREAM: Entrenamiento autoregresivo para incrustaciones de recuperación densa

DREAM utiliza la predicción del siguiente token autoregresiva para supervisar el entrenamiento de incrustaciones de recuperación densa. Inyecta puntuaciones de similitud entre consulta y documento en las cabezas de atención de un LLM congelado, permitiendo la retropropagación de gradientes para la optimización del recuperador. DREAM supera a las líneas base en los benchmarks BEIR y RTEB a través de las escalas de modelos.