Todos los artículos
media r/LocalLLaMA · hace 1 h En vivo

KaLM-Reranker-V1: Reordenamiento rápido y eficiente de documentos

KaLM-Reranker-V1 es un reordenador rápido, pero no de interacción tardía, que desacopla el cálculo de la consulta y del pasaje mientras mantiene una fuerte modelación de relevancia a través de cross-attention. Alcanza rendimiento de vanguardia en BEIR, supera a modelos industriales como Qwen3-Reranker, y muestra excelentes resultados en MIRACL y LMEB, con el modelo Nano de 0.27B manteniéndose competitivo frente a modelos de 7-12B.

media r/LocalLLaMA · hace 1 h En vivo

actualizaciones de llama.cpp: modelos Granite-Speech, LFM2.5-ColBERT, mejoras en el backend Vulkan

llama.cpp ahora soporta los modelos granite-speech-4.1-2b-plus y LFM2.5-ColBERT/Embedding-350M. Las actualizaciones del backend Vulkan incluyen soporte para convoluciones 3D, operaciones alineadas, GET_ROWS_BACK y estabilidad numérica mejorada en las capas feedforward. Las mejoras adicionales cubren mejoras en la interfaz de usuario y cobertura de pruebas del backend.

media r/LocalLLaMA · hace 1 h En vivo

División de PCIe 5.0 16x a 2x8 con cable elevador

Un usuario pregunta si dividir una ranura PCIe 5.0 16x en dos carriles 8x mediante un cable elevador puede mejorar el rendimiento de VRAM para tareas de generación de contexto grande. Señala que, aunque su configuración actual maneja bien el contexto de 16k, el rendimiento cae significativamente con un contexto de 128k, y se pregunta si la división con el cable elevador ayudaría o perjudicaría a su RTX 5070 Ti.

media r/LocalLLaMA · hace 1 h En vivo

Unlimited-OCR ya está disponible en ModelScope

Unlimited-OCR, un modelo de OCR multilingüe de 3.3B, está disponible en ModelScope. Admite análisis en un solo paso para imágenes individuales, documentos multipágina y PDFs, con análisis de documento completo y hasta 32K de longitud de salida. El modelo incluye modos de imagen base y gundam para diversos diseños de documentos y admite inferencia con Transformers mediante streaming compatible con OpenAI.

media r/LocalLLaMA · hace 1 h En vivo

Qwen lanza MoE de 35B parámetros para simulación de entornos de agentes

Qwen ha lanzado Qwen-AgentWorld-35B-A3B, un modelo MoE de 35B parámetros con solo unos 3B parámetros activos por token. Está entrenado para simular respuestas de entornos MCP, terminal, ingeniería de software, Android, web y GUI del sistema operativo, prediciendo las siguientes observaciones después de las acciones del agente, lo que permite un entrenamiento eficiente del agente y la simulación del entorno sin ejecución real de herramientas.

arxiv arXiv cs.CL · hace 2 h

Estudiando los modelos mentales de los usuarios en la traducción por voz

Un nuevo marco que utiliza preguntas y respuestas entre idiomas revela los modelos mentales de los usuarios sobre los sistemas de traducción por voz. Los usuarios desarrollan modelos mentales más sólidos con la práctica, especialmente con conocimiento del idioma original, basándose en pistas de errores superficiales. Proporcionar transcripciones de voz mejora el desarrollo del modelo, mostrando el potencial de las preguntas y respuestas entre idiomas en la investigación de colaboración humano-IA.

arxiv arXiv cs.CL · hace 2 h

DREAM: Entrenamiento autoregresivo para incrustaciones de recuperación densa

DREAM utiliza la predicción del siguiente token autoregresiva para supervisar el entrenamiento de incrustaciones de recuperación densa. Inyecta puntuaciones de similitud entre consulta y documento en las cabezas de atención de un LLM congelado, permitiendo la retropropagación de gradientes para la optimización del recuperador. DREAM supera a las líneas base en los benchmarks BEIR y RTEB a través de las escalas de modelos.

arxiv arXiv cs.CL · hace 2 h

Descomposición de tareas para una anotación eficiente

Proponemos descomponer las tareas de anotación estructurada en subtareas para reducir la carga inferencial general. Al identificar entidades ancla salientes—centros en el espacio de anotaciones válidas—restringimos la complejidad de la salida y mejoramos la eficiencia de costos. Proporcionamos directrices para la descomposición y un procedimiento para asignar subtareas entre anotadores humanos y modelos, con el fin de lograr la calidad óptima bajo presupuestos fijos.

arxiv arXiv cs.CL · hace 2 h

Refinamiento posterior: generación rápida de lenguaje mediante mapas de flujo de cualquier orden

FMLM+ introduce el Refinamiento posterior, una estrategia que permite la autocorrección adaptativa durante la inferencia. Al combinar el transporte de mapas de flujo con programas de ruido estilo enmascaramiento, logra una generación de lenguaje de alta fidelidad con 32x menos evaluaciones sin ruido, superando tanto a MDM como a FMLM en la compensación entre velocidad y calidad.