Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 56

KaLM-Reranker-V1: Reordenamiento rápido y eficiente de documentos

KaLM-Reranker-V1 es un reordenador rápido, pero no de interacción tardía, que desacopla el cálculo de la consulta y del pasaje mientras mantiene una fuerte modelación de relevancia a través de cross-attention. Alcanza rendimiento de vanguardia en BEIR, supera a modelos industriales como Qwen3-Reranker, y muestra excelentes resultados en MIRACL y LMEB, con el modelo Nano de 0.27B manteniéndose competitivo frente a modelos de 7-12B.

media r/LocalLLaMA · hace 1 h En vivo

actualizaciones de llama.cpp: modelos Granite-Speech, LFM2.5-ColBERT, mejoras en el backend Vulkan

llama.cpp ahora soporta los modelos granite-speech-4.1-2b-plus y LFM2.5-ColBERT/Embedding-350M. Las actualizaciones del backend Vulkan incluyen soporte para convoluciones 3D, operaciones alineadas, GET_ROWS_BACK y estabilidad numérica mejorada en las capas feedforward. Las mejoras adicionales cubren mejoras en la interfaz de usuario y cobertura de pruebas del backend.

media r/LocalLLaMA · hace 1 h En vivo

El nuevo modelo de IA europeo Domyn tendrá 400B parámetros

Una startup ha desarrollado un modelo cerrado Domyn Large de 260B parámetros para uso empresarial y un modelo abierto de 10B disponible en HuggingFace. La compañía anuncia un nuevo modelo de IA europeo, Domyn, que escalará a 400 mil millones de parámetros.

media r/LocalLLaMA · hace 1 h En vivo

¿Quién paga por el trabajo con LLMs locales?

Los usuarios preguntan frecuentemente cómo procesar 10 mil millones de documentos con información personal identificable (PII) utilizando IA, citando requisitos del cliente. Un post en Reddit plantea la pregunta de quién está financiando este tipo de trabajo con LLMs locales y cuál es la demanda actual del mercado.

media r/LocalLLaMA · hace 1 h En vivo

División de PCIe 5.0 16x a 2x8 con cable elevador

Un usuario pregunta si dividir una ranura PCIe 5.0 16x en dos carriles 8x mediante un cable elevador puede mejorar el rendimiento de VRAM para tareas de generación de contexto grande. Señala que, aunque su configuración actual maneja bien el contexto de 16k, el rendimiento cae significativamente con un contexto de 128k, y se pregunta si la división con el cable elevador ayudaría o perjudicaría a su RTX 5070 Ti.

media r/LocalLLaMA · hace 1 h En vivo

Qwen lanza el modelo Qwen-AgentWorld-397B-A17B

Qwen ha anunciado un nuevo modelo de lenguaje grande llamado Qwen-AgentWorld-397B-A17B. El modelo se menciona en Hugging Face y en el blog oficial de Qwen, lo que indica su lanzamiento público y disponibilidad para su uso.

media r/LocalLLaMA · hace 1 h En vivo

llama-server se bloquea con el aviso 'pegado como archivo' para la extracción de datos de imagen

llama-server se bloquea cuando un usuario pega un aviso largo como un archivo de texto junto con una imagen, tratándolo como un archivo adjunto. El servidor funciona correctamente cuando el aviso se envía en lotes más pequeños, pero falla cuando todo el aviso se combina en un solo bloque de texto y se envía junto con la imagen.

media r/LocalLLaMA · hace 1 h En vivo

Unlimited-OCR ya está disponible en ModelScope

Unlimited-OCR, un modelo de OCR multilingüe de 3.3B, está disponible en ModelScope. Admite análisis en un solo paso para imágenes individuales, documentos multipágina y PDFs, con análisis de documento completo y hasta 32K de longitud de salida. El modelo incluye modos de imagen base y gundam para diversos diseños de documentos y admite inferencia con Transformers mediante streaming compatible con OpenAI.

media r/LocalLLaMA · hace 1 h En vivo

Repositorio de GitHub: Qwen-AgentWorld para Modelos del Mundo del Lenguaje

Qwen-AgentWorld es un repositorio de GitHub que introduce modelos del mundo del lenguaje diseñados para agentes de propósito general. El proyecto tiene como objetivo permitir a los agentes una comprensión del mundo más amplia y realista a través de la modelización basada en el lenguaje.

media r/LocalLLaMA · hace 1 h En vivo

Qwen lanza MoE de 35B parámetros para simulación de entornos de agentes

Qwen ha lanzado Qwen-AgentWorld-35B-A3B, un modelo MoE de 35B parámetros con solo unos 3B parámetros activos por token. Está entrenado para simular respuestas de entornos MCP, terminal, ingeniería de software, Android, web y GUI del sistema operativo, prediciendo las siguientes observaciones después de las acciones del agente, lo que permite un entrenamiento eficiente del agente y la simulación del entorno sin ejecución real de herramientas.

media r/LocalLLaMA · hace 1 h En vivo

La supercomputadora china desplaza a las máquinas de EE.UU. como la más rápida del mundo por primera vez desde 2017

Una supercomputadora china ha superado a las máquinas de EE.UU. para convertirse en la más rápida del mundo por primera vez desde 2017. Este logro marca un hito significativo en la computación de alto rendimiento global, destacando los avances en la tecnología y la infraestructura chinas.

media r/LocalLLaMA · hace 2 h

Proyecto de ley que exige el rastreo de ubicación de chips de IA obtiene apoyo de la industria

Media docena de empresas han expresado su apoyo a la Ley de Seguridad de Chips, que requeriría mecanismos de rastreo de ubicación en los chips de computación más avanzados de Estados Unidos. El proyecto de ley tiene como objetivo mejorar la seguridad permitiendo a las autoridades rastrear la ubicación física de los chips de IA de alto riesgo.

arxiv arXiv cs.CL · hace 2 h

Estudiando los modelos mentales de los usuarios en la traducción por voz

Un nuevo marco que utiliza preguntas y respuestas entre idiomas revela los modelos mentales de los usuarios sobre los sistemas de traducción por voz. Los usuarios desarrollan modelos mentales más sólidos con la práctica, especialmente con conocimiento del idioma original, basándose en pistas de errores superficiales. Proporcionar transcripciones de voz mejora el desarrollo del modelo, mostrando el potencial de las preguntas y respuestas entre idiomas en la investigación de colaboración humano-IA.

arxiv arXiv cs.CL · hace 2 h

ParaPairAudioBench: Benchmark para la Evaluación de Habla Paralingüística

ParaPairAudioBench introduce un benchmark por pares de 5.175 pares de audio en cinco dimensiones paralingüísticas. Revela que los jueces LALM actuales están un 32% por debajo de los juicios humanos en promedio y fallan al calibrarse, especialmente en casos de empate donde la abstención es correcta.

arxiv arXiv cs.CL · hace 2 h

AI-PAVE-Br: PAVE basado en LLM para el comercio electrónico brasileño

AI-PAVE-Br utiliza modelos de lenguaje grandes para mejorar la extracción de valores de atributos de productos en el comercio electrónico brasileño. El sistema supera a los métodos tradicionales de NER, con un nuevo conjunto Golden Set que proporciona una referencia manualmente anotada para datos de productos en portugués.

arxiv arXiv cs.CL · hace 2 h

DREAM: Entrenamiento autoregresivo para incrustaciones de recuperación densa

DREAM utiliza la predicción del siguiente token autoregresiva para supervisar el entrenamiento de incrustaciones de recuperación densa. Inyecta puntuaciones de similitud entre consulta y documento en las cabezas de atención de un LLM congelado, permitiendo la retropropagación de gradientes para la optimización del recuperador. DREAM supera a las líneas base en los benchmarks BEIR y RTEB a través de las escalas de modelos.

arxiv arXiv cs.CL · hace 2 h

CN-NewsTTS Bench v0.1 Lanzado

CN-NewsTTS Bench v0.1 es una evaluación abierta para evaluar la capacidad de los sistemas de TTS de noticias en chino para pronunciar correctamente los objetivos de texto crudo. Incluye 200 registros de desarrollo y 800 de prueba pública, 992 objetivos auto-evaluables, y resultados para siete sistemas TTS, con el mejor logrando una precisión estricta de 0.879 y varios por debajo de 0.60.

arxiv arXiv cs.CL · hace 2 h

Descomposición de tareas para una anotación eficiente

Proponemos descomponer las tareas de anotación estructurada en subtareas para reducir la carga inferencial general. Al identificar entidades ancla salientes—centros en el espacio de anotaciones válidas—restringimos la complejidad de la salida y mejoramos la eficiencia de costos. Proporcionamos directrices para la descomposición y un procedimiento para asignar subtareas entre anotadores humanos y modelos, con el fin de lograr la calidad óptima bajo presupuestos fijos.

arxiv arXiv cs.CL · hace 2 h

Refinamiento posterior: generación rápida de lenguaje mediante mapas de flujo de cualquier orden

FMLM+ introduce el Refinamiento posterior, una estrategia que permite la autocorrección adaptativa durante la inferencia. Al combinar el transporte de mapas de flujo con programas de ruido estilo enmascaramiento, logra una generación de lenguaje de alta fidelidad con 32x menos evaluaciones sin ruido, superando tanto a MDM como a FMLM en la compensación entre velocidad y calidad.

arxiv arXiv cs.CL · hace 2 h

¿Estamos listos para un sistema de memoria nativo para agentes?

Un nuevo estudio descompone la memoria del agente en cuatro módulos principales y evalúa 12 sistemas a través de cinco cargas de trabajo de referencia. No encuentra que una única arquitectura domine, con el rendimiento dependiente de la alineación con los cuellos de botella de la carga de trabajo, y revela que el mantenimiento localizado es más rentable que la reorganización global.