Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 46

arxiv arXiv cs.CL · hace 2 h

Estudio de ablación de componentes RAG agénticos con modelo local de 7B

Un estudio de ablación controlado evalúa los componentes RAG agénticos utilizando un modelo local de 7B en HotpotQA. La recuperación híbrida fija supera a la enrutamiento adaptativo por 1.8 EM y 1.9 F1, mientras que dos iteraciones de recuperación capturan el 95% de las ganancias de cinco. La descomposición de consultas y el reordenamiento con cross-encoder muestran mejoras estadísticamente significativas pero menores.

arxiv arXiv cs.CL · hace 2 h

PeerMathDial: Primer conjunto de datos sobre resolución de problemas matemáticos entre estudiantes

PeerMathDial es el primer conjunto de datos de diálogos de resolución colaborativa de problemas matemáticos entre pares en aulas de escuela secundaria. Incluye 55 diálogos de 27 estudiantes, con un total de 6,406 turnos, y presenta una taxonomía de actos de diálogo basada en el corpus. El conjunto de datos permite investigar la evolución del diálogo, las relaciones entre rasgos estudiantiles y comportamiento, y el rendimiento de LLMs al simular interacciones entre estudiantes.

arxiv arXiv cs.CL · hace 2 h

Marco de Rúbrica Dinámica Específica del Caso para Evaluación de Traducción

El artículo propone un marco de rúbrica dinámica que adapta los espacios de evaluación MQM a instancias individuales de traducción. Al seleccionar subtipos de espacios y granularidades basadas en necesidades específicas del caso, mejora la cobertura de errores y la localización, superando a los métodos de rúbricas estáticas en los benchmarks a nivel de span de WMT.

media r/LocalLLaMA · hace 2 h

Microsoft lanza FastContext de código abierto para agentes de codificación LLM

Microsoft ha liberado como código abierto FastContext-1.0, un subagente ligero de exploración de repositorios que separa la exploración del repositorio de código de la resolución de tareas en agentes de codificación LLM. Utiliza llamadas de herramientas paralelas solo de lectura para devolver rutas de archivo compactas y rangos de líneas, mejorando la precisión de extremo a extremo y reduciendo el uso de tokens hasta un 60.3%, con el modelo 4B-RL superando a un modelo 30B-SFT en SWE-bench Pro.

blog Simon Willison · hace 2 h

Inyección de prompt como confusión de rol

Los investigadores identifican la 'confusión de rol' como una vulnerabilidad clave en los LLM, donde los modelos interpretan mal la entrada del usuario debido a similitudes estilísticas con las etiquetas de rol internas. Destilizar los prompts del usuario reduce el éxito del ataque del 61% al 10%, lo que muestra que cambios sutiles en el estilo del texto pueden alterar drásticamente el comportamiento del modelo, incluso cuando el contenido parece idéntico para los humanos.

blog Simon Willison · hace 2 h

Porting Moebius 0.2B Image Inpainting to Browser with Claude Code

El modelo de inpainting de imágenes Moebius 0.2B ha sido portado con éxito para ejecutarse en el navegador utilizando WebGPU y ONNX Runtime. El proyecto, iniciado con Claude Code, convierte los pesos del modelo a ONNX y los despliega a través de Hugging Face, con una interfaz web simple disponible en simonw.github.io/moebius-web/.

media r/LocalLLaMA · hace 2 h

El potencial de Gemma 4 para superar a Mistral y Qwen3.6 mediante finetuning

Gemma 4 muestra un fuerte rendimiento base y características únicas como soporte global de MTP, QAT y capacidades visuales listas para usar. Aunque actualmente carece de finetunes generalizados, modelos como MeroMero, Equinox y Gembrain ya han demostrado alta calidad, lo que sugiere que con el esfuerzo de la comunidad, Gemma 4 podría superar a Mistral o Qwen3.6 en tareas específicas como codificación y escritura creativa.

media r/LocalLLaMA · hace 2 h

DeepSeek recauda $7.4B con una valoración de $60B; Liang Wenfeng invierte $3B

DeepSeek ha recaudado $7.4 mil millones en financiación con una valoración de $60 mil millones. Liang Wenfeng, fundador de la empresa, invirtió personalmente $3 mil millones en esta ronda, subrayando su participación significativa y compromiso con el crecimiento de la compañía.

media r/LocalLLaMA · hace 2 h

Idea para ejecutar GLM2 con una cuantización decente en configuración de GPU y DDR3

El usuario propone utilizar cuatro GPUs 5060 Ti con 64GB de VRAM en total, funcionando a PCIe Gen 3, para ejecutar GLM2 a un nivel de cuantización razonable. Sugiere añadir 512GB de RAM DDR3 en un servidor con 16 carriles PCIe y bifurcación 4x4 para descargar el almacenamiento del KV cache, buscando una inferencia eficiente sin depender de clústeres de memoria unificada. Se estima que la configuración costará alrededor de $1700 en total, con viabilidad potencial para GLM2 a un nivel de cuantización decente.

media r/LocalLLaMA · hace 2 h

MacBook Pro M5 Pro 64GB para inferencia de IA local

Un usuario está evaluando un MacBook Pro con el chip M5 Pro y 64GB de memoria unificada para ejecutar grandes modelos de IA locales como Qwen 35B A3B o modelos de 8B en marcos de agentes de IA como Opencode o Pi. Está preocupado por la longitud del contexto, el rendimiento, la multitarea con aplicaciones como IDEs y Chromium, y el posible sobrecalentamiento, buscando comentarios de otros con configuraciones similares.

media r/LocalLLaMA · hace 2 h

Qt Creator 20 introduce funciones de IA local

Qt Creator 20 ahora incluye capacidades de IA local, permitiendo a los desarrolladores usar IA para la finalización y sugerencias de código directamente dentro del IDE. Esta integración admite LLMs locales, permitiendo a los usuarios ejecutar modelos de IA en sus propios dispositivos sin depender de servicios en la nube.

media r/LocalLLaMA · hace 2 h

Agregar soporte para Laguna M.1 GGUF por empty-quiver

Una pull request agrega soporte para el modelo GGUF Laguna M.1 225B-A23B en ik_llama.cpp. El modelo está disponible en Hugging Face en https://huggingface.co/sigargv/Laguna-M.1-GGUF.

media r/LocalLLaMA · hace 2 h

Comparación de GLM-5.2 vs Claude Opus

Una publicación en Reddit compara GLM-5.2 y Claude Opus, destacando su rendimiento y capacidades. La comparación está respaldada por una página dedicada de análisis técnico e incluye comentarios de la comunidad.

media r/LocalLLaMA · hace 2 h

Punto de vista de Anthropic sobre LocalLLaMA

Un usuario comparte su perspectiva sobre los modelos de lenguaje locales, destacando las ideas clave del enfoque de Anthropic. La publicación analiza consideraciones prácticas y el rendimiento al ejecutar modelos de IA localmente, enfatizando la accesibilidad y la privacidad.

media r/LocalLLaMA · hace 2 h

¿Por qué ningún modelo de pensamiento utiliza tokens a nivel de oración?

Un usuario pregunta por qué no hay modelos de lenguaje entrenados con oraciones completas como tokens individuales, sugiriendo que tal modelo podría actuar como un 'hablante aproximado' con fuertes capacidades de razonamiento. Proponen usar un solo token para frases como 'comida arrojada por el inodoro' para simplificar el procesamiento de entradas.

media r/LocalLLaMA · hace 2 h

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.

media r/LocalLLaMA · hace 2 h

Mejor modelo local para convertir texto en salida JSON estructurada

Los usuarios buscan un modelo local que convierta eficientemente texto no estructurado en JSON válido basado en un esquema definido. Entre los modelos probados, Qwen 3.6 35B a3b muestra un rendimiento sólido, igualando la calidad de modelos más grandes como GPT-120B mientras es más estable en máquinas locales que GPT-20B.

media r/LocalLLaMA · hace 2 h

Moebius: Marco de inpintación de imágenes ligero de 0.2B

Moebius es un marco de inpintación de imágenes de 0.2B parámetros que logra un rendimiento comparable al de modelos de 10B parámetros. Está diseñado para la edición de imágenes ligera y eficiente con requisitos computacionales mínimos.

media r/LocalLLaMA · hace 2 h

Hackers chinos crean un clon del Tesla V100 v4

Los hackers chinos han realizado ingeniería inversa del pinout del Tesla V100, lo han soldado en una PCB de media altura y lo han lanzado como el Tesla V100 v4. La versión de 16GB tiene un precio de 1499 RMB (220 USD) con una garantía de tres años, mientras que la versión de 32GB cuesta 3999 RMB (590 USD).

media r/LocalLLaMA · hace 2 h

TMax: Una receta sencilla para agentes de terminal

TMax presenta TMax-15k, un conjunto de datos con 14.600 entornos de RL, más de 2,5× mayor que el siguiente conjunto de datos de terminal abierto más grande. También presenta una receta de RL sencilla que entrena modelos abiertos de 2B a 27B parámetros, con TMax-9B logrando un 27,2% en Terminal Bench 2.0 y TMax-27B alcanzando el 42,7%.