Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 58

OPERA: Alinear el razonamiento de propósito abierto mediante aprendizaje por refuerzo basado en perplejidad objetiva

El marco OPERA aborda la inestabilidad de aplicar aprendizaje por refuerzo a tareas de propósito abierto, reemplazando modelos de juicio externos con recompensas intrínsecas derivadas de la dinámica de la perplejidad. Este enfoque cuantifica la reducción de la incertidumbre en estados reflexivos críticos, eliminando sesgos estilísticos e inconsistencias posicionales comunes en los sistemas LLM-as-a-judge. Durante la fase de arranque en frío, el método utiliza palabras guía para sintetizar trazas de razonamiento diversas y emplea rollouts priorizados por perplejidad para identificar ramas lógicamente consistentes. Esta tubería genera un conjunto de datos a gran escala de 20,000 trayectorias de razonamiento de alta calidad para el entrenamiento. Implementar OPERA en el modelo Qwen3-8B establece un nuevo estado del arte entre los modelos de código abierto. El sistema alcanza la paridad con o supera a modelos propietarios como Gemini2.5 y MiniMax-M2.5 en tareas específicas de propósito abierto. Las evaluaciones empíricas confirman la escalabilidad y eficacia de esta estrategia de alineación basada en perplejidad objetiva.

arxiv arXiv cs.CL · hace 2 h

El Benchmark Argus evalúa la estabilidad de la cuantificación de incertidumbre en modelos de visión-lenguaje y conjuntos de datos de fundamentación de GUI

Los autores presentan Argus, un benchmark diseñado para evaluar la cuantificación de incertidumbre post-hoc para agentes de uso informático que traducen las predicciones de modelos de visión-lenguaje en acciones ejecutables de GUI. El estudio evalúa 28 métodos de peso abierto en cuatro agentes VLM y cuatro conjuntos de datos, junto con ocho métodos propietarios de tres proveedores donde los estados internos del modelo son inaccesibles. Los hallazgos clave revelan una estabilidad de transferencia selectiva, donde las clasificaciones de incertidumbre permanecen consistentes entre diferentes conjuntos de datos para un modelo fijo, pero se degradan significativamente al pasar entre diferentes clases de modelos o interfaces observables. Entre las opciones de peso abierto, las técnicas de estimación de densidad y los estados ocultos demostraron la mayor estabilidad, mientras que regímenes específicos favorecieron puntuaciones basadas en muestreo o autoevaluación verbalizada. La transferencia de ranking dentro del modelo resultó ser fuerte con valores de rho de Spearman hasta 0.969, mientras que la transferencia entre niveles a proveedores propietarios promedió solo +0.08. La investigación también indica que las regiones de clic conformes reducen los radios en un 40-60 por ciento tras la calibración, pero sufren degradación de cobertura bajo desajuste de interfaz. Para apoyar la selección consciente del régimen, los autores publican registros por elemento, divisiones de calibración, puntuaciones UQ y scripts de análisis.

arxiv arXiv cs.CL · hace 2 h

Generación de lenguaje eficiente en espacio en el límite

Este estudio inicia una teoría consciente de los recursos de la generación de lenguaje en el límite bajo restricciones de eficiencia espacial. Un aprendiz observa un flujo adversario positivo de un lenguaje objetivo K y debe producir una hipótesis libre de alucinaciones L mientras omite como máximo Δ cadenas. La investigación se centra en DFAs con s estados sobre un alfabeto de tamaño k como la clase de hipótesis para aprendices con memoria limitada. En el régimen de espacio exponencial, los autores demuestran que un aprendiz puede identificar exactamente el lenguaje objetivo K. Bajo presupuestos de memoria más estrictos, presentan un algoritmo en streaming que usa espacio poly(s,k) y converge a una hipótesis con una brecha de generación de Δ= O(k^{2s-2}). Esta hipótesis aprendida captura cada cadena en K de longitud al menos 2s-1. Los resultados se complementan con un límite inferior casi coincidente derivado de la complejidad de comunicación, mostrando que lograr Δ≤ k^{(1-ε)s} requiere memoria k^{Ω(εs)}. Estos hallazgos revelan una transición aguda entre la generación en espacio polinomial y la identificación exacta en espacio exponencial.

arxiv arXiv cs.CL · hace 2 h

¿Bastan los codificadores? Una comparación sistemática de jueces evaluadores de seguridad basados en codificadores y decodificadores para la evaluación adversarial de LLM

Este estudio evalúa si los clasificadores de codificador ModernBERT ajustados pueden servir como alternativas rentables a los jueces basados en LLM para la evaluación de seguridad. Los investigadores compararon ModernBERT y Ettin frente a la coincidencia de prefijos basada en reglas, clasificadores de LLM ajustados y varias metodologías de jueces LLM. Estos jueces LLM incluyeron estrategias de StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge y modelos como LlamaGuard 3 y 4. Los clasificadores de codificador se entrenaron con datos etiquetados por jueces utilizando una estrategia de etiqueta de votación mayoritaria y se probaron en un conjunto de prueba estándar de oro. El rendimiento se midió utilizando la puntuación F1, la tasa de falsos negativos y las métricas de precisión-recuperación en conjuntos de datos adversariales de código abierto. Los resultados se analizaron adicionalmente por técnica de ataque, incluyendo prompting de turno único, descomposición, escalada y manipulación del contexto. Los hallazgos proporcionan orientación sobre cuándo los clasificadores de codificador pueden reemplazar de manera confiable a los jueces basados en LLM sin una pérdida sustancial de rendimiento.

arxiv arXiv cs.CL · hace 2 h

Cómo los modelos de lenguaje grandes obtienen la reputación de marca a través de idiomas y mercados

Este estudio analiza las fuentes de citación utilizadas por los modelos de lenguaje grandes al responder preguntas sobre marcas, centrándose en las referencias web subyacentes en lugar de solo el texto generado. Los investigadores fusionaron tres conjuntos de datos de Rankfor.AI para examinar 167,551 citas basadas en URLs a lo largo de 128 marcas en 12 mercados locales y 13 idiomas. El análisis revela que la IA fundamenta las respuestas sobre marcas abrumadoramente en fuentes de terceros, con el 85.7% de las citas apuntando a sitios que la marca no posee en comparación con solo el 14.3% para dominios propios. La base de fuentes está altamente concentrada y sigue una ley de Zipf, donde el 80% de las citas provienen de aproximadamente el 18% de los dominios. Wikipedia emerge como el sitio de referencia dominante, siendo el dominio más citado en 11 de los 13 idiomas estudiados. La única excepción es el lituano, donde el diario económico vz.lt supera ligeramente a Wikipedia con una cuota del 4.38%. Además, la mezcla de fuentes muestra variaciones específicas del mercado, como YouTube siendo el dominio más citado para las marcas nacionales polacas y los portales de recursos humanos que proporcionan más citas que Wikipedia en polaco.

arxiv arXiv cs.CL · hace 2 h

ToolBench-X: Evaluación de agentes que usan herramientas en entornos no confiables

Los autores presentan ToolBench-X, un nuevo benchmark diseñado para evaluar agentes de modelos de lenguaje grandes bajo irrecoverabilidad recuperable del entorno de herramientas. A diferencia de los benchmarks existentes que asumen entornos limpios y estables, este framework inyecta cinco tipos estructurados de peligros: Deriva de Especificación, Error de Invocación, Fallo de Ejecución, Deriva de Salida y Conflicto entre fuentes. El conjunto de datos contiene tareas ejecutables multi-paso en diversos dominios con herramientas deterministas y respuestas finales canónicas para evaluación automática. Crucialmente, cada instancia inyectada permanece resoluble a través de rutas de recuperación válidas como reintento, fallback o verificación. Los experimentos revelan una brecha sustancial de fiabilidad donde los agentes que funcionan bien con herramientas confiables a menudo fallan bajo estos peligros. El análisis adicional indica que los fallos provienen de un diagnóstico limitado de peligros y recuperación ineficaz en lugar del volumen de uso de herramientas o el presupuesto de inferencia. Las pistas de recuperación dirigidas recuperan exitosamente muchas tareas fallidas, mientras que la escalación en tiempo de prueba ofrece ganancias más limitadas. Estos hallazgos sugieren que la evaluación debe cambiar el enfoque desde la precisión de llamadas a funciones hacia la finalización de tareas en entornos no confiables.

arxiv arXiv cs.CL · hace 2 h

SARA: Desbloqueando el conocimiento multilingüe en Mezcla de Expertos mediante Alineamiento de Enrutamiento Anclado Semánticamente

Las arquitecturas de Mezcla de Expertos (MoE) dispersas a menudo luchan con idiomas de recursos limitados debido a la divergencia del enrutamiento intercultural que limita el intercambio de expertos. Para abordar esto, los investigadores proponen SARA, un marco que transfiere capacidades especializadas de idiomas ancla de recursos abundantes a aquellos de recursos limitados. SARA alinea las distribuciones de enrutamiento interno de las capas MoE utilizando una restricción de divergencia simétrica de Jensen-Shannon en lugar de operar sobre los logits de salida. Este enfoque fomenta la consistencia mecánica en la selección de expertos entre diferentes idiomas. Los autores evaluaron el método en dos modelos de lenguaje grandes a través de cinco idiomas de recursos limitados y tres conjuntos de pruebas. Los resultados muestran que SARA supera al ajuste por instrucciones estándar, logrando ganancias de +0.8% en Qwen3-30B-A3B y +1.2% en Phi-3.5-MoE-instruct para Global-MMLU. Estos hallazgos demuestran que SARA aborda eficazmente los cuellos de botella de rendimiento en contextos de recursos limitados.

media r/LocalLLaMA · hace 2 h

Consulta comunitaria sobre ejecutar DwarfStar con DeepSeek V4 Flash en DGX Spark

Un usuario de Reddit en la comunidad r/LocalLLaMA está preguntando por experiencias relacionadas con el uso de DwarfStar (DS4) con el modelo DeepSeek V4 Flash en un único dispositivo NVIDIA DGX Spark. La consulta destaca especificaciones técnicas que sugieren que el enfoque Mixture of Experts de DS4 y su estrategia de memoria unificada permiten cargar el modelo con 80 mil millones de parámetros activos y la longitud máxima completa del contexto. El autor hace referencia a recursos externos, incluyendo un repositorio de GitHub por antirez y un video de demostración, para respaldar estas afirmaciones sobre las capacidades de rendimiento. La discusión busca comentarios sobre la viabilidad práctica de esta configuración, cuestionando específicamente la calidad de las tareas de programación agéntica realizadas bajo estas restricciones. Esta solicitud refleja el interés continuo en optimizar la inferencia de modelos de lenguaje grandes en configuraciones de hardware de grado consumidor o compacto.

media r/LocalLLaMA · hace 2 h

Tmax-27B Agente Terminal para GPUs Pequeñas con Entrenamiento DPPO

Tmax-27B es un agente terminal basado en Qwen3.6-27B, entrenado con DPPO (RL), logrando 43% en Terminal Bench 2.0 y 69% en TB Lite. Para ejecutarse en GPUs de consumo, se cuantiza utilizando modelos GGUF calibrados por matriz de importancia desde 2 hasta 5 bits por peso, con una cabeza MTP injertada que permite descodificación especulativa. IQ2_XS a 8.5 GiB alcanza una tasa de éxito del 70% en tareas de codificación agéntica, superando la cuantización simple y demostrando generación estable de llamadas a herramientas.

media r/LocalLLaMA · hace 2 h

Gemma4-26B-A4B & 31B-QAT Uncensored Balanced Released with MTP Speed Boosts

HauhauCS ha lanzado dos nuevas versiones sin censura y equilibradas de los modelos Gemma 4: Gemma4-26B-A4B y Gemma4-31B-QAT. Ambas variantes incorporan cabezales de predicción multi-tokeno (MTP) para habilitar la decodificación especulativa, lo que resulta en mejoras significativas en la velocidad de inferencia. El modelo 26B-A4B logra un aumento de velocidad de aproximadamente el 35%, mientras que el modelo 31B experimenta un incremento del 53%, con una calidad de salida idéntica verificada por el mecanismo de redacción del modelo. Estos lanzamientos utilizan cuantización consciente de QAT, haciendo que Q4_K_M sea el formato óptimo ya que una mayor precisión no ofrece ganancias de calidad para estos modelos específicos. El 26B-A4B es una arquitectura de Mezcla de Expertos con aproximadamente 4 mil millones de parámetros activos por token, mientras que la variante 31B es un modelo denso que ofrece mayor capacidad para usuarios con suficiente VRAM. Ambos modelos incluyen soporte de visión a través de archivos mmproj y mantienen una ventana de contexto de 262K. El autor señala que las pruebas de GenRM resultaron en cero rechazos en 465 prompts, confirmando su naturaleza sin censura.

blog Simon Willison · hace 2 h

Simon Willison convierte los datos de compatibilidad del navegador MDN en una base de datos SQLite

Inspirado por el nuevo servicio MCP de MDN de Mozilla, Simon Willison ha convertido el repositorio mdn/browser-compat-data en una base de datos SQLite. El proyecto utiliza un script generado por Claude Code for web (Opus 4.8) para realizar esta conversión usando sqlite-utils. La base de datos resultante tiene aproximadamente 66MB de tamaño y está alojada en GitHub con cabeceras CORS abiertas para facilitar el acceso directo. Para automatizar el proceso, se construyó un flujo de trabajo de GitHub Actions usando Codex Desktop (GPT-5.5) para forzar el push de la base de datos actualizada a una rama huérfana llamada db. Los usuarios pueden descargar el archivo final browser-compat.db directamente desde el repositorio o explorar su contenido a través de Datasette Lite.

media r/LocalLLaMA · hace 2 h

GLM-5.2 en 4x DGX Spark: Reconstrucción de pasos de compilación faltantes para descodificación especulativa MTP

El autor implementó con éxito GLM-5.2 con descodificación especulativa MTP en un clúster de cuatro nodos NVIDIA GB10 (DGX Spark), alcanzando aproximadamente 9.4 tokens por segundo. Esta configuración utiliza vLLM con paralelismo de tensor, kernels Triton sparse-MLA portados y una poda determinista del 15% de expertos para ajustar los pesos AWQ-INT4. Un hallazgo crítico es que las instrucciones originales de construcción de la imagen Docker están incompletas, requiriendo la reconstrucción de parches faltantes para deep_gemm.py y sparse_attn_indexer.py. El autor también identificó que usar cualquier versión de vLLM distinta al commit específico fijado provoca que los pesos AWQ reales fallen durante la carga debido a errores de CUDA. Para replicar el entorno, los usuarios deben aplicar un script personalizado que incorpore kernels y funciones de enrutamiento a fallbacks sm12x. Los beneficios de rendimiento incluyen aproximadamente el doble de velocidad de las implementaciones anteriores de llama.cpp, aunque el ancho de banda entre nodos sigue siendo un cuello de botella para la escalabilidad dual-rail.

media r/LocalLLaMA · hace 2 h

Dock eGPU Oculink MINISFORUM DEG1 reacondicionado disponible por $59

Un dock eGPU Oculink MINISFORUM DEG1 reacondicionado está actualmente disponible por $59. El listado del producto destaca su sólida calidad de construcción, señalando que el dispositivo tiene suficiente peso para sujetar firmemente una tarjeta gráfica. A diferencia de algunas alternativas de menor costo, este dock incluye redrivers para garantizar la integridad de la señal. Un usuario que compró una unidad el año pasado reportó experiencias positivas con su rendimiento y estabilidad. El artículo se puede comprar directamente en la página de productos reacondicionados del fabricante.

media r/LocalLLaMA · hace 2 h

Consulta sobre agrupación de Nvidia DGX Spark y AMD Ryzen AI Max 395 para inferencia con memoria unificada

Un usuario preguntó sobre la viabilidad de agrupar un Nvidia DGX Spark con un AMD Ryzen AI Max 395 para ejecutar un único modelo de lenguaje grande. Ambos dispositivos cuentan con 128GB de memoria unificada, lo que ofrece una capacidad combinada potencial de aproximadamente 256GB menos la sobrecarga del sistema operativo. El DGX Spark está equipado con una interfaz de red de 200Gbit, mientras que el sistema AMD Strix actualmente solo tiene Ethernet de 5Gbit pero incluye una ranura PCIe Gen 4x4. El usuario señaló que DeepSeek v4 Flash puede caber en dos DGX Sparks y se preguntó si el Strix podría servir como un nodo alternativo. Para mejorar la conectividad, propusieron agregar un Mellanox ConnectX-6 QSFP+28 al sistema AMD para lograr un mayor ancho de banda en el enlace.

media r/LocalLLaMA · hace 2 h

Colony: Una simulación educativa de los mecanismos de atención de LLM mediante analogías basadas en agentes

Colony es un recurso educativo diseñado para explicar el mecanismo de atención de los Modelos de Lenguaje Grande a través de analogías simples que involucran agentes. La simulación sitúa a estos agentes dentro de un entorno de tablero inspirado en el Juego de la Vida de Conway. Cada agente en el sistema representa un rol específico dentro del mecanismo del bloque de autoatención de un LLM. Este enfoque visual permite a los usuarios observar cómo fluye y se interactúa la información durante el proceso de atención. El proyecto está disponible como una herramienta de código abierto para aquellos interesados en explorar estos conceptos sin matemáticas complejas. Sirve como una manera divertida y accesible de comprender el funcionamiento interno de los modelos transformadores.

media r/LocalLLaMA · hace 2 h

Un usuario observa que los chatbots en la nube parecen menos inteligentes que los modelos locales

Un usuario de Reddit informa que los chatbots en la nube como ChatGPT y Claude a menudo parecen menos capaces que los modelos de código abierto como Kimi o GLM al discutir conceptos abstractos. El autor señala que estos modelos comerciales frecuentemente saltan a conclusiones, simplifican en exceso las ideas y dependen de patrones de redacción repetitivos. Este descenso percibido en la inteligencia se atribuye a los system prompts diseñados para imponer una personalidad específica para el engagement del usuario. Si bien este comportamiento fue particularmente prominente durante la era de GPT-4o, según se informa persiste en las versiones actuales. El usuario cuestiona si acceder a estos modelos a través de la API raw elimina los system prompts restrictivos o si permanecen incrustados. La publicación busca comentarios de la comunidad sobre si los modelos en la nube funcionan mejor sin estas restricciones.

media r/LocalLLaMA · hace 2 h

Gefen: Una alternativa directa a AdamW con una reducción de memoria de 8x

Gefen se presenta como una alternativa directa al optimizador AdamW, afirmando una reducción octuple en el uso de memoria durante el entrenamiento. El proyecto incluye un repositorio de GitHub disponible en ndvbd/Gefen y un artículo de investigación correspondiente alojado en arXiv bajo el identificador 2606.13894. Esta presentación destaca el potencial de Gefen para optimizar la eficiencia de recursos en flujos de trabajo de aprendizaje automático. El material fuente proporcionado enlaza directamente con la documentación técnica y la base de código para su verificación adicional. No se detallan métricas de rendimiento adicionales ni benchmarks comparativos en el texto disponible.

media r/LocalLLaMA · hace 2 h

SDXL ejecutándose localmente en el navegador con WebGPU, de código abierto

Una extensión del navegador permite la generación local de imágenes utilizando modelos SDXL a través de WebGPU, ejecutándose en la GPU del usuario sin configuraciones externas. La herramienta admite dos modelos: SDXL-Lighting fp16 (7 GB) y una versión de 4 bits (3.6 GB), con requisitos que incluyen al menos 8 GB de VRAM para el modelo completo y un navegador con soporte de WebGPU (Chrome/Edge 122+ o Firefox más reciente).

arxiv arXiv cs.CL · hace 2 h

CANDLE: Deduplicación ligera de ruido en árabe mediante CTC

CANDLE es un sistema ligero que utiliza Clasificación Temporal Conectiva para deduplicar caracteres repetidos en texto árabe, sin depender de reglas manuales ni analizadores morfológicos. Logra una Tasa de Error de Oración del 5.37% y reduce la fertilidad del tokenizador hasta en un 12.8%, disminuyendo los costos de inferencia y mejorando el uso de la ventana de contexto.

media r/LocalLLaMA · hace 3 h

Ingeniería inversa de Windows Copilot para crear una API compatible con OpenAI gratuita

Un usuario ha creado una API local que replica la funcionalidad de GPT-4 compatible con OpenAI utilizando el servicio gratuito de Copilot de Microsoft. La herramienta inicia sesión en una cuenta de Microsoft una vez, se ejecuta localmente en un dispositivo Windows y expone un servidor en http://localhost:8000/v1 que admite streaming y conversaciones multironda sin requerir una clave de API ni facturación. Está diseñada para uso personal y educativo, y está disponible en GitHub en https://github.com/sums001/Windows-Copilot-API.