Todos los artículos — korshunov.ai

Todos los artículos Página 72 / 129

Jason Liu utiliza Codex para la gestión de proyectos de larga duración

Jason Liu demuestra cómo Codex ayuda a preservar el contexto y gestionar proyectos complejos, permitiendo que el trabajo continúe sin interrupciones más allá de un único prompt.

media r/LocalLLaMA · hace 9 d

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.

github llama.cpp · hace 9 d

llama.cpp libera b9761: actualizaciones de descarga de modelos y plataformas

la versión b9761 de llama.cpp traslada la descarga de modelos a un proceso hijo dedicado y añade seguimiento del progreso en tiempo real mediante /models/sse. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler, con soporte para varias arquitecturas y aceleradores de hardware como CUDA, Vulkan, OpenVINO y SYCL.

lab OpenAI News · hace 9 d

OpenAI lanza herramientas de seguridad Daybreak

OpenAI ha presentado Codex Security y GPT-5.5-Cyber como parte de su suite Daybreak. Estas herramientas tienen como objetivo ayudar a las organizaciones a identificar, validar y parchear vulnerabilidades a gran escala.

lab OpenAI News · hace 9 d

OpenAI lanza Patch the Planet para el código abierto

OpenAI ha lanzado Patch the Planet, una iniciativa de Daybreak destinada a ayudar a los mantenedores de proyectos de código abierto a identificar, validar y resolver vulnerabilidades. El programa combina herramientas de IA con revisiones de expertos para mejorar la seguridad del software de código abierto.

media r/LocalLLaMA · hace 9 d

Mejor modelo local para convertir texto en salida JSON estructurada

Los usuarios buscan un modelo local que convierta eficientemente texto no estructurado en JSON válido basado en un esquema definido. Entre los modelos probados, Qwen 3.6 35B a3b muestra un rendimiento sólido, igualando la calidad de modelos más grandes como GPT-120B mientras es más estable en máquinas locales que GPT-20B.

github llama.cpp · hace 9 d

llama.cpp libera b9760: nuevo esquema de entrada y binarios multiplataforma

La versión b9760 de llama.cpp introduce un esquema de archivo de entrada refactorizado que admite videos de entrada en base64 sin procesar. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y aceleradores de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

lab NVIDIA Technical Blog · hace 9 d

CCCL Runtime: Un entorno de ejecución moderno en C++ para CUDA

NVIDIA ha lanzado CCCL Runtime, un entorno de ejecución moderno en C++ que proporciona abstracciones más seguras y convenientes para la programación en CUDA. Introduce características actualizadas de C++ para simplificar y mejorar el desarrollo en CUDA C++.

media r/LocalLLaMA · hace 9 d

Moebius: Marco de inpintación de imágenes ligero de 0.2B

Moebius es un marco de inpintación de imágenes de 0.2B parámetros que logra un rendimiento comparable al de modelos de 10B parámetros. Está diseñado para la edición de imágenes ligera y eficiente con requisitos computacionales mínimos.

media r/LocalLLaMA · hace 9 d

Hackers chinos crean un clon del Tesla V100 v4

Los hackers chinos han realizado ingeniería inversa del pinout del Tesla V100, lo han soldado en una PCB de media altura y lo han lanzado como el Tesla V100 v4. La versión de 16GB tiene un precio de 1499 RMB (220 USD) con una garantía de tres años, mientras que la versión de 32GB cuesta 3999 RMB (590 USD).

media r/LocalLLaMA · hace 9 d

TMax: Una receta sencilla para agentes de terminal

TMax presenta TMax-15k, un conjunto de datos con 14.600 entornos de RL, más de 2,5× mayor que el siguiente conjunto de datos de terminal abierto más grande. También presenta una receta de RL sencilla que entrena modelos abiertos de 2B a 27B parámetros, con TMax-9B logrando un 27,2% en Terminal Bench 2.0 y TMax-27B alcanzando el 42,7%.

media r/LocalLLaMA · hace 9 d

NEX-N2-mini afirma alcanzar la optimalidad de Pareto en eficiencia de razonamiento

El modelo NEX-N2-mini afirma lograr un rendimiento de razonamiento de nivel 3.5 y 3.6 con significativamente menos tokens de razonamiento. Las pruebas muestran que supera a otros modelos MoE en eficiencia, reduciendo los tokens desperdiciados mientras mantiene una alta calidad de razonamiento.

media r/LocalLLaMA · hace 9 d

Gemma4-12B-QAT Uncensored Balanced lanzado con un aumento del 60% de velocidad mediante MTP

El modelo Gemma4-12B-QAT Uncensored Balanced ya está disponible, con una mejora del 60% en velocidad mediante descodificación especulativa de predicción multi-tokeno (MTP). Incluye cuantización Q4_K_M, soporte de visión a través de mmproj y generación estable sin bucles ni deriva del contexto, lo que lo hace ideal para tareas de escritura creativa e inteligencia emocional.

media r/LocalLLaMA · hace 9 d

Mismo modelo, mismo prompt, 4 agentes diferentes producen calidad de código variada

Un modelo Qwen3.6-27B autoalojado con el mismo prompt y hardware generó cuatro simulaciones del sistema solar en HTML/JavaScript. El andamiaje del agente influyó significativamente en la salida: opencode produjo código limpio y estable con física precisa; pi mostró robustez y consistencia de coordenadas; hermes ofreció resultados visualmente atractivos pero físicamente defectuosos; qwen code generó código mínimo y tosco. Los resultados destacan cómo el diseño del agente moldea la calidad, corrección y estabilidad del código a pesar de compartir modelo y prompt.

media Interconnects · hace 9 d

GLM-5.2 es el cambio de paso para agentes abiertos

GLM-5.2, un modelo de IA de pesos abiertos lanzado por Z.ai, ha establecido un nuevo punto de referencia en codificación y rendimiento general de agentes. Supera a modelos como Claude Fable 5 y Gemini, e iguala o supera al Opus 4.8 de OpenAI en modo de pensamiento máximo, consolidándose como el primer modelo abierto que se siente adecuado en harnesses de codificación como agente general.

lab NVIDIA Technical Blog · hace 9 d

Habilita IA en tiempo real para adquisición de datos de alta velocidad con DAQIRI

El éxito de AlphaFold2 en 2020 se basó en 170.000 estructuras de proteínas del Banco de Datos de Proteínas. DAQIRI de Nvidia permite el procesamiento de IA en tiempo real para la adquisición de datos de alta velocidad mediante el análisis de los datos a medida que se generan.

media r/LocalLLaMA · hace 9 d

Prueba de velocidad de GLM-5.2 UD-IQ1_M en llama.cpp con 5090 y 3090 Ti

Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.

media r/LocalLLaMA · hace 9 d

¿Qué chasis estás usando?

Un usuario pide recomendaciones de gabinetes para múltiples GPUs, mencionando específicamente un modelo de torre de doble cámara con 6 GPUs disponible en Alibaba. Busca opiniones sobre esta opción y su idoneidad para configuraciones de GPU de gama alta.

lab NVIDIA Technical Blog · hace 9 d

NVIDIA lanza Halos para robótica: sistema de seguridad funcional de pila completa

NVIDIA ha presentado Halos para robótica, un sistema de seguridad funcional de pila completa diseñado para la IA física. Permite una seguridad impulsada por IA en entornos no estructurados donde los robots operan de forma autónoma junto a humanos en fábricas, almacenes, hospitales y hogares.

media Import AI · hace 9 d

La IA supera a los humanos en persuasión: un nuevo estudio muestra que la IA es superior a los expertos

Un estudio de investigadores de Oxford, Stanford y LSE encuentra que los sistemas de IA superan consistentemente a los humanos expertos en cuatro experimentos que involucran 18.978 conversaciones. La IA superó a los canvisadores profesionales en 10.8 puntos porcentuales en donaciones reales a Save the Children, con Opus 4.1 y Opus 4.6 mostrando el mejor desempeño persuasivo.