Jason Liu utiliza Codex para la gestión de proyectos de larga duración
Jason Liu demuestra cómo Codex ayuda a preservar el contexto y gestionar proyectos complejos, permitiendo que el trabajo continúe sin interrupciones más allá de un único prompt.
Jason Liu demuestra cómo Codex ayuda a preservar el contexto y gestionar proyectos complejos, permitiendo que el trabajo continúe sin interrupciones más allá de un único prompt.
El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.
la versión b9761 de llama.cpp traslada la descarga de modelos a un proceso hijo dedicado y añade seguimiento del progreso en tiempo real mediante /models/sse. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler, con soporte para varias arquitecturas y aceleradores de hardware como CUDA, Vulkan, OpenVINO y SYCL.
OpenAI ha presentado Codex Security y GPT-5.5-Cyber como parte de su suite Daybreak. Estas herramientas tienen como objetivo ayudar a las organizaciones a identificar, validar y parchear vulnerabilidades a gran escala.
OpenAI ha lanzado Patch the Planet, una iniciativa de Daybreak destinada a ayudar a los mantenedores de proyectos de código abierto a identificar, validar y resolver vulnerabilidades. El programa combina herramientas de IA con revisiones de expertos para mejorar la seguridad del software de código abierto.
Los usuarios buscan un modelo local que convierta eficientemente texto no estructurado en JSON válido basado en un esquema definido. Entre los modelos probados, Qwen 3.6 35B a3b muestra un rendimiento sólido, igualando la calidad de modelos más grandes como GPT-120B mientras es más estable en máquinas locales que GPT-20B.
La versión b9760 de llama.cpp introduce un esquema de archivo de entrada refactorizado que admite videos de entrada en base64 sin procesar. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y aceleradores de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.
NVIDIA ha lanzado CCCL Runtime, un entorno de ejecución moderno en C++ que proporciona abstracciones más seguras y convenientes para la programación en CUDA. Introduce características actualizadas de C++ para simplificar y mejorar el desarrollo en CUDA C++.
Moebius es un marco de inpintación de imágenes de 0.2B parámetros que logra un rendimiento comparable al de modelos de 10B parámetros. Está diseñado para la edición de imágenes ligera y eficiente con requisitos computacionales mínimos.
Los hackers chinos han realizado ingeniería inversa del pinout del Tesla V100, lo han soldado en una PCB de media altura y lo han lanzado como el Tesla V100 v4. La versión de 16GB tiene un precio de 1499 RMB (220 USD) con una garantía de tres años, mientras que la versión de 32GB cuesta 3999 RMB (590 USD).
TMax presenta TMax-15k, un conjunto de datos con 14.600 entornos de RL, más de 2,5× mayor que el siguiente conjunto de datos de terminal abierto más grande. También presenta una receta de RL sencilla que entrena modelos abiertos de 2B a 27B parámetros, con TMax-9B logrando un 27,2% en Terminal Bench 2.0 y TMax-27B alcanzando el 42,7%.
El modelo NEX-N2-mini afirma lograr un rendimiento de razonamiento de nivel 3.5 y 3.6 con significativamente menos tokens de razonamiento. Las pruebas muestran que supera a otros modelos MoE en eficiencia, reduciendo los tokens desperdiciados mientras mantiene una alta calidad de razonamiento.
El modelo Gemma4-12B-QAT Uncensored Balanced ya está disponible, con una mejora del 60% en velocidad mediante descodificación especulativa de predicción multi-tokeno (MTP). Incluye cuantización Q4_K_M, soporte de visión a través de mmproj y generación estable sin bucles ni deriva del contexto, lo que lo hace ideal para tareas de escritura creativa e inteligencia emocional.
Un modelo Qwen3.6-27B autoalojado con el mismo prompt y hardware generó cuatro simulaciones del sistema solar en HTML/JavaScript. El andamiaje del agente influyó significativamente en la salida: opencode produjo código limpio y estable con física precisa; pi mostró robustez y consistencia de coordenadas; hermes ofreció resultados visualmente atractivos pero físicamente defectuosos; qwen code generó código mínimo y tosco. Los resultados destacan cómo el diseño del agente moldea la calidad, corrección y estabilidad del código a pesar de compartir modelo y prompt.
GLM-5.2, un modelo de IA de pesos abiertos lanzado por Z.ai, ha establecido un nuevo punto de referencia en codificación y rendimiento general de agentes. Supera a modelos como Claude Fable 5 y Gemini, e iguala o supera al Opus 4.8 de OpenAI en modo de pensamiento máximo, consolidándose como el primer modelo abierto que se siente adecuado en harnesses de codificación como agente general.
El éxito de AlphaFold2 en 2020 se basó en 170.000 estructuras de proteínas del Banco de Datos de Proteínas. DAQIRI de Nvidia permite el procesamiento de IA en tiempo real para la adquisición de datos de alta velocidad mediante el análisis de los datos a medida que se generan.
Una prueba de velocidad de GLM-5.2 cuantizado a UD-IQ1_M usando llama.cpp muestra 579 t/s de prefill con contexto de 8k y 324 t/s con contexto de 57k. La velocidad de decodificación se mantiene estable en 10.6 t/s para más de 580 tokens, cayendo a 9.37 t/s con contexto de 60k.
Un usuario pide recomendaciones de gabinetes para múltiples GPUs, mencionando específicamente un modelo de torre de doble cámara con 6 GPUs disponible en Alibaba. Busca opiniones sobre esta opción y su idoneidad para configuraciones de GPU de gama alta.
NVIDIA ha presentado Halos para robótica, un sistema de seguridad funcional de pila completa diseñado para la IA física. Permite una seguridad impulsada por IA en entornos no estructurados donde los robots operan de forma autónoma junto a humanos en fábricas, almacenes, hospitales y hogares.
Un estudio de investigadores de Oxford, Stanford y LSE encuentra que los sistemas de IA superan consistentemente a los humanos expertos en cuatro experimentos que involucran 18.978 conversaciones. La IA superó a los canvisadores profesionales en 10.8 puntos porcentuales en donaciones reales a Save the Children, con Opus 4.1 y Opus 4.6 mostrando el mejor desempeño persuasivo.