Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Resultados actualizados del benchmark de modelos de visión y recomendaciones

Un benchmark revisado de modelos de lenguaje visual locales evalúa 23 modelos en 30 imágenes con 3 pruebas cada una, totalizando 2.070 pruebas y entre 60 y 70 horas de inferencia. El modelo con mejor rendimiento es Qwen3.6 27B (nothink) en Q4 con una puntuación de 79.6, seguido por Qwen3.5 4B (nothink) en Q4, y Qwen3-VL 8B en Q8. Los hallazgos clave incluyen que el modo de pensamiento degrada el rendimiento visual, los modelos MoE tienen un rendimiento inferior en comparación con los modelos densos, y la cuantización Q8 no mejora universalmente los resultados.

media r/LocalLLaMA · hace 10 d

Qwen 3.6 27B Apostate lanzado con seguridad eliminada

El modelo Qwen 3.6 27B ha sido modificado usando Apostate para eliminar la alineación de seguridad, reduciendo su tasa de rechazo del 92% al 7.6%. Este cambio tiene un impacto mínimo en las capacidades del modelo, con una divergencia KL de 0.120.

media r/LocalLLaMA · hace 10 d

Hice un fork de ik_llama.cpp y añadí el modo espejo --numa

Un nuevo fork de ik_llama.cpp añade un modo espejo --numa que duplica los pesos del modelo y la caché KV entre los sockets de CPU, permitiendo una utilización completa de los sistemas multi-socket. Esto reduce las penalizaciones por acceso a memoria remota y mejora el throughput de inferencia hasta 1.6x en los modelos probados, aunque requiere el doble de RAM.

github llama.cpp · hace 10 d

llama.cpp lanza la versión b9748 con nuevos binarios y características

llama.cpp lanza la versión b9748, añadiendo un campo "verbose" a su esquema y proporcionando binarios para macOS, Linux, Android, Windows y openEuler. La versión incluye soporte para CPU, Vulkan, OpenVINO, SYCL y ROCm en múltiples arquitecturas, con compilaciones de CUDA y Vulkan disponibles para iOS y Windows.

media r/LocalLLaMA · hace 10 d

Preentrené y postentrené un LLM de 500M parámetros y un generador de imágenes de 330M parámetros desde cero

El autor preentrenó un modelo de lenguaje de 500M parámetros y un generador de imágenes de 330M parámetros desde cero utilizando 40B tokens de fineweb. El generador de imágenes se inspiró en la arquitectura DreamLite de ByteDance y se entrenó con una mezcla de conjuntos de datos de MidJourney, Flux y CCW3.

media r/LocalLLaMA · hace 10 d

¿Cuál es tu alternativa local a Haiku?

Un usuario busca una alternativa local confiable y rápida a Haiku para resumir contenido técnico como documentación de código y descripciones arquitectónicas. Pide sugerencias sobre herramientas o modelos adecuados en este ámbito.

media Hugging Face Forums · hace 10 d

Solicitud para forzar la eliminación de un espacio de Hugging Face atascado

El usuario solicita la eliminación forzada del espacio de Hugging Face "kayinda/rxsteward" que está atascado en el estado "Building". Todos los intentos de eliminación fallan con errores 403 o errores de entrada no válida 400, lo que impide la reutilización del nombre.

media AI News (smol.ai) · hace 10 d

GLM-5.2 Destaca con un Avance y el Progreso de los Modelos Abiertos

El GLM-5.2 de Zhipu se consolidó como el modelo de peso abierto líder, elogiado por su rendimiento cercano a la vanguardia en el uso diario, con mejoras en tareas de codificación y reducción del costo de inferencia de 1M de tokens mediante IndexShare. Superó a otros modelos abiertos en benchmarks de trabajo de conocimiento agéntico, alcanzando 1266 Elo en la prueba AA-Briefcase de Artificial Analysis, aunque solo el 3% de las tareas fueron completamente satisfechas por los mejores modelos, lo que indica desafíos persistentes en el rendimiento de agentes a largo plazo en el mundo real.

lab NVIDIA Technical Blog · hace 10 d

Construye tu propio modelo de base de transacciones para inteligencia financiera

Los datos de transiciones capturan patrones ricos del comportamiento humano y son un activo clave para las empresas. Los casos de uso actuales a menudo dependen de características frágiles e ingenierizadas manualmente que no logran capturar el comportamiento secuencial del cliente en los historiales de transacciones.

lab Hugging Face Blog · hace 10 d

¿Puedes superar a LoRA en el ajuste fino?

Un nuevo estudio explora alternativas a LoRA, la técnica de ajuste fino más popular, evaluando si otros métodos pueden lograr un mejor rendimiento con menor costo computacional. La investigación encuentra que, aunque algunos enfoques muestran potencial, ninguno supera consistentemente a LoRA en diversas tareas y conjuntos de datos.

lab Google DeepMind Blog · hace 10 d

Hoja de ruta de control de IA para la seguridad de sistemas internos

Se ha presentado una Hoja de ruta de control de IA para asegurar los sistemas internos mediante la integración de salvaguardas tradicionales con capacidades de monitoreo en tiempo real.

lab OpenAI News · hace 10 d

GPT-5.5 Instant mejora las respuestas de salud de ChatGPT

GPT-5.5 Instant mejora las respuestas de salud y bienestar de ChatGPT mediante un razonamiento más sólido, una mejor gestión del contexto, una comunicación más clara y evaluaciones informadas por médicos.

media Hugging Face Forums · hace 10 d

¡Hallazgo importante para todos los que permanecen en el estado 'Iniciando'!

La interfaz de usuario de Hugging Face muestra incorrectamente espacios estancados en 'Iniciando', mientras que las operaciones del backend tienen éxito. Revisar los registros del contenedor revela una inicialización exitosa, lo que indica un error de sincronización del frontend. Los usuarios no deben modificar su código; el problema es un error de la interfaz de usuario a nivel de plataforma.

lab Google — The Keyword (AI) · hace 10 d

Nueva investigación muestra que AMIE iguala a los médicos en la gestión de enfermedades

Un estudio publicado en Nature revela que AMIE, un sistema de IA conversacional, tiene un rendimiento comparable al de los médicos de atención primaria en la gestión de condiciones de salud complejas.

media AI News (smol.ai) · hace 10 d

GLM-5.2 surge como modelo de código líder de pesos abiertos

GLM-5.2 es ampliamente considerado el primer modelo de código de pesos abiertos que rivaliza con modelos de vanguardia como Opus 4.8 y GPT-5.5 en capacidad. Los profesionales destacan su fuerte uso de herramientas, planificación a largo plazo y comportamiento autónomo de subagentes, con consenso de que ahora opera de manera creíble en el rango de SWE de vanguardia. La aparición del modelo subraya el creciente valor de los pesos abiertos para la competencia entre proveedores, despliegue on-prem y reducción del bloqueo de proveedor.

lab Hugging Face Blog · hace 10 d

MosaicLeaks: ¿Puede tu agente de investigación guardar un secreto?

MosaicLeaks ha publicado un informe que cuestiona si los agentes de investigación pueden mantener la confidencialidad de manera fiable. El informe destaca preocupaciones sobre la exposición de datos y la confianza en las herramientas de investigación impulsadas por IA. Pide medidas de privacidad más sólidas y transparencia en cómo estos agentes manejan información sensible.

lab NVIDIA Technical Blog · hace 10 d

NVIDIA lanza XR AI para gafas de realidad aumentada y dispositivos portátiles

NVIDIA presenta XR AI para cerrar la brecha de infraestructura para desarrolladores que crean experiencias de IA en gafas de RA y dispositivos de RA. La solución permite la integración de flujos de sensores en vivo, modelos de IA multimodales y datos empresariales dentro de entornos de ejecución específicos del dispositivo, agilizando el desarrollo de agentes de IA para dispositivos portátiles.

lab Google DeepMind Blog · hace 10 d

El gobierno del Reino Unido y Google DeepMind lanzan un prototipo de planificación de viviendas impulsado por IA

El gobierno del Reino Unido se ha asociado con Google DeepMind para desarrollar un prototipo impulsado por inteligencia artificial diseñado para acelerar las decisiones sobre la planificación de viviendas. La iniciativa tiene como objetivo agilizar el proceso de construcción de casas aprovechando la inteligencia artificial para mejorar la eficiencia en la toma de decisiones.

lab OpenAI News · hace 10 d

OpenAI lanza controles de gasto y análisis de uso para ChatGPT Enterprise

OpenAI ha introducido nuevos controles de gasto y análisis de uso para ChatGPT Enterprise. Estas características ayudan a las empresas a gestionar los costos y tomar decisiones informadas a medida que escalan el uso de IA.

media Latent Space · hace 10 d

Exclusivo: 250 dólares de descuento en entradas para ingenieros de IA hasta el lunes

Los suscriptores de LS pueden acceder a un descuento de 250 dólares en las entradas del evento AI Engineer. La oferta fue anunciada previamente en AINews y está disponible para quienes se han suscrito para recibir actualizaciones de AINews.