Despliegues locales de Mellum2
JetBrains ha liberado como código abierto los modelos Mellum2, una serie de LLMs de 12B-2.5A entrenados desde cero para apuntar a una inferencia rápida en hardware H100/H200, así como a despliegues locales.
JetBrains ha liberado como código abierto los modelos Mellum2, una serie de LLMs de 12B-2.5A entrenados desde cero para apuntar a una inferencia rápida en hardware H100/H200, así como a despliegues locales.
Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.
Anthropic ha lanzado Claude Tag, una nueva función de flujo de trabajo que permite a los equipos delegar tareas en Claude de forma asíncrona dentro de Slack. Posicionado como un cambio desde el chat individual hacia la colaboración en todo el equipo, la herramienta permite que Claude se una como miembro del equipo con acceso a canales seleccionados, herramientas y repositorios de código.
El consumo de energía representa el 40% de los gastos operativos para ejecutar una fábrica de IA, y el rendimiento por vatio se está convirtiendo en una métrica crítica de eficiencia que impacta directamente en los costos por token.
Un desarrollador comparte su experiencia al crear una capa de acceso web centralizada para gestionar las interacciones entre modelos de IA locales y servicios externos. Este enfoque aborda la carga de mantenimiento de construir integraciones individuales para cada nuevo proyecto de agente.
Investigadores de Red Hat y la NASA están desarrollando el Asistente Digital del Oficial Médico de la Tripulación (CMO-DA), un sistema de IA médica que ejecuta modelos de lenguaje grandes en hardware local con cero dependencia de la nube. Esta iniciativa aborda la inviabilidad de la telemedicina basada en la Tierra para astronautas en misiones a la Luna o Marte debido al retraso de luz y las interrupciones de comunicación.
Un usuario configuró con éxito una GPU NVIDIA H200 NVL en una estación de trabajo construida con la placa base ASUS WRX90E-SAGE SE y un procesador Threadripper de 64 núcleos, demostrando que los aceleradores de IA de gama alta pueden ejecutarse en hardware no orientado a servidores.
Un usuario probó la versión de 4 bits de GLM-5.2 (GLM-5.2-UD-Q4_K_XL) en un servidor equipado con un procesador Epyc Rome 7452 y 512GB de RAM. El modelo fue evaluado utilizando un prompt de codificación complejo que requería la creación de un juego de arena 3D autocontenido en HTML, CSS y JavaScript.
Un desarrollador con más de 25 años de experiencia en tecnologías web está transitando hacia la ingeniería de IA para ir más allá del uso de herramientas y comprender cómo construir con ellas.
Un usuario informa que su espacio privado de Hugging Face, específicamente 'Ark-kun/tangent', dejó de funcionar abruptamente y no se puede reiniciar. Los intentos de reiniciar o realizar una reconstrucción de fábrica fallan con un error "503. Algo salió mal al reiniciar este espacio".
NVIDIA introduce la descodificación especulativa DFlash para impulsar significativamente el rendimiento de inferencia en su arquitectura Blackwell, abordando los desafíos de latencia inherentes a los LLMs autoregresivos.
NVIDIA presenta el kit de herramientas BioNeMo Agent para facilitar la creación de científicos de IA capaces de leer artículos, escribir código y generar hipótesis para el descubrimiento en ciencias de la vida.
Los operadores de telecomunicaciones están adoptando la IA en las operaciones de red, la atención al cliente y los flujos de trabajo de back-office, pero la mayoría aún se encuentra en etapas tempranas de su camino hacia la autonomía completa. Los esfuerzos actuales de automatización generalmente operan en el Nivel 2–3 de la taxonomía de TM Forum, centrándose en optimizar soluciones predefinidas dentro de dominios selectivos.
SpaceX ha asegurado su tercer acuerdo de alquiler de GPU con Reflection AI, elevando sus ingresos anualizados a aproximadamente 28 mil millones de dólares, basado en una tasa calculada de más de 10 dólares por hora para las GPUs Blackwell. Esta valoración es aproximadamente el doble que la de Coreweave, destacando el rápido crecimiento y el alto poder de fijación de precios en el mercado de infraestructura de IA.
Esta publicación de Reddit del usuario Charuru comparte una imagen titulada "Kimi y GLM en código de vanguardia." El contenido sirve como referencia visual o punto de partida para discutir el rendimiento de los modelos Kimi y GLM en tareas de programación.
Ainara es una aplicación de escritorio local-first para el desarrollador de Dublín que funciona como un compañero de IA con memoria persistente entre sesiones. Permite a los usuarios cambiar entre modelos en la nube como Grok, Claude y Gemini, o modelos locales de Ollama, manteniendo el contexto sin problemas.
Un profesional de simulación ingenieril busca experiencias de despliegue en el mundo real de sustitutos de machine learning para reducir el costo de costosas ejecuciones de solucionadores de Dinámica de Fluidos Computacional (CFD) y Análisis de Elementos Finitos (FEA).
Los investigadores han lanzado Brain2Qwerty v2, una pipeline de IA no invasiva que descodifica oraciones en tiempo real a partir de registros de magnetoencefalografía (MEG) sin implantes quirúrgicos. El sistema alcanza una tasa de precisión de palabras del 61% en general y hasta el 78% para los mejores participantes, superando significativamente a métodos no invasivos anteriores.
Las noticias de IA de esta semana destacan la expansión de las iniciativas de ciberseguridad de OpenAI, el lanzamiento por parte de Sakana AI de un modelo de orquestación llamado Fugu y la creciente adopción del modelo de pesos abiertos GLM-5.2.
Este estudio investiga el aprendizaje en línea con conjuntos de acciones estructurados por similitud codificados mediante árboles enraizados, demostrando que la retroalimentación estándar de un solo punto no puede explotar estas similitudes. Los autores proponen algoritmos unificados para modelos de retroalimentación más ricos que reemplazan el número de acciones por un conteo efectivo consciente de la similitud para mejorar los límites de arrepentimiento.