Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 118

Despliegues locales de Mellum2

JetBrains ha liberado como código abierto los modelos Mellum2, una serie de LLMs de 12B-2.5A entrenados desde cero para apuntar a una inferencia rápida en hardware H100/H200, así como a despliegues locales.

arxiv arXiv cs.AI · hace 7 h

CineCap: Razonamiento estructurado con anclajes espaciotemporales para la descripción de videos cinematográficos

Los investigadores proponen CineCap, un marco que combina razonamiento estructurado con anclajes espaciotemporales y aprendizaje por refuerzo para mejorar la descripción de videos cinematográficos. El método fundamenta descripciones del lenguaje cinematográfico profesional en evidencia visual explícita, equilibrando la exhaustividad descriptiva y la corrección factual.

media AI News (smol.ai) · hace 7 h

Anthropic lanza Claude Tag, una herramienta de delegación asíncrona nativa para Slack

Anthropic ha lanzado Claude Tag, una nueva función de flujo de trabajo que permite a los equipos delegar tareas en Claude de forma asíncrona dentro de Slack. Posicionado como un cambio desde el chat individual hacia la colaboración en todo el equipo, la herramienta permite que Claude se una como miembro del equipo con acceso a canales seleccionados, herramientas y repositorios de código.

lab NVIDIA Technical Blog · hace 7 h

Maximice la eficiencia energética de su fábrica de IA mediante optimizaciones de inferencia y entrenamiento de extremo a extremo

El consumo de energía representa el 40% de los gastos operativos para ejecutar una fábrica de IA, y el rendimiento por vatio se está convirtiendo en una métrica crítica de eficiencia que impacta directamente en los costos por token.

media r/LocalLLaMA · hace 7 h

Construyendo una capa de acceso web para agentes de IA locales

Un desarrollador comparte su experiencia al crear una capa de acceso web centralizada para gestionar las interacciones entre modelos de IA locales y servicios externos. Este enfoque aborda la carga de mantenimiento de construir integraciones individuales para cada nuevo proyecto de agente.

media r/LocalLLaMA · hace 7 h

La NASA prueba la inferencia de LLM local para futuras misiones espaciales

Investigadores de Red Hat y la NASA están desarrollando el Asistente Digital del Oficial Médico de la Tripulación (CMO-DA), un sistema de IA médica que ejecuta modelos de lenguaje grandes en hardware local con cero dependencia de la nube. Esta iniciativa aborda la inviabilidad de la telemedicina basada en la Tierra para astronautas en misiones a la Luna o Marte debido al retraso de luz y las interrupciones de comunicación.

media r/LocalLLaMA · hace 7 h

Configurar una H200 NVL en hardware (semi) de consumo

Un usuario configuró con éxito una GPU NVIDIA H200 NVL en una estación de trabajo construida con la placa base ASUS WRX90E-SAGE SE y un procesador Threadripper de 64 núcleos, demostrando que los aceleradores de IA de gama alta pueden ejecutarse en hardware no orientado a servidores.

media r/LocalLLaMA · hace 7 h

GLM 5.2 solo con CPU: Epyc y 512GB de RAM

Un usuario probó la versión de 4 bits de GLM-5.2 (GLM-5.2-UD-Q4_K_XL) en un servidor equipado con un procesador Epyc Rome 7452 y 512GB de RAM. El modelo fue evaluado utilizando un prompt de codificación complejo que requería la creación de un juego de arena 3D autocontenido en HTML, CSS y JavaScript.

media Hugging Face Forums · hace 7 h

Todos empezamos en algún lugar

Un desarrollador con más de 25 años de experiencia en tecnologías web está transitando hacia la ingeniería de IA para ir más allá del uso de herramientas y comprender cómo construir con ellas.

media Hugging Face Forums · hace 7 h

Usuario no puede reiniciar un espacio privado de Hugging Face debido a un error 503

Un usuario informa que su espacio privado de Hugging Face, específicamente 'Ark-kun/tangent', dejó de funcionar abruptamente y no se puede reiniciar. Los intentos de reiniciar o realizar una reconstrucción de fábrica fallan con un error "503. Algo salió mal al reiniciar este espacio".

lab NVIDIA Technical Blog · hace 8 h

Aumenta el rendimiento de inferencia hasta 15x en NVIDIA Blackwell usando descodificación especulativa DFlash

NVIDIA introduce la descodificación especulativa DFlash para impulsar significativamente el rendimiento de inferencia en su arquitectura Blackwell, abordando los desafíos de latencia inherentes a los LLMs autoregresivos.

lab NVIDIA Technical Blog · hace 8 h

Construye un científico de IA para el descubrimiento en ciencias de la vida con el kit de herramientas BioNeMo Agent de NVIDIA

NVIDIA presenta el kit de herramientas BioNeMo Agent para facilitar la creación de científicos de IA capaces de leer artículos, escribir código y generar hipótesis para el descubrimiento en ciencias de la vida.

lab NVIDIA Technical Blog · hace 8 h

Cómo las telecomunicaciones construyen redes autónomas con IA agente

Los operadores de telecomunicaciones están adoptando la IA en las operaciones de red, la atención al cliente y los flujos de trabajo de back-office, pero la mayoría aún se encuentra en etapas tempranas de su camino hacia la autonomía completa. Los esfuerzos actuales de automatización generalmente operan en el Nivel 2–3 de la taxonomía de TM Forum, centrándose en optimizar soluciones predefinidas dentro de dominios selectivos.

media Latent Space · hace 8 h

Los ingresos de Neocloud de SpaceX alcanzan los 28 mil millones de dólares anuales en medio de actualizaciones de OpenAI y Sakana

SpaceX ha asegurado su tercer acuerdo de alquiler de GPU con Reflection AI, elevando sus ingresos anualizados a aproximadamente 28 mil millones de dólares, basado en una tasa calculada de más de 10 dólares por hora para las GPUs Blackwell. Esta valoración es aproximadamente el doble que la de Coreweave, destacando el rápido crecimiento y el alto poder de fijación de precios en el mercado de infraestructura de IA.

media r/LocalLLaMA · hace 8 h

Kimi y GLM en código de vanguardia

Esta publicación de Reddit del usuario Charuru comparte una imagen titulada "Kimi y GLM en código de vanguardia." El contenido sirve como referencia visual o punto de partida para discutir el rendimiento de los modelos Kimi y GLM en tareas de programación.

media Hugging Face Forums · hace 8 h

Ainara: Asistente de IA local-first con memoria persistente y cambio de LLM

Ainara es una aplicación de escritorio local-first para el desarrollador de Dublín que funciona como un compañero de IA con memoria persistente entre sesiones. Permite a los usuarios cambiar entre modelos en la nube como Grok, Claude y Gemini, o modelos locales de Ollama, manteniendo el contexto sin problemas.

media Hugging Face Forums · hace 8 h

¿Experiencia práctica con sustitutos de ML para simulaciones CFD y FEA?

Un profesional de simulación ingenieril busca experiencias de despliegue en el mundo real de sustitutos de machine learning para reducir el costo de costosas ejecuciones de solucionadores de Dinámica de Fluidos Computacional (CFD) y Análisis de Elementos Finitos (FEA).

lab Meta AI / FAIR Blog · hace 8 h

Brain2Qwerty v2 alcanza 61% de precisión en palabras en la descodificación no invasiva de cerebro a texto

Los investigadores han lanzado Brain2Qwerty v2, una pipeline de IA no invasiva que descodifica oraciones en tiempo real a partir de registros de magnetoencefalografía (MEG) sin implantes quirúrgicos. El sistema alcanza una tasa de precisión de palabras del 61% en general y hasta el 78% para los mejores participantes, superando significativamente a métodos no invasivos anteriores.

media AI News (smol.ai) · hace 9 h

OpenAI expande Daybreak, Sakana lanza Fugu y GLM-5.2 gana tracción

Las noticias de IA de esta semana destacan la expansión de las iniciativas de ciberseguridad de OpenAI, el lanzamiento por parte de Sakana AI de un modelo de orquestación llamado Fugu y la creciente adopción del modelo de pesos abiertos GLM-5.2.

arxiv arXiv cs.LG · hace 9 h

Aprovechar las similitudes en los bandits de brazos múltiples

Este estudio investiga el aprendizaje en línea con conjuntos de acciones estructurados por similitud codificados mediante árboles enraizados, demostrando que la retroalimentación estándar de un solo punto no puede explotar estas similitudes. Los autores proponen algoritmos unificados para modelos de retroalimentación más ricos que reemplazan el número de acciones por un conteo efectivo consciente de la similitud para mejorar los límites de arrepentimiento.