Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 119

Un usuario de Reddit sugiere que OpenAI lance GPT-OSS-2 para contrarrestar la IPO de Anthropic

Un usuario de Reddit propone que OpenAI lance un potente modelo de código abierto, denominado GPT-OSS-2, sincronizado con la próxima IPO de Anthropic.

media r/LocalLLaMA · hace 3 h

Qwen3-tts.cpp y GUI de escritorio con Compose Desktop para TTS local

Un desarrollador ha publicado una implementación optimizada en C++ de Qwen3-TTS, alcanzando aproximadamente 5x la velocidad en tiempo real en una RTX 5080, junto con una GUI de escritorio multiplataforma construida con Kotlin Compose Multiplatform. El proyecto ofrece inferencia basada en GGML que soporta ejecución tanto en CPU como en CUDA en Windows y Linux.

arxiv arXiv cs.AI · hace 4 h

El impuesto del lenguaje africano: cuantificar el costo, la latencia y la penalización por contexto de tokenizar lenguas africanas en LLMs de vanguardia

Un estudio cuantifica la penalización estructural de tokenización que enfrentan las lenguas africanas en modelos de lenguaje grandes comerciales, revelando que los hablantes pagan costos más altos y experimentan mayor latencia debido a una asignación ineficiente de subpalabras. Entre 20 lenguas africanas y 11 tokenizadores de vanguardia, cada lengua evaluada incurre en un sobreprecio respecto al inglés, con costos medianos que alcanzan 1.88 veces los del inglés y hasta 8.92 veces para el guion N'Ko.

arxiv arXiv cs.AI · hace 4 h

CompressKV: Compresión de caché KV guiada por recuperación semántica para inferencia eficiente en recursos de LLM de contexto largo

Los autores proponen CompressKV, un marco que comprime las cachés de clave-valor en modelos de lenguaje grandes basados en GQA identificando cabezales de recuperación semántica para retener tokens críticos. Este enfoque aborda la degradación del rendimiento causada por los métodos de desalojo heurísticos existentes que ignoran las funcionalidades distintas de los cabezales de atención.

blog Simon Willison · hace 4 h

Contar el número de pestañas de Safari

Este artículo comparte un método conciso para contar las pestañas abiertas del navegador en Safari usando AppleScript. El comando proporcionado se ejecuta a través de la terminal para obtener el recuento total en todas las ventanas.

media r/LocalLLaMA · hace 4 h

PR de DeepSeek V4 fusionado en llama.cpp

Se ha fusionado una solicitud de extracción que admite a DeepSeek V4 en el repositorio de llama.cpp, permitiendo a los usuarios ejecutar el modelo localmente.

media r/LocalLLaMA · hace 4 h

Componentes propuestos para un kit integral de copia de seguridad de IA local sin conexión

Un usuario de Reddit describe una lista exhaustiva de software y modelos para almacenar sin conexión a internet con el fin de mantener el acceso a las capacidades de IA local en caso de restricciones o prohibiciones generalizadas de internet. El kit propuesto se centra en preservar herramientas esenciales, sistemas operativos y pesos de modelos para garantizar la funcionalidad sin dependencias externas.

media Hugging Face Forums · hace 4 h

Proyecto UCTF: Un programa de investigación abierto sobre representaciones de entrenamiento de IA nativas para máquinas

El Proyecto UCTF ha sido reestructurado desde una única propuesta en un programa de investigación abierto y basado en hipótesis para investigar si las representaciones intermedias nativas para máquinas pueden reducir la redundancia semántica intercultural en el entrenamiento de IA multilingüe.

media Hugging Face Forums · hace 4 h

Error al generar el certificado del curso de RL profundo

Un usuario informa que se encontró con un error al intentar generar un certificado de finalización para el curso de RL profundo en Hugging Face. El problema persiste a pesar de ingresar los detalles requeridos de nombre de usuario y nombre, sin que exista orientación disponible en línea.

lab Hugging Face Blog · hace 4 h

DiScoFormer: Un transformer para densidad y puntuación, a través de distribuciones

El artículo presenta DiScoFormer, un modelo transformer unificado capaz de realizar tanto estimación de densidad como tareas de generación basadas en puntuación a través de varias distribuciones de datos.

lab Google — The Keyword (AI) · hace 4 h

Pregunta a un experto en IA: ¿Qué es exactamente el stack completo?

Un experto de Google explica el concepto de adoptar un enfoque de stack completo para la inteligencia artificial. El artículo destaca que esta metodología integral ha servido como base para el trabajo de IA de Google durante un período prolongado.

arxiv arXiv cs.AI · hace 5 h

El Puente Latente: Un Canal Lento-Rápido Continuo para Agentes de Juego en Tiempo Real

Este artículo presenta un Puente Latente continuo que acopla modelos de visión y lenguaje con razonamiento congelados y reactivos para habilitar agentes de juego en tiempo real con latencia de milisegundos y planificación a largo plazo. Al proyectar los residuos del modelo lento en el espacio de incrustación de entrada del modelo rápido, evita las rondas de texto mientras iguala o supera a los Puentes de Texto tradicionales en rendimiento.

arxiv arXiv cs.AI · hace 5 h

G$^3$VLA: Sesgo inductivo geométrico para Modelos Visión-Lenguaje-Acción

Los autores proponen G$^3$VLA, un módulo geométrico consciente de la cámara que inyecta estructura calibrada en el flujo de tokens visuales de modelos preentrenados de Visión-Lenguaje-Acción sin alterar su espacio de acción u objetivo de imitación. Este enfoque combina incrustaciones de rayos condicionadas intrínsecamente, codificación posicional proyectiva y fusión cruzada bidireccional entre vistas para abordar la discrepancia entre las coordenadas de imagen 2D y la geometría de la cámara del robot.

arxiv arXiv cs.AI · hace 5 h

video-SALMONN-R3: Comprensión eficiente de vídeo mediante aprendizaje por refuerzo

El artículo presenta video-SALMONN-R$^3$, un modelo de lenguaje grande para vídeo de extremo a extremo que permite el re-visualización eficiente de segmentos de vídeo mediante aprendizaje por refuerzo, sin depender de datos de cadena de pensamiento. Este enfoque aborda las limitaciones computacionales y de memoria que típicamente obligan a los modelos a utilizar tasas de fotogramas reducidas y resoluciones espaciales.

arxiv arXiv cs.AI · hace 5 h

Marco de aprendizaje automático adaptativo para la optimización de trayectorias de UAV en O-RAN

Este artículo presenta un marco novedoso para optimizar las trayectorias de vehículos aéreos no tripulados (UAV) en sistemas celulares 6G, integrando aprendizaje continuo mejorado dentro de la arquitectura O-RAN. El sistema utiliza una biblioteca de modelos preentrenados y un mecanismo de selección para minimizar el tiempo de adaptación al operar en entornos dinámicos.

arxiv arXiv cs.AI · hace 5 h

RetiSEM: Generalización de Modelos Causales para Datos Biomédicos Fragmentados

Los autores proponen RetiSEM, un marco de modelado de ecuaciones estructurales con restricciones de dominio diseñado para recuperar grafos causales y realizar análisis de mediación utilizando datos biomédicos fragmentados con recursos multimodales limitados. El método organiza las variables en bloques informados biológicamente y aplica restricciones de aristas prohibidas para descomponer los efectos a nivel de vía.

arxiv arXiv cs.AI · hace 5 h

Red-Teaming del Red-Team Agéntico

Este trabajo presenta el primer análisis de seguridad en profundidad de sistemas agénticos ampliamente utilizados para operaciones de seguridad ofensiva, revelando defectos de diseño comunes que permiten a los adversarios exfiltrar claves de API y comprometer las máquinas del operador incluso dentro de sandboxes.

arxiv arXiv cs.AI · hace 5 h

CrossPool: Servicio eficiente de múltiples LLM para modelos MoE en frío mediante la disgregación de KV-Cache y pesos

CrossPool es un motor de servicio diseñado para modelos Mixture-of-Experts (MoE) en frío que disgrega los pesos FFN y el KV-cache en pools separados de memoria GPU para abordar las ineficiencias de memoria en escenarios de solicitudes dispersas. Al consolidar los pesos estáticos y aprovisionar dinámicamente la demanda activa de KV-cache, el sistema tiene como objetivo mejorar la utilización de la memoria GPU y admitir solicitudes de contexto largo con ráfagas.

media r/LocalLLaMA · hace 5 h

El modelo abliterado de HuiHui supera al vanilla 3.6-35B-a3b en matemáticas y código

Una receta de cuantización personalizada aplicada al modelo abliterado de HuiHui demuestra un rendimiento superior en comparación con la variante vanilla 3.6-35B-a3b en tareas de matemáticas y programación. Los resultados sugieren que eliminar los mecanismos de rechazo permite al modelo lograr mayor precisión y sabiduría en estos dominios.

media r/LocalLLaMA · hace 5 h

Amodei: "Los modelos de código abierto se comerán a tus hijos"

Esta publicación de Reddit comparte una imagen que contiene la cita "Los modelos de código abierto se comerán a tus hijos" atribuida a Amodei. El contenido consiste en un enlace a la imagen y un enlace al hilo de comentarios asociado en r/LocalLLaMA.