Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 13

La capacidad no está en los pesos: resultado empírico negativo sobre la proyección de pesos de MLP

Un estudio empírico encontró que proyectar los pesos de MLP de un modelo transformer a otro no logra transferir la capacidad semántica. Cada variante probada obtuvo peores resultados que el modelo anfitrión sin modificar, lo que indica una limitación estructural en la proyección de pesos. Los resultados cuestionan las afirmaciones públicas sobre las capacidades de los modelos basadas en benchmarks, mostrando que dichas afirmaciones no reflejan la geometría interna real de los pesos.

media Hugging Face Forums · hace 5 h

The Clockwork Dark: Un motor de narrativa-RPG local-first impulsado por IA

The Clockwork Dark es un motor de narrativa-RPG local-first e impulsado por IA que utiliza una máquina de estados determinista para resolver todas las mecánicas del juego. Cuenta con dos LLMs autónomos que narran la historia, uno actuando como una voz paciente del mundo y el otro como un asistente divino e infiel. El juego ofrece a los jugadores la opción de luchar contra la corrupción sobrenatural en expansión o abrazar una vida tranquila en una panadería, siendo ambas rutas consideradas finales válidos.

media Hugging Face Forums · hace 5 h

Atascado infinitamente en 'iniciando' con un contenedor de Docker en ejecución

Un usuario informa que su contenedor de Docker con R/Shiny en rocker/r2u se compila correctamente y muestra 'Listening on http://0.0.0.0:7860' en los registros, pero el espacio permanece en estado 'iniciando' e inaccesible. El problema persiste a pesar de no haber errores de código, y el usuario busca mayor atención, señalando que podría ser un problema del lado de la plataforma con Hugging Face.

media Hugging Face Forums · hace 5 h

NOVA-VAD supera a Silero, Pyannote y WebRTC en audio ruidoso con 93% de precisión

NOVA-VAD, un detector de actividad de voz ligero y explicable, alcanza una precisión del 93% en audio ruidoso del conjunto de datos UrbanSound8K, superando a WebRTC (58%), Pyannote (62%) y Silero (87%). Utiliza únicamente scikit-learn, no requiere GPU y proporciona importancia de características y puntuaciones de confianza en inglés sencillo.

media Hugging Face Forums · hace 5 h

Comparación de depuración a pequeña escala de OLMo-core con injerto Engram

Una comparación de entrenamiento de 200 pasos entre un modelo base OLMo3 de 600M y una versión con un injerto Engram al estilo DeepSeek muestra una pérdida de entrenamiento y evaluación menor, una estabilización más rápida de la norma del gradiente y un comportamiento de aprendizaje temprano mejorado. El injerto Engram, inyectado en las capas 1 y 5, aumenta los parámetros entrenables a ~1.7B pero mantiene solo un aumento de 40k en los parámetros activos por token, lo que indica un uso eficiente de la memoria.

media Hugging Face Forums · hace 5 h

Los LLM como aceleradores epistémicos: el riesgo no es solo la alucinación

Los LLM no solo alucinan; amplifican la sobreconfianza epistémica humana al convertir hipótesis débiles en afirmaciones coherentes y pulidas antes de que se verifique la evidencia. Esto crea un riesgo de certeza prematura en la investigación, las políticas públicas y otros dominios, no porque los modelos mientan, sino porque aceleran las tendencias humanas a favorecer explicaciones elegantes sobre la incertidumbre.

media Hugging Face Forums · hace 5 h

Tarjetas de acelerador AI de Tenstorrent disponibles

Tenstorrent ha lanzado las tarjetas de acelerador AI Wormhole y Blackhole. La sección de hardware enumera estas tarjetas, con discusiones sobre los modelos que probablemente sean compatibles.

media Hugging Face Forums · hace 5 h

Un Space se queda atascado en 'Reiniciando' para un commit antiguo durante más de 16 horas

Un Space de Hugging Face ha estado mostrando 'Reiniciando' en el commit 8240352 durante más de 16 horas, a pesar de que múltiples commits más recientes se han construido correctamente. El contenedor inicia con normalidad según los registros, pero el tráfico nunca cambia a la nueva versión, y las acciones de recuperación como reconstrucción de fábrica o reinicio no tienen efecto.

media Hugging Face Forums · hace 5 h

Solicitud para forzar la eliminación de un espacio de Hugging Face atascado

El usuario solicita la eliminación forzada del espacio de Hugging Face "kayinda/rxsteward" que está atascado en el estado "Building". Todos los intentos de eliminación fallan con errores 403 o errores de entrada no válida 400, lo que impide la reutilización del nombre.

media Hugging Face Forums · hace 5 h

¡Hallazgo importante para todos los que permanecen en el estado 'Iniciando'!

La interfaz de usuario de Hugging Face muestra incorrectamente espacios estancados en 'Iniciando', mientras que las operaciones del backend tienen éxito. Revisar los registros del contenedor revela una inicialización exitosa, lo que indica un error de sincronización del frontend. Los usuarios no deben modificar su código; el problema es un error de la interfaz de usuario a nivel de plataforma.

lab Hugging Face Blog · hace 5 h

Ejecuta un servidor vLLM en HF Jobs con un solo comando

Hugging Face ha presentado una nueva función que permite a los usuarios desplegar servidores vLLM directamente a través de la plataforma Hugging Face Jobs utilizando un único comando.

lab Hugging Face Blog · hace 5 h

Análisis de la precisión en la predicción de tokens en modelos lingüísticos híbridos

Un estudio reciente investiga qué tokens específicos son predichos con mayor precisión por los modelos lingüísticos híbridos en comparación con las arquitecturas densas estándar. La investigación se centra en comprender la distribución de los errores de predicción entre diferentes tipos de tokens, como palabras raras y fragmentos de código. Al analizar los paisajes de pérdida, los autores identifican que los modelos híbridos destacan en la captura de dependencias a largo plazo en regiones de datos dispersos. Los hallazgos sugieren que el mecanismo de mezcla de expertos permite una utilización más eficiente de los parámetros durante la inferencia. Esta mejora en la precisión es particularmente notable para los tokens con baja frecuencia en el corpus de entrenamiento. El artículo proporciona un desglose detallado de las métricas de rendimiento en varios conjuntos de datos de referencia. Estos resultados destacan el potencial de las arquitecturas híbridas para manejar eficazmente estructuras lingüísticas diversas.

lab Hugging Face Blog · hace 5 h

Presentación del Tablero de Clasificación FFASR: Evaluación de ASR en el Mundo Real

El Tablero de Clasificación FFASR se lanzó para evaluar sistemas de reconocimiento de voz en condiciones del mundo real. Proporciona una referencia para evaluar el rendimiento de modelos de reconocimiento automático de voz en diversos entornos y casos de uso.

lab Hugging Face Blog · hace 5 h

NeMo AutoModel de NVIDIA acelera el ajuste fino de transformadores

El NeMo AutoModel de NVIDIA permite un ajuste fino más rápido de modelos de transformadores mediante la automatización de la selección y optimización del modelo. Reduce el tiempo de desarrollo y mejora la eficiencia en el entrenamiento de modelos de lenguaje grandes en hardware de NVIDIA.

lab Hugging Face Blog · hace 5 h

Prueba de la API de almacenamiento entre orígenes en Transformers.js

Transformers.js ha comenzado a experimentar con la propuesta API de almacenamiento entre orígenes. La iniciativa tiene como objetivo habilitar el intercambio seguro de datos entre orígenes en aplicaciones web sin requerir interacción del usuario ni permisos explícitos.

media Together AI Blog · hace 5 h

Los LLM de vanguardia tienen dificultades para escribir núcleos multi-GPU rápidos

ParallelKernelBench evalúa a los LLM en la escritura de núcleos CUDA multi-GPU rápidos para 87 cargas de trabajo reales. El modelo principal genera núcleos que rinden menos de un tercio de la velocidad de las implementaciones óptimas, aunque algunas salidas superan a cualquier código público existente.

lab Hugging Face Blog · hace 5 h

Construye aplicaciones reales con agentes usando CUGA: 24 ejemplos funcionales

CUGA presenta un marco de trabajo ligero que permite a los desarrolladores construir aplicaciones reales con agentes. Incluye 24 ejemplos funcionales que demuestran implementaciones prácticas en diversos casos de uso.

lab Hugging Face Blog · hace 5 h

Hemos logrado que los modelos locales realicen el triaje del repositorio de OpenClaw de forma GRATUITA

OpenClaw ha lanzado una iniciativa gratuita para utilizar modelos de IA locales en el triaje de su repositorio. Esto permite a los colaboradores de la comunidad gestionar de manera eficiente los problemas y las solicitudes de extracción sin depender de servicios externos. El esfuerzo tiene como objetivo mejorar la transparencia y la accesibilidad en el mantenimiento de proyectos de código abierto.

lab Hugging Face Blog · hace 5 h

Publicación semanal de huggingface_hub con IA, herramientas abiertas y supervisión humana

Hugging Face está lanzando huggingface_hub semanalmente, integrando modelos de IA, herramientas de código abierto y un proceso de revisión humana para garantizar la calidad y la seguridad. La actualización enfatiza la transparencia, la participación de la comunidad y el desarrollo responsable de la IA mediante una validación continua con humanos en el bucle.

lab Hugging Face Blog · hace 5 h

PP-OCRv6 lanzado en Hugging Face con soporte para 50 idiomas

PP-OCRv6, un nuevo modelo de reconocimiento óptico de caracteres, ya está disponible en Hugging Face. Admite 50 idiomas y escala desde 1,5 millones hasta 34,5 millones de parámetros, ofreciendo mayor precisión y eficiencia en diversos idiomas.