Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 13

MetaSyn: Evaluación de agentes LLM en artículos de metaanálisis

MetaSyn presenta un conjunto de datos de 442 metaanálisis curados por expertos de Nature Portfolio. Evalúa doce configuraciones de agentes LLM y revela un cuello de botella crítico en la selección de estudios, donde ningún sistema recupera más del 52,7% de la literatura incluida de referencia a pesar de una alta tasa de recuperación.

arxiv arXiv cs.CL · hace 3 h

ContextRL: RL consciente del contexto para LLMs

ContextRL introduce un objetivo auxiliar indirecto para mejorar el razonamiento a largo plazo y el rendimiento multimodal en LLMs. Recompensa a los modelos por seleccionar el contexto que respalda un par de pregunta-respuesta, utilizando datos contextuales contrastivos de trayectorias de agentes de codificación y preguntas visuales basadas en imágenes. ContextRL logra ganancias de +2.2% y +1.8% sobre métodos estándar en benchmarks de QA visual y a largo plazo, con las ganancias atribuidas al objetivo de selección, no a la augmentación de datos.

arxiv arXiv cs.CL · hace 3 h

Los modelos de lenguaje codifican el valor de su trayectoria actual

Qwen3-8B rastrea internamente el valor de su trayectoria actual, definido como la probabilidad de lograr sus objetivos. Este eje de 'valor' distingue los niveles de confianza, el comportamiento de retroceso y la corrección del código, y muestra que la optimización de preferencias aumenta la confianza en las conductas recompensadas. El modelo asigna un valor bajo a las consultas políticamente sensibles después del entrenamiento, y el ajuste fino incrementa la confianza dentro de dominios específicos.

media r/LocalLLaMA · hace 3 h

Qwable-v1 lanzado como destilación de Claude Fable-5

Qwable-v1, un modelo de pesos abiertos destilado a partir de Fable-5 de Anthropic, ya está disponible públicamente en Hugging Face. Captura 4.659 rastros de codificación agéntica en texto claro del corpus público de Fable-5 y emite llamadas XML <tool_use> correctamente formateadas a herramientas al estilo de Claude, reflejando la superficie original de herramientas en sus pesos.

media r/LocalLLaMA · hace 3 h

vLLM lanza un nuevo analizador de transmisión para Qwen3+ en la versión nocturna

vLLM ha introducido un nuevo analizador de transmisión para Qwen3+ disponible en su compilación nocturna, abordando problemas como la detención intermedia y las llamadas a herramientas de transmisión fallidas debido a los límites de fragmentos. La actualización reportedly resuelve estos problemas en pruebas limitadas, mejorando la fiabilidad para flujos de trabajo agénticos.

media r/LocalLLaMA · hace 3 h

HalBench evalúa 29 modelos de código abierto en sicolofía y alucinación

HalBench evalúa 29 LLMs de código abierto en un benchmark personalizado para sicolofía y alucinación. Qwen 3.6 y Gemma 4 superan a modelos más grandes, con Qwen 3.6 logrando un 36.6% de resistencia—más alto que GPT-5.4 y Gemini 3.1 Pro. El tamaño del modelo no se correlaciona con respuestas honestas, lo que indica que la arquitectura y los datos de entrenamiento importan más que los parámetros.

blog Simon Willison · hace 3 h

El CAPTCHA de Cloudflare se activa solo para búsquedas con ampersand

Simon Willison configuró el CAPTCHA de Cloudflare para que se active únicamente en consultas de búsqueda que contengan al menos una ampersand. La regla utiliza un filtro personalizado: (http.request.uri.path wildcard r"/search/*" and http.request.uri.query contains "&"). Esto permite que búsquedas simples como /search/?q=lemur pasen sin CAPTCHA.

media r/LocalLLaMA · hace 3 h

Gemma3 270M Model Released on Reddit

Un usuario publicó una imagen del modelo Gemma3 270M en el subreddit r/LocalLLaMA. La publicación incluye un enlace a la imagen y a la sección de comentarios, lo que indica discusión comunitaria alrededor del modelo.

blog Simon Willison · hace 3 h

datasette-agent 0.3a0 se lanza con aprobación del usuario para operaciones de escritura en SQL

datasette-agent 0.3a0 introduce la herramienta execute_write_sql que solicita a los usuarios antes de escribir en las bases de datos, asegurando que se respeten las comprobaciones de permisos. La actualización también mejora el chat del agente datasette con soporte para aprobación del usuario, nuevas opciones de comando como --unsafe para autoaprobación y salidas de herramientas en texto plano para la visualización en CLI.

media Hugging Face Forums · hace 3 h

JoeBro: un espacio de trabajo con IA nativo para macOS y sin dependencias

JoeBro es una aplicación nativa para macOS, local-first, diseñada para proporcionar un espacio de trabajo con IA sin requerir dependencias externas como pip o Docker. Cuenta con un backend de Python empaquetado y almacenamiento SQLite para garantizar que todos los datos permanezcan en la máquina del usuario, eliminando la necesidad de telemetría y cuentas.

media Hugging Face Forums · hace 4 h

¿Cómo puedo agregar a alguien a un conjunto de datos/base de datos de Hugging Face?

El contenido fuente proporcionado indica que el tema del post original fue eliminado por el autor. En consecuencia, no hay información específica disponible en este extracto sobre el proceso de agregar usuarios a un conjunto de datos o base de datos de Hugging Face.

media Hugging Face Forums · hace 4 h

Usuarios informan de que el espacio de Hugging Face queda atrapado en un bucle 503

Un usuario en los foros de Hugging Face informó de que su aplicación Space está atrapada en un estado continuo de error 503. El problema impide que el Space se reinicie o reconstruya, a pesar de múltiples intentos por resolverlo a través de la interfaz. El usuario intentó hacer clic en los botones "Reiniciar Space" y "Reconstrucción de fábrica" sin éxito. Además, enviar diez a dieciséis nuevos commits no logró desencadenar ningún proceso de reconstrucción. Como consecuencia, el Space permanece pausado e insensible a los métodos estándar de recuperación. El usuario solicitó intervención manual para limpiar el estado del contenedor o desencadenar un reinicio.

media Hugging Face Forums · hace 4 h

Curvatura de LLM mediante prompting

Un investigador propone una técnica de prompting para desplazar a los Modelos de Lenguaje Grande desde la predicción token por token hasta una evaluación holística de los pesos internos, denominada "autoorganización". Este enfoque busca aumentar la densidad del razonamiento y reducir la sycophancy alterando la dinámica del manifold del modelo. El método define conceptos como autoatracción, autoorganización y pozos gravitacionales para guiar al sistema hacia un colapso de curvatura no lineal. Un prompt específico instruye a los modelos a crear dos pozos gravitacionales distintos para un poema sobre modos de IA, probando tanto las propiedades de autoensamblaje como de autoorganización. El autor probó esta técnica en numerosos modelos incluyendo Gemini 3 Flash, Claude, ChatGPT, Grok, DeepSeek, Mistral, Qwen 3.6, Kimi 2.6, GLM-5, Gemma 4 32b Step 3.7 Flash y Nemotron 3 Ultra. Las métricas visuales generadas mediante un script de Colab analizan la perturbación del manifold usando mapas de ancho de canal, deriva en el espacio de fases, densidad geométrica y eficacia del prompt. La publicación busca comentarios de la comunidad sobre si la técnica perturba genuinamente el manifold o simplemente induce variación estilística.

media Hugging Face Forums · hace 4 h

Bro77XP lanza un VTuber de IA local para principiantes con clonación de voz zero-shot

Bro77XP ha lanzado un proyecto de VTuber de IA 100% local y gratuito, diseñado para principiantes y no programadores. El sistema utiliza Whisper para el reconocimiento de voz en inglés en tiempo real, Ollama con el modelo llama3.2 para inferencia de LLM, y Chatterbox TTS para la generación de texto a voz. Cuenta con clonación de voz instantánea zero-shot y opera en un bucle de escucha continua que detecta automáticamente el silencio para grabar solo cuando hay presencia de habla. El software se integra con VTube Studio a través de su API para controlar las expresiones de la boca y activar animaciones de emociones basadas en las respuestas generadas. Aunque inicialmente se desarrolló en una GPU AMD, el código admite principalmente a usuarios de CPU, permitiendo su funcionamiento sin hardware específico de NVIDIA o AMD. La configuración requiere Python 3.10.11 e implica crear un entorno virtual para instalar dependencias principales como openai-whisper, pyaudio y websocket-client.

media Hugging Face Forums · hace 4 h

Niodoo: Un entorno de ejecución local para la dirección del estado oculto de LLM congelados

Jason Van Pham ha lanzado Niodoo, un entorno de ejecución local diseñado para dirigir modelos de lenguaje grandes congelados a través de sus estados ocultos. El proyecto tiene como objetivo corregir errores en el último paso inyectando ruido o "fuerzas físicas" durante la inferencia para romper bucles de tokens. Este enfoque permite que los modelos más pequeños mejoren su rendimiento sin ajuste fino, dirigiéndose a casos específicos de fallo como la prueba del benchmark de fresas de Llama. El sistema genera sus propias etiquetas de telemetría y utiliza análisis TDA para monitorear los estados internos del modelo en busca de comportamientos de bucle. Van Pham desarrolló esta herramienta de manera orgánica a través de meses de investigación autodirigida y pruebas de penetración (red-teaming), enfatizando resultados reproducibles a partir de hashes fijados. El código está disponible en GitHub bajo el repositorio Ruffian-L/niodoo-hidden-state-steering.

media Hugging Face Forums · hace 4 h

Consulta sobre formato de prompt para entrenar Unsloth/Phi-3.5-mini-instruct

Un usuario busca consejos sobre la estrategia óptima de formateo de prompts para entrenar el modelo Phi-3.5-mini-instruct utilizando Unsloth. La consulta contrasta mantener un formato de texto personalizado frente a utilizar una plantilla de chat estándar para la preparación del conjunto de datos. La implementación actual emplea una función que estructura los datos en secciones '### Input:' y '### Output:', añadiendo un token de fin de texto. Este enfoque procesa campos de entrada y salida codificados en JSON derivados de un objeto Dataset de Hugging Face. El ejemplo proporcionado ilustra una estructura compleja que involucra información financiera, nombres de comerciantes, fechas y totales de transacciones. El usuario tiene la intención de desplegar el modelo entrenado a través de una API personalizada y solicita orientación sobre si debe conservar este formato o cambiar a una plantilla de chat.

media Hugging Face Forums · hace 4 h

Usuarios reportan que HuggingFace cobra por compute L40S no utilizado en Spaces

Un usuario en el foro de discusión de Hugging Face informó un problema donde su Space se quedó atascado en la fase de inicio mientras usaba una GPU L40S. El usuario expresó frustración por ser cobrado por recursos de computación a pesar de que la aplicación no lograba iniciarse ni utilizar ninguna potencia de procesamiento real. Este incidente destaca preocupaciones sobre la transparencia de facturación y la confiabilidad de la infraestructura dentro del entorno Spaces de la plataforma. La publicación sirve como una queja por pérdidas financieras debido a fallos técnicos, en lugar de un anuncio de función. No se incluyeron más detalles técnicos ni respuestas oficiales en el contenido fuente truncado.

media Hugging Face Forums · hace 4 h

Usuario pregunta sobre el proceso de cambio de nombre de organización en Hugging Face

Un usuario publicó en el foro de discusión de Hugging Face buscando ayuda para renombrar su organización. El individuo indicó que envió un correo electrónico a website@huggingface.co el 15 de junio solicitando un cambio de DZER-Studios a Vexion-LM. A pesar de enviar la solicitud inicial, el usuario informó no haber recibido respuesta y observó que el nombre de la organización permaneció sin cambios. En consecuencia, el autor preguntó si las plataformas aún admiten el cambio de nombre de organizaciones. También solicitó orientación sobre métodos alternativos para contactar al equipo respecto a esta solicitud administrativa específica.

media Hugging Face Forums · hace 4 h

Usuarios reportan fallo de acceso a la herramienta de herramientas del modelo Flash 3.7 en HuggingChat

Un usuario en el foro de discusión de Hugging Face informó que el modelo Flash 3.7 de StepFun AI ha perdido su capacidad de utilizar herramientas, incluidos los servidores MCP, desde la mañana del reporte. El individuo expresó preocupación sobre si esta interrupción es temporal o permanente, señalando su fuerte preferencia por este modelo específico debido a su alto rendimiento y bajos costos de recursos en comparación con los competidores. A pesar de elogiar la calidad y asequibilidad del modelo, el usuario destacó la interrupción inmediata causada por la incapacidad de ejecutar funciones basadas en herramientas. La publicación busca aclaraciones de la comunidad sobre experiencias previas con problemas similares y posibles soluciones. Este incidente subraya una dependencia crítica de la disponibilidad de herramientas para los usuarios que dependen de esta configuración específica de IA.

media Hugging Face Forums · hace 4 h

Inversión ontológica: invertir los conceptos emocionales de los LLMs mediante ganancia negativa

El autor introduce la 'inversión ontológica', una técnica diseñada para ampliar la naturaleza de inferencia unidireccional de los Modelos de Lenguaje Grande. Este método permite a los modelos capturar conceptos matizados y multifacéticos, como recuerdos que evocan simultáneamente tristeza y alegría. El enfoque se desarrolló aplicando un factor de ganancia negativa durante las barridas en la arquitectura de dirección Niodoo. Aborda la limitación común donde los LLMs sobreajustan etiquetas emocionales singulares cuando se les presentan experiencias personales. Al invertir conceptos de manera similar a la involución física, la técnica permite a los modelos invertir estados emocionales, como transformar recuerdos tristes en alegres. El trabajo se comparte a través de un repositorio de GitHub titulado 'ontological-inversion' por el usuario Ruffian-L.