Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 25

GameCraft-Bench: Evaluando la generación de juegos de extremo a extremo

GameCraft-Bench introduce un benchmark con 140 tareas de Godot en 15 familias de juegos para evaluar la capacidad de los agentes de codificación para generar juegos jugables. Las evaluaciones muestran que el mejor agente logra solo un 41.46% de éxito, lo que indica desafíos significativos en la producción de juegos completos e interactivos con jugabilidad coherente y retroalimentación visual.

arxiv arXiv cs.CL · hace 2 h

La edición dinámica de rollout reduce el sobreanálisis en modelos de razonamiento entrenados con RL

La edición dinámica de rollout (DRE) aborda el sobreanálisis en modelos de razonamiento entrenados con RL modificando trayectorias exitosas tras la aparición de la respuesta. DRE preserva el prefijo de razonamiento correcto mientras edita la continuación innecesaria, debilitando el crédito asignado al pensamiento redundante sin penalizar el razonamiento válido. Los experimentos en diversas tareas demuestran su efectividad para reducir el sobreanálisis.

arxiv arXiv cs.CL · hace 2 h

ChLogic: Evaluación de la robustez del razonamiento lógico en expresiones chinas

ChLogic evalúa qué tan bien los modelos de lenguaje grandes mantienen el razonamiento lógico cuando las estructuras lógicas en inglés se expresan en chino. Revela una brecha persistente de rendimiento entre inglés y chino, con la traducción inversa mejorando los resultados en elementos generales pero perjudicando el rendimiento en problemas difíciles. El benchmark destaca el impacto de la realización superficial, artefactos de traducción y comportamientos específicos del modelo en el razonamiento multilingüe.

arxiv arXiv cs.CL · hace 2 h

Descodificación de Elastic Net no negativo para recuperación de información

La descodificación NNN selecciona documentos como un conjunto conjunto que reconstruye conjuntamente la incrustación de la consulta mediante una combinación lineal dispersa y no negativa. Extiende estrictamente la recuperación densa al manejar consultas en las que falla la recuperación densa, especialmente en corpus con documentos correlacionados, y logra un rendimiento superior mediante el entrenamiento de extremo a extremo de las incrustaciones.

media Hugging Face Forums · hace 3 h

Misión: Construir un sistema RAG para lengua hablada en peligro de extinción

Una oferta de empleo busca un ingeniero experimentado en NLP o LLM para desarrollar el primer motor de localización basado en Generación Aumentada por Recuperación (RAG) para una lengua de bajos recursos hablada en Sudamérica. El proyecto utiliza un corpus propietario de contenido pedagógico y datos de diccionario desarrollado durante cuatro años.

media Hugging Face Forums · hace 3 h

Discusión sobre el ajuste fino de modelos de lenguaje pequeños rentables en 2026

Una reciente discusión en los foros de Hugging Face explora los métodos más eficientes para personalizar modelos de IA pequeños para tareas específicas. El hilo, titulado "¿Cuál es la forma más rentable de ajustar finamente un modelo de lenguaje pequeño en 2026?", busca consejos sobre cómo minimizar los gastos mientras se mantiene el rendimiento. Fue iniciado por un único participante que busca optimizar su flujo de trabajo para aplicaciones especializadas. La consulta destaca el creciente interés en aprovechar modelos más pequeños para reducir la carga computacional. Se anima a los participantes a compartir estrategias que equilibren el costo y la eficiencia en el panorama actual. Este tema refleja los esfuerzos continuos para hacer que la adaptación de modelos sea más accesible y asequible.

lab Claude Code Releases · hace 3 h

Notas de la versión 2.1.195 de Claude Code

La versión 2.1.195 de Claude Code introduce varias correcciones y mejoras, incluyendo nuevas variables de entorno para el control del mouse en modo de pantalla completa y correcciones a la lógica del emparejador de hooks.

arxiv arXiv cs.CL · hace 3 h

Intervención post-entrenamiento de modelos base de habla

Un nuevo método utiliza aprendizaje contrastivo intervencionista para refinar modelos base de habla transformando sus representaciones entrelazadas en subespacios separados de contenido y hablante. El enfoque mejora el rendimiento de verificación del hablante fuera del dominio y demuestra una clara separación de la información del hablante y del contenido en los subespacios aprendidos.

arxiv arXiv cs.CL · hace 3 h

Ajuste fino de LLMs para la estimación pasiva de la gravedad de la depresión

Un modelo ajustado finamente en Qwen3.5-27B predice las puntuaciones PHQ-9 a partir de transcripciones de diálogos con IA, logrando MAE=2.6 y AUC=0.91 en el umbral PHQ-9 >= 10. Mantiene AUC > 0.87 en todos los niveles de gravedad PHQ-9, demostrando una estimación precisa de la gravedad de la depresión en conversaciones del mundo real sin autoinforme.

arxiv arXiv cs.CL · hace 3 h

VoidPadding: Desacoplar la terminación [EOS] y el relleno en MDLMs

VoidPadding introduce [VOID] como un token de relleno para separar la terminación semántica y el modelado de la longitud de la respuesta. Mejora el rendimiento en razonamiento matemático y generación de código en 17.84 puntos sobre el modelo original y reduce el NFE de decodificación en un 55.7% en promedio.

media r/LocalLLaMA · hace 3 h

El uso de 'espera' en los modelos de razonamiento me hace que el ojo se me ponga a temblar

Un usuario de Reddit expresa su frustración por el uso repetido de 'espera' en los modelos de razonamiento, describiéndolo como molesto a pesar de comprender su propósito.

media r/LocalLLaMA · hace 3 h

Alguien hizo hace un tiempo una comparativa cuantitativa para Qwen3.6

Una publicación de Reddit presenta una comparación del rendimiento de cuantización para Qwen3.6, con un usuario que señala que realizó cálculos matemáticos aproximados sobre los resultados. La publicación incluye un gráfico visual y enlaces a la imagen original y a los comentarios.

media r/LocalLLaMA · hace 3 h

VibeThinker-3B: ¿Qué es esta brujería?

VibeThinker-3B es un modelo pequeño de 3 mil millones de parámetros que se desempeña excepcionalmente bien en la prueba MathQA, obteniendo resultados comparables a los de modelos con alrededor de 30 mil millones de parámetros. El sólido rendimiento del modelo ha generado debate sobre su eficiencia y capacidades en el razonamiento matemático.

blog Simon Willison · hace 3 h

Lanzamiento alfa datasette-tailscale 0.1a0

datasette-tailscale 0.1a0 es un plugin experimental en fase alpha que permite ejecutar Datasette con un sidecar de Tailscale, conectándose a una Tailnet a través de localhost. Utiliza los bindings de Python para la biblioteca tailscale-rs y habilita el acceso a http://datasette-preview/.

media r/LocalLLaMA · hace 3 h

Comparación cuantitativa del rendimiento del modelo Qwen3.6

Una publicación de Reddit presenta una comparación cuantitativa del rendimiento de las versiones en precisión reducida (cuantizadas) de Qwen3.6. El autor señala que un cálculo aproximado sugiere que Qwen3.6 mantiene un rendimiento sólido incluso a profundidades de bits más bajas, aunque se describe que las matemáticas son deficientes y no están validadas rigurosamente.

media r/LocalLLaMA · hace 3 h

No sabía que era posible compilar llamacpp para ejecutar CUDA + Vulkan al mismo tiempo

Un usuario compiló llamacpp con soporte tanto para CUDA como para Vulkan para aprovechar dos GPUs, la w7800 y otra tarjeta. La configuración logró un aumento del +10% en tokens/segundo durante la decodificación para el modelo MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, con planes de ejecutar benchmarks para evaluar las ganancias reales de rendimiento.

media r/LocalLLaMA · hace 3 h

Le Gros Chaton funcionando en la radio de mi Corolla '84

Un usuario compartió una publicación en Reddit que muestra al modelo de IA Le Gros Chaton operando en una radio de Toyota Corolla de 1984. La publicación destaca la capacidad del modelo para ejecutarse en hardware de gama baja, demostrando su eficiencia y accesibilidad.

media r/LocalLLaMA · hace 3 h

Benchmark inicial de Minimax M3 (4-bit MLX) en Mac Studio M3 con 512GB

Se realizó un benchmark de Minimax M3 (4-bit MLX) en un Mac Studio M3 con 512GB de almacenamiento. Los resultados muestran métricas de rendimiento de tokens y latencia para diferentes tamaños de prompt, con un rendimiento máximo de 269.1 tok/s para prompts de 8192 tokens y 172.8 tok/s para un prompt de 65k tokens, utilizando 228GB de memoria en su punto máximo.

media r/LocalLLaMA · hace 3 h

GLM-5.2 ahora es el primero en Design Arena

GLM-5.2 ha sido clasificado como el primero en Design Arena, superando a Claude Fable 5, que estaba disponible anteriormente. El modelo Claude Fable 5 ya no está disponible, lo que contribuye a la posición superior de GLM-5.2.

media r/LocalLLaMA · hace 3 h

¿Es Le Gros Chaton de código abierto?

Una publicación en Reddit pregunta si Le Gros Chaton, un próximo modelo de Mistral, será de código abierto. El modelo se describe como teniendo 1B de contexto, capacidades de auto-mejora y generación de código en francés, aunque se apaga cada tres horas y se niega a responder antes del desayuno. La publicación también cuestiona humorísticamente si 'le chaton fat' sigue siendo una terminología aceptable.