Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 25

Un marco para evaluar habilidades agénticas a escala

Presentamos un marco para evaluar habilidades agénticas mediante la construcción de tareas realistas y la evaluación de la utilidad de las habilidades a través de la ejecución de tareas. Aplicado a 500 habilidades del mundo real, genera 1,000 tareas y rúbricas de puntuación, evaluando 19 configuraciones de modelos agénticos en modelos propietarios y de código abierto. Los resultados muestran una variación significativa en el cumplimiento de instrucciones y las mejoras de rendimiento, con las habilidades que alteran sustancialmente el comportamiento del modelo en comparación con configuraciones sin habilidades.

arxiv arXiv cs.CL · hace 2 h

El ajuste fino bilingüe mejora el reconocimiento automático del habla en idiomas con pocos recursos mediante la identificación del idioma

Un estudio descubre que el ajuste fino bilingüe mejora el reconocimiento automático del habla en idiomas con pocos recursos cuando la identificación del idioma es precisa. Incluir un token de identificación del idioma durante la inferencia mejora el rendimiento del ASR cuando la precisión de la identificación es baja, especialmente en pares de idiomas diversos entre diferentes familias y sistemas de escritura.

arxiv arXiv cs.CL · hace 2 h

Benchmark MultiClin para ASR multiscripto en entornos clínicos

MultiClin presenta un benchmark de ASR clínico que evalúa la robustez de los modelos frente a la variabilidad multiscripto. Muestra que la evaluación consciente del multiscripto supera a los métodos convencionales de referencia única, y la unificación de scripts produce el mejor rendimiento de ASR, mientras que las mapeos de script inconsistentes aumentan la incertidumbre ortográfica.

arxiv arXiv cs.CL · hace 2 h

Los modelos de habla auto-supervisados carecen de compensación del contexto tonal

El modelo wav2vec2.0 no muestra evidencia de compensación perceptual para los tones del mandarín en las similitudes de incrustaciones. Los clasificadores de sondeo revelan una compensación limitada y no logran igualar el rendimiento humano en sílabas aisladas, lo que sugiere que se necesita entrenamiento supervisado para la abstracción de regularidades fonológicas.

arxiv arXiv cs.CL · hace 2 h

Optimización automatizada de prompts para agentes de juegos con LLM

Un nuevo marco automatiza el refinamiento de prompts para agentes LLM dividiendo el pipeline de observación a acción en módulos condicionados por objetivos y de selección de acciones. Utiliza un bucle evolutivo impulsado por LLM para mejorar iterativamente los prompts basándose en la retroalimentación del entorno, logrando hasta un 72.5% de éxito en PutNext donde agentes anteriores fallaron, sin ajuste fino del modelo.

arxiv arXiv cs.CL · hace 2 h

GameCraft-Bench: Evaluando la generación de juegos de extremo a extremo

GameCraft-Bench introduce un benchmark con 140 tareas de Godot en 15 familias de juegos para evaluar la capacidad de los agentes de codificación para generar juegos jugables. Las evaluaciones muestran que el mejor agente logra solo un 41.46% de éxito, lo que indica desafíos significativos en la producción de juegos completos e interactivos con jugabilidad coherente y retroalimentación visual.

arxiv arXiv cs.CL · hace 2 h

La edición dinámica de rollout reduce el sobreanálisis en modelos de razonamiento entrenados con RL

La edición dinámica de rollout (DRE) aborda el sobreanálisis en modelos de razonamiento entrenados con RL modificando trayectorias exitosas tras la aparición de la respuesta. DRE preserva el prefijo de razonamiento correcto mientras edita la continuación innecesaria, debilitando el crédito asignado al pensamiento redundante sin penalizar el razonamiento válido. Los experimentos en diversas tareas demuestran su efectividad para reducir el sobreanálisis.

arxiv arXiv cs.CL · hace 2 h

ChLogic: Evaluación de la robustez del razonamiento lógico en expresiones chinas

ChLogic evalúa qué tan bien los modelos de lenguaje grandes mantienen el razonamiento lógico cuando las estructuras lógicas en inglés se expresan en chino. Revela una brecha persistente de rendimiento entre inglés y chino, con la traducción inversa mejorando los resultados en elementos generales pero perjudicando el rendimiento en problemas difíciles. El benchmark destaca el impacto de la realización superficial, artefactos de traducción y comportamientos específicos del modelo en el razonamiento multilingüe.

arxiv arXiv cs.CL · hace 2 h

Descodificación de Elastic Net no negativo para recuperación de información

La descodificación NNN selecciona documentos como un conjunto conjunto que reconstruye conjuntamente la incrustación de la consulta mediante una combinación lineal dispersa y no negativa. Extiende estrictamente la recuperación densa al manejar consultas en las que falla la recuperación densa, especialmente en corpus con documentos correlacionados, y logra un rendimiento superior mediante el entrenamiento de extremo a extremo de las incrustaciones.

media Hugging Face Forums · hace 3 h

Misión: Construir un sistema RAG para lengua hablada en peligro de extinción

Una oferta de empleo busca un ingeniero experimentado en NLP o LLM para desarrollar el primer motor de localización basado en Generación Aumentada por Recuperación (RAG) para una lengua de bajos recursos hablada en Sudamérica. El proyecto utiliza un corpus propietario de contenido pedagógico y datos de diccionario desarrollado durante cuatro años.

media Hugging Face Forums · hace 3 h

Discusión sobre el ajuste fino de modelos de lenguaje pequeños rentables en 2026

Una reciente discusión en los foros de Hugging Face explora los métodos más eficientes para personalizar modelos de IA pequeños para tareas específicas. El hilo, titulado "¿Cuál es la forma más rentable de ajustar finamente un modelo de lenguaje pequeño en 2026?", busca consejos sobre cómo minimizar los gastos mientras se mantiene el rendimiento. Fue iniciado por un único participante que busca optimizar su flujo de trabajo para aplicaciones especializadas. La consulta destaca el creciente interés en aprovechar modelos más pequeños para reducir la carga computacional. Se anima a los participantes a compartir estrategias que equilibren el costo y la eficiencia en el panorama actual. Este tema refleja los esfuerzos continuos para hacer que la adaptación de modelos sea más accesible y asequible.

lab Claude Code Releases · hace 3 h

Notas de la versión 2.1.195 de Claude Code

La versión 2.1.195 de Claude Code introduce varias correcciones y mejoras, incluyendo nuevas variables de entorno para el control del mouse en modo de pantalla completa y correcciones a la lógica del emparejador de hooks.

arxiv arXiv cs.CL · hace 3 h

Intervención post-entrenamiento de modelos base de habla

Un nuevo método utiliza aprendizaje contrastivo intervencionista para refinar modelos base de habla transformando sus representaciones entrelazadas en subespacios separados de contenido y hablante. El enfoque mejora el rendimiento de verificación del hablante fuera del dominio y demuestra una clara separación de la información del hablante y del contenido en los subespacios aprendidos.

arxiv arXiv cs.CL · hace 3 h

Ajuste fino de LLMs para la estimación pasiva de la gravedad de la depresión

Un modelo ajustado finamente en Qwen3.5-27B predice las puntuaciones PHQ-9 a partir de transcripciones de diálogos con IA, logrando MAE=2.6 y AUC=0.91 en el umbral PHQ-9 >= 10. Mantiene AUC > 0.87 en todos los niveles de gravedad PHQ-9, demostrando una estimación precisa de la gravedad de la depresión en conversaciones del mundo real sin autoinforme.

arxiv arXiv cs.CL · hace 3 h

VoidPadding: Desacoplar la terminación [EOS] y el relleno en MDLMs

VoidPadding introduce [VOID] como un token de relleno para separar la terminación semántica y el modelado de la longitud de la respuesta. Mejora el rendimiento en razonamiento matemático y generación de código en 17.84 puntos sobre el modelo original y reduce el NFE de decodificación en un 55.7% en promedio.

media r/LocalLLaMA · hace 3 h

El uso de 'espera' en los modelos de razonamiento me hace que el ojo se me ponga a temblar

Un usuario de Reddit expresa su frustración por el uso repetido de 'espera' en los modelos de razonamiento, describiéndolo como molesto a pesar de comprender su propósito.

media r/LocalLLaMA · hace 3 h

Alguien hizo hace un tiempo una comparativa cuantitativa para Qwen3.6

Una publicación de Reddit presenta una comparación del rendimiento de cuantización para Qwen3.6, con un usuario que señala que realizó cálculos matemáticos aproximados sobre los resultados. La publicación incluye un gráfico visual y enlaces a la imagen original y a los comentarios.

media r/LocalLLaMA · hace 3 h

VibeThinker-3B: ¿Qué es esta brujería?

VibeThinker-3B es un modelo pequeño de 3 mil millones de parámetros que se desempeña excepcionalmente bien en la prueba MathQA, obteniendo resultados comparables a los de modelos con alrededor de 30 mil millones de parámetros. El sólido rendimiento del modelo ha generado debate sobre su eficiencia y capacidades en el razonamiento matemático.

blog Simon Willison · hace 3 h

Lanzamiento alfa datasette-tailscale 0.1a0

datasette-tailscale 0.1a0 es un plugin experimental en fase alpha que permite ejecutar Datasette con un sidecar de Tailscale, conectándose a una Tailnet a través de localhost. Utiliza los bindings de Python para la biblioteca tailscale-rs y habilita el acceso a http://datasette-preview/.

media r/LocalLLaMA · hace 3 h

Comparación cuantitativa del rendimiento del modelo Qwen3.6

Una publicación de Reddit presenta una comparación cuantitativa del rendimiento de las versiones en precisión reducida (cuantizadas) de Qwen3.6. El autor señala que un cálculo aproximado sugiere que Qwen3.6 mantiene un rendimiento sólido incluso a profundidades de bits más bajas, aunque se describe que las matemáticas son deficientes y no están validadas rigurosamente.