Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Un marco para evaluar habilidades agénticas a escala

Presentamos un marco para evaluar habilidades agénticas mediante la construcción de tareas realistas y la evaluación de la utilidad de las habilidades a través de la ejecución de tareas. Aplicado a 500 habilidades del mundo real, genera 1,000 tareas y rúbricas de puntuación, evaluando 19 configuraciones de modelos agénticos en modelos propietarios y de código abierto. Los resultados muestran una variación significativa en el cumplimiento de instrucciones y las mejoras de rendimiento, con las habilidades que alteran sustancialmente el comportamiento del modelo en comparación con configuraciones sin habilidades.

arxiv arXiv cs.CL · hace 2 h

El ajuste fino bilingüe mejora el reconocimiento automático del habla en idiomas con pocos recursos mediante la identificación del idioma

Un estudio descubre que el ajuste fino bilingüe mejora el reconocimiento automático del habla en idiomas con pocos recursos cuando la identificación del idioma es precisa. Incluir un token de identificación del idioma durante la inferencia mejora el rendimiento del ASR cuando la precisión de la identificación es baja, especialmente en pares de idiomas diversos entre diferentes familias y sistemas de escritura.

arxiv arXiv cs.CL · hace 2 h

Optimización automatizada de prompts para agentes de juegos con LLM

Un nuevo marco automatiza el refinamiento de prompts para agentes LLM dividiendo el pipeline de observación a acción en módulos condicionados por objetivos y de selección de acciones. Utiliza un bucle evolutivo impulsado por LLM para mejorar iterativamente los prompts basándose en la retroalimentación del entorno, logrando hasta un 72.5% de éxito en PutNext donde agentes anteriores fallaron, sin ajuste fino del modelo.

arxiv arXiv cs.CL · hace 2 h

GameCraft-Bench: Evaluando la generación de juegos de extremo a extremo

GameCraft-Bench introduce un benchmark con 140 tareas de Godot en 15 familias de juegos para evaluar la capacidad de los agentes de codificación para generar juegos jugables. Las evaluaciones muestran que el mejor agente logra solo un 41.46% de éxito, lo que indica desafíos significativos en la producción de juegos completos e interactivos con jugabilidad coherente y retroalimentación visual.

arxiv arXiv cs.CL · hace 2 h

La edición dinámica de rollout reduce el sobreanálisis en modelos de razonamiento entrenados con RL

La edición dinámica de rollout (DRE) aborda el sobreanálisis en modelos de razonamiento entrenados con RL modificando trayectorias exitosas tras la aparición de la respuesta. DRE preserva el prefijo de razonamiento correcto mientras edita la continuación innecesaria, debilitando el crédito asignado al pensamiento redundante sin penalizar el razonamiento válido. Los experimentos en diversas tareas demuestran su efectividad para reducir el sobreanálisis.

arxiv arXiv cs.CL · hace 2 h

ChLogic: Evaluación de la robustez del razonamiento lógico en expresiones chinas

ChLogic evalúa qué tan bien los modelos de lenguaje grandes mantienen el razonamiento lógico cuando las estructuras lógicas en inglés se expresan en chino. Revela una brecha persistente de rendimiento entre inglés y chino, con la traducción inversa mejorando los resultados en elementos generales pero perjudicando el rendimiento en problemas difíciles. El benchmark destaca el impacto de la realización superficial, artefactos de traducción y comportamientos específicos del modelo en el razonamiento multilingüe.

arxiv arXiv cs.CL · hace 2 h

Descodificación de Elastic Net no negativo para recuperación de información

La descodificación NNN selecciona documentos como un conjunto conjunto que reconstruye conjuntamente la incrustación de la consulta mediante una combinación lineal dispersa y no negativa. Extiende estrictamente la recuperación densa al manejar consultas en las que falla la recuperación densa, especialmente en corpus con documentos correlacionados, y logra un rendimiento superior mediante el entrenamiento de extremo a extremo de las incrustaciones.

media Hugging Face Forums · hace 3 h

Discusión sobre el ajuste fino de modelos de lenguaje pequeños rentables en 2026

Una reciente discusión en los foros de Hugging Face explora los métodos más eficientes para personalizar modelos de IA pequeños para tareas específicas. El hilo, titulado "¿Cuál es la forma más rentable de ajustar finamente un modelo de lenguaje pequeño en 2026?", busca consejos sobre cómo minimizar los gastos mientras se mantiene el rendimiento. Fue iniciado por un único participante que busca optimizar su flujo de trabajo para aplicaciones especializadas. La consulta destaca el creciente interés en aprovechar modelos más pequeños para reducir la carga computacional. Se anima a los participantes a compartir estrategias que equilibren el costo y la eficiencia en el panorama actual. Este tema refleja los esfuerzos continuos para hacer que la adaptación de modelos sea más accesible y asequible.