Todos los artículos
arxiv arXiv cs.CL · hace 2 h

GameCraft-Bench: Evaluando la generación de juegos de extremo a extremo

GameCraft-Bench introduce un benchmark con 140 tareas de Godot en 15 familias de juegos para evaluar la capacidad de los agentes de codificación para generar juegos jugables. Las evaluaciones muestran que el mejor agente logra solo un 41.46% de éxito, lo que indica desafíos significativos en la producción de juegos completos e interactivos con jugabilidad coherente y retroalimentación visual.

arxiv arXiv cs.CL · hace 2 h

La edición dinámica de rollout reduce el sobreanálisis en modelos de razonamiento entrenados con RL

La edición dinámica de rollout (DRE) aborda el sobreanálisis en modelos de razonamiento entrenados con RL modificando trayectorias exitosas tras la aparición de la respuesta. DRE preserva el prefijo de razonamiento correcto mientras edita la continuación innecesaria, debilitando el crédito asignado al pensamiento redundante sin penalizar el razonamiento válido. Los experimentos en diversas tareas demuestran su efectividad para reducir el sobreanálisis.

arxiv arXiv cs.CL · hace 2 h

ChLogic: Evaluación de la robustez del razonamiento lógico en expresiones chinas

ChLogic evalúa qué tan bien los modelos de lenguaje grandes mantienen el razonamiento lógico cuando las estructuras lógicas en inglés se expresan en chino. Revela una brecha persistente de rendimiento entre inglés y chino, con la traducción inversa mejorando los resultados en elementos generales pero perjudicando el rendimiento en problemas difíciles. El benchmark destaca el impacto de la realización superficial, artefactos de traducción y comportamientos específicos del modelo en el razonamiento multilingüe.

arxiv arXiv cs.CL · hace 2 h

Descodificación de Elastic Net no negativo para recuperación de información

La descodificación NNN selecciona documentos como un conjunto conjunto que reconstruye conjuntamente la incrustación de la consulta mediante una combinación lineal dispersa y no negativa. Extiende estrictamente la recuperación densa al manejar consultas en las que falla la recuperación densa, especialmente en corpus con documentos correlacionados, y logra un rendimiento superior mediante el entrenamiento de extremo a extremo de las incrustaciones.

media Hugging Face Forums · hace 3 h

Discusión sobre el ajuste fino de modelos de lenguaje pequeños rentables en 2026

Una reciente discusión en los foros de Hugging Face explora los métodos más eficientes para personalizar modelos de IA pequeños para tareas específicas. El hilo, titulado "¿Cuál es la forma más rentable de ajustar finamente un modelo de lenguaje pequeño en 2026?", busca consejos sobre cómo minimizar los gastos mientras se mantiene el rendimiento. Fue iniciado por un único participante que busca optimizar su flujo de trabajo para aplicaciones especializadas. La consulta destaca el creciente interés en aprovechar modelos más pequeños para reducir la carga computacional. Se anima a los participantes a compartir estrategias que equilibren el costo y la eficiencia en el panorama actual. Este tema refleja los esfuerzos continuos para hacer que la adaptación de modelos sea más accesible y asequible.