Un paradigma visual ciego para probar la transferencia de habilidades en modelos pequeños sin ajuste fino

El autor propone un experimento visual ciego y entre dominios para determinar si un modelo de lenguaje grande puede comprimir su planificación procedural en un andamio reutilizable que mejore la salida de un modelo pequeño sin ajuste fino. Utilizando Three.js como entorno de prueba, el estudio busca demostrar que esta transferencia de habilidades es genuina y no simplemente sobreajuste al dominio de origen.

La línea base compara las salidas de un modelo grande (Modelo A) y un modelo pequeño de 9B parámetros (Modelo B) en dos prompts distintos: una escena cinematográfica que presenta a Michael Jackson y otras figuras, y una torreta BMPT-72 de baja poligonización.
La hipótesis postula que el Modelo A puede extraer un "Andamio Procedural" que contiene principios generales de construcción en lugar de respuestas específicas al prompt de origen.
La validación implica aplicar este andamio al Modelo B para la segunda tarea y utilizar una nueva instancia de un modelo grande (Modelo C) como juez ciego con cero contexto sobre el experimento.
El Modelo C califica cuantitativamente las imágenes renderizadas en calidad visual, reconocimiento de silueta, coherencia estructural y densidad de detalles para determinar si la salida del modelo pequeño andamiado mejora en relación con la línea base del modelo grande.

Esta configuración está destinada a servir como un paradigma para demostrar la generalización de habilidades post-entrenamiento al mostrar que el conocimiento procedural puede transferirse entre dominios semánticamente distintos dentro de la misma plataforma.