El autor presenta Trajlens, un linter de código abierto para la categoría LeRobotDataset en Hugging Face Hub, y reporta los resultados de la auditoría de 100 datasets públicos aleatorios etiquetados con 'lerobot'. La auditoria reveló que solo 19 datasets pasaron la validación, mientras que 13 fallaron debido a errores específicos del upstream y 47 encontraron errores de carga o tiempos de espera.
- De los datasets que fallaron, aproximadamente el 19% sufrió corrupción de episodios-fotogramas (v2.1 a v3.0) identificada en el issue 2401 de LeRobot.
- Aproximadamente el 3% de las fallas fueron causadas por deriva de punto flotante en marcas de tiempo, vinculada al issue 3177 de LeRobot.
- La herramienta está disponible mediante `pip install trajlens` y puede lintear un dataset específico en menos de un minuto.
Ejecutar Trajlens permite a los mantenedores identificar rápidamente si sus datos se ven afectados por estos problemas conocidos de corrupción, ayudando a garantizar la calidad de los datos dentro del ecosistema abierto de aprendizaje por robótica.