Автор представляет Trajlens, линтер с открытым исходным кодом для категории LeRobotDataset на Hugging Face Hub, и сообщает о результатах аудита 100 случайных публичных наборов данных с тегом 'lerobot'. Аудит показал, что только 19 наборов данных прошли валидацию, 13 не прошли из-за конкретных ошибок в вышестоящих компонентах, а 47 столкнулись с ошибками загрузки или таймаутами.
- Из неудачных наборов данных примерно 19% страдали от повреждения эпизодов и кадров (с версии v2.1 до v3.0), выявленного в issue LeRobot 2401.
- Примерно 3% сбоев были вызваны дрейфом значений float для временных меток, связанным с issue LeRobot 3177.
- Инструмент доступен через `pip install trajlens` и может проверить конкретный набор данных менее чем за минуту.
Запуск Trajlens позволяет сопровождающим быстро определить, затронуты ли их данные известными проблемами повреждения, что помогает обеспечивать качество данных в экосистеме открытого робототехнического машинного обучения.