O autor apresenta o Trajlens, um linter de código aberto para a categoria LeRobotDataset no Hugging Face Hub, e relata os resultados da auditoria de 100 datasets públicos aleatórios marcados com 'lerobot'. A auditoria revelou que apenas 19 datasets passaram na validação, enquanto 13 falharam devido a bugs específicos do upstream e 44 encontraram erros de carregamento ou timeouts.

  • Dos datasets que falharam, aproximadamente 19% sofreram corrupção de episódio-frame (v2.1 para v3.0) identificada na issue 2401 do LeRobot.
  • Aproximadamente 3% das falhas foram causadas por deriva de float de timestamp, vinculada à issue 3177 do LeRobot.
  • A ferramenta está disponível via `pip install trajlens` e pode lintar um dataset específico em menos de um minuto.

Executar o Trajlens permite que os mantenedores identifiquem rapidamente se seus dados são afetados por esses problemas conhecidos de corrupção, ajudando a garantir a qualidade dos dados dentro do ecossistema aberto de aprendizado de robótica.