Lançamos publicamente o Waymo Open Dataset para ajudar a comunidade de pesquisa a fazer avanços na percepção da máquina e na tecnologia de direção autônoma.
O Waymo Open Dataset é composto por dois conjuntos de dados - o conjunto de dados Perception com dados de sensores de alta resolução e rótulos para 2.030 cenas, e o conjunto de dados Motion com trajetórias de objetos e mapas 3D correspondentes para 103.354 cenas.
Este repositório de código (excluindo a pasta src/waymo_open_dataset/wdl_limited
) está licenciado sob a Licença Apache, Versão 2.0. O código que aparece em src/waymo_open_dataset/wdl_limited
é licenciado sob os termos nele mencionados. O próprio Waymo Open Dataset é licenciado sob termos separados. Visite https://waymo.com/open/terms/ para obter detalhes. O código localizado em cada uma das subpastas localizadas em src/waymo_open_dataset/wdl_limited
está licenciado sob (a) uma licença de direitos autorais de 3 cláusulas BSD e (b) uma licença de patente limitada adicional. Cada licença de patente limitada é aplicável apenas ao código na respectiva subpasta wdl_limited
e é licenciada para uso apenas com o caso de uso estabelecido em tal licença em conexão com o Waymo Open Dataset, conforme autorizado e em conformidade com o Contrato de Licença do Waymo Dataset para uso não comercial. Consulte wdl_limited/camera/, wdl_limited/camera_segmentation/, wdl_limited/sim_agents_metrics/, respectivamente, para obter detalhes.
As Regras foram atualizadas para permitir o treinamento (incluindo modelos de pré-treinamento, co-treinamento ou ajuste fino) usando pesos congelados e pré-treinados de modelos de código aberto disponíveis publicamente para envios aos Desafios. Também adicionamos novos conjuntos de campos (que agora são obrigatórios, ou o servidor retornará um erro) nos metadados de envio para rastrear como os participantes geraram seus envios. Atualizamos os tutoriais para refletir essa mudança, confira os novos campos nos arquivos proto de envio para movimento, agentes sim e fluxo de ocupação.
Esta atualização contém várias alterações/adições aos conjuntos de dados:
Conjunto de dados de percepção (v1.4.3 e v2.0.1):
Fizemos melhorias nos rótulos de verdade da segmentação semântica 3D, especialmente para a classe de motociclistas.
Conjunto de dados de movimento (v1.2.1):
A versão 1.2.1 WOMD agora fornece dados de câmera, incluindo sensores frontal, frontal esquerdo, frontal direito, lateral esquerdo, lateral direito, traseiro esquerdo, traseiro direito e traseiro. Semelhante aos dados Lidar, os dados da câmera dos conjuntos de treinamento, validação e teste cobrem o primeiro 1 segundo de cada uma das janelas de 9 segundos. Em vez de liberar imagens brutas da câmera, liberamos os tokens de imagem e a incorporação de imagens extraídas de um modelo VQ-GAN pré-treinado.
A versão inicial dos dados da câmera WOMD continha desalinhamento entre os dados LiDAR e as entradas do roadgraph para alguns quadros. A versão 1.2.1 fornece novos carimbos de data/hora para os dados lidar com uma matriz de transformação de pose atualizada por intervalo de tempo.
Também fornecemos as seguintes alterações no código que dá suporte aos desafios.
Previsão de movimento:
Melhoramos a lógica por trás do agrupamento de comportamento usado para mAP.
Agentes Sim:
Melhoramos a qualidade das métricas cinemáticas usando estimativas mais suaves de velocidades e acelerações.
Corrigimos um caso extremo para computação offroad com ultrapassagens.
Recalibramos a configuração da métrica e os pesos das métricas compostas.
Relatamos taxas simuladas de colisão e offroad (não probabilidades).
Lançamos a versão v1.6.1 do pacote pip com correções para as métricas WOSAC:
Corrigindo um bug na verificação de validade para colisão e offroad.
Modificando o comportamento da verificação de colisão/offroad quando inválido.
Lançamos um conjunto de dados de ativos centrados em objetos em grande escala contendo mais de 1,2 milhão de imagens e observações lidar de duas categorias principais (veículos e pedestres) do conjunto de dados de percepção (v2.0.0).
Objetos de percepção extraídos de dados multissensor: todas as cinco câmeras e o lidar superior.
Os recursos do Lidar incluem sequências de nuvens de pontos 3D que suportam a reconstrução da forma do objeto 3D. Além disso, fornecemos pose de caixa refinada por meio do registro de formato de nuvem de pontos para todos os objetos do veículo.
Os recursos da câmera incluem sequências de patches de câmera de most_visible_camera
, retornos lidar projetados na câmera correspondente, informações de raios de câmera por pixel e segmentação panóptica 2D rotulada automaticamente que suporta reconstrução de objeto NeRF.
Adicionado um tutorial e código de suporte.
Esta grande atualização inclui código de suporte para quatro desafios em waymo.com/open e atualizações de conjuntos de dados para conjuntos de dados de percepção e movimento.
v2.0.0 do conjunto de dados de percepção
Introduziu o conjunto de dados em formato modular, permitindo que os usuários baixem seletivamente apenas os componentes de que precisam.
Inclui todos os recursos da versão 1.4.2 do conjunto de dados de percepção, exceto mapas.
Adicionado um tutorial e código de suporte.
v1.4.2 do conjunto de dados de percepção
Para os rótulos de segmentação panóptica de vídeo 2D, foi adicionada uma máscara para indicar o número de câmeras cobrindo cada pixel.
Adicionados dados de mapa 3D como polilinhas ou polígonos.
v1.2.0 do conjunto de dados de movimento
Adicionados dados Lidar para o conjunto de treinamento (primeiros 1s de cada janela 9s) e o tutorial correspondente e código de suporte.
Adicionadas entradas de automóveis aos dados do mapa. Ajustadas algumas estimativas de altura dos limites da borda da estrada.
Aumentou o número máximo de pontos do mapa em tf_examples para 30k e reduziu a amostragem para 1,0m para aumentar a cobertura do mapa, de modo que a cobertura se iguale à do conjunto de dados no formato proto do cenário. Adicionado código de conversão do formato proto do cenário para o formato tf_examples.
Adicionado código de suporte para os quatro 2023 Waymo Open Dataset Challenges
Sim Agents Challenge, com tutorial
Pose Estimation Challenge, com um tutorial
Desafio de segmentação panóptica de vídeo 2D, com tutorial
Desafio de previsão de movimento, com tutorial
Lançamos a v1.4.1 do conjunto de dados Perception.
Melhorou a qualidade dos rótulos de segmentação panóptica de vídeo 2D.
Lançamos a versão 1.4.0 do conjunto de dados Perception.
Adicionados rótulos de segmentação panóptica de vídeo 2D e código de suporte.
Lançado um tutorial para o Desafio de detecção somente com câmera 3D.
Adicionado suporte para computação 3D-LET-APL em operações de métricas Python. Consulte Compute Metrics
no tutorial.
Corrigido um bug na implementação de métricas para o Desafio de Ocupação e Fluxo.
Lançamos a versão 1.3.2 do conjunto de dados Perception para melhorar a qualidade e a precisão dos rótulos.
Rótulos de segmentação semântica 3D atualizados, para melhor consistência temporal e para corrigir pontos rotulados incorretamente.
Rótulos de pontos-chave 2D atualizados para corrigir problemas de corte de imagem.
Adicionado num_top_lidar_points_in_box
em dataset.proto para o desafio de detecção somente de câmera 3D.
Lançamos a versão 1.3.1 do conjunto de dados Perception para apoiar os Desafios de 2022 e atualizamos este repositório de acordo.
Adicionadas métricas (LET-3D-APL e LET-3D-AP) para o desafio de detecção somente de câmera 3D.
Adicionados 80 segmentos de imagens de câmera de 20 segundos, como um conjunto de testes para o Desafio de detecção somente de câmera 3D.
Adicionada velocidade e aceleração do eixo z nos metadados do rótulo lidar.
Corrigidas algumas inconsistências em projected_lidar_labels
em dataset.proto.
Atualizada a configuração padrão para o Desafio de Ocupação e Fluxo, mudando de pontos de referência agregados para pontos de referência subamostrados.
Atualizado o tutorial do Desafio de Segmentação Semântica 3D com instruções mais detalhadas.
Lançamos a versão 1.3.0 do conjunto de dados Perception e os desafios de 2022. Atualizamos este repositório para adicionar suporte para os novos rótulos e desafios.
Adicionados rótulos de segmentação semântica 3D, tutorial e métricas.
Adicionados rótulos de pontos-chave 2D e 3D, tutorial e métricas.
Adicionada correspondência entre rótulos 2D (câmera) e 3D (lidar) (somente para pedestres).
Adicionados tutorial e utilitários para o Desafio de Previsão de Fluxo de Ocupação.
Adicionada a métrica soft mAP para o Motion Prediction Challenge.
Lançamos a versão 1.1 do conjunto de dados Motion para incluir informações de conectividade de pista. Para ler mais sobre os detalhes técnicos, leia lane_neighbors_and_boundaries.md.
Adicionadas conexões de pista. Cada pista possui uma lista de IDs de pista que entram ou saem da pista.
Adicionados limites de pista. Cada pista possui uma lista de recursos de limite esquerdo e direito associados à pista e ao segmento da pista onde o limite está ativo.
Adicionados vizinhos de pista. Cada faixa possui uma lista de faixas vizinhas à esquerda e à direita. Estas são faixas nas quais um agente pode fazer uma mudança de faixa.
Precisão de carimbo de data/hora aprimorada.
Valores Z do sinal de parada aprimorados.
Expandimos o Waymo Open Dataset para incluir também um conjunto de dados de movimento que compreende trajetórias de objetos e mapas 3D correspondentes para mais de 100.000 segmentos. Atualizamos este repositório para adicionar suporte para este novo conjunto de dados.
Além disso, adicionamos instruções e exemplos para os desafios de detecção em tempo real. Por favor, siga estas instruções.
Para ler mais sobre o conjunto de dados e acessá-lo, visite https://www.waymo.com/open.
Este repositório de código contém:
Definição do formato do conjunto de dados
Métricas de avaliação
Funções auxiliares no TensorFlow para ajudar na construção de modelos
@InProceedings{Sun_2020_CVPR, autor = {Sun, Pei e Kretzschmar, Henrik e Dotiwalla, Xerxes e Chouard, Aurelien e Patnaik, Vijaysai e Tsui, Paul e Guo, James e Zhou, Yin e Chai, Yuning e Caine, Benjamin e Vasudevan, Vijay e Han, Wei e Ngiam, Jiquan e Zhao, Hang e Timofeev, Aleksei e Ettinger, Scott e Krivokon, Maxim e Gao, Amy e Joshi, Aditya e Zhang, Yu e Shlens, Jonathon e Chen, Zhifeng e Anguelov, Dragomir}, título = {Escalabilidade na percepção para direção autônoma: conjunto de dados aberto Waymo }, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, mês = {junho}, ano = {2020} }
@InProceedings{Ettinger_2021_ICCV, autor={Ettinger, Scott e Cheng, Shuyang e Caine, Benjamin e Liu, Chenxi e Zhao, Hang e Pradhan, Sabeek e Chai, Yuning e Sapp, Ben e Qi, Charles R. e Zhou, Yin e Yang, Zoey e Chouard, Aur'elien e Sun, Pei e Ngiam, Jiquan e Vasudevan, Vijay e McCauley, Alexander e Shlens, Jonathon e Anguelov, Dragomir}, título = {Previsão de movimento interativo em grande escala para direção autônoma: conjunto de dados de movimento aberto Waymo}, livro = Anais da Conferência Internacional IEEE/CVF sobre Visão Computacional (ICCV)}, mês={outubro}, ano={2021}, páginas={9710-9719} }
@InProceedings{Kan_2024_icra, autor={Chen, Kan e Ge, Runzhou e Qiu, Hang e Ai-Rfou, Rami e Qi, Charles R. e Zhou, Xuanyu e Yang, Zoey e Ettinger, Scott e Sun, Pei e Leng, Zhaoqi e Mustafa, Mustafa e Bogun, Ivan e Wang, Weiyue e Tan, Mingxing e Anguelov, Dragomir}, title={WOMD-LiDAR: Raw Sensor Dataset Benchmark for Motion Forecasting}, mês={maio}, booktitle= Anais da Conferência Internacional IEEE sobre Robótica e Automação (ICRA)}, ano={2024} }
A tabela a seguir é necessária para que este conjunto de dados seja indexado por mecanismos de pesquisa como o Google Dataset Search.
propriedade | valor | ||||||
---|---|---|---|---|---|---|---|
nome | Waymo Open Dataset: An autonomous driving dataset | ||||||
nome alternativo | Waymo Open Dataset | ||||||
url | https://github.com/waymo-research/waymo-open-dataset | ||||||
mesmo que | https://github.com/waymo-research/waymo-open-dataset | ||||||
mesmo que | https://www.waymo.com/open | ||||||
descrição | The Waymo Open Dataset is comprised of high-resolution sensor data collected by autonomous vehicles operated by the Waymo Driver in a wide variety of conditions. We're releasing this dataset publicly to aid the research community in making advancements in machine perception and self-driving technology. | ||||||
provedor |
| ||||||
licença |
|