OpenStreetView-5M의 공식 PyTorch 구현: 글로벌 시각적 위치정보를 향한 많은 길.
첫 번째 저자: Guillaume Astruc, Nicolas Dufour, Ioannis Siglidis
두 번째 저자: Constantin Aronssohn, Nacim Bouia, Stephanie Fu, Romain Loiseau, Van Nguyen Nguyen, Charles Raude, Elliot Vincent, Lintao XU, Hongyu Zhou
마지막 저자: Loic Landrieu
연구소: Imagine, LIGM, Ecole des Ponts, Univ Gustave 에펠, CNRS, Marne-la-Vallée, 프랑스
OpenStreetView-5M은 스트리트 뷰 이미지에 대한 최초의 대규모 공개 위치정보 벤치마크입니다.
벤치마크의 난이도를 파악하려면 데모를 플레이해 보세요.
우리의 데이터 세트는 우리가 최고의 모델을 제공하는 광범위한 벤치마크에 사용되었습니다.
자세한 내용과 결과는 당사의 논문 및 프로젝트 페이지를 확인하세요.
OpenStreetView-5M은 Huggingface/datasets/osv5m/osv5m에서 호스팅됩니다. 다운로드하고 추출하려면 다음을 실행하세요.
python scripts/download-dataset.py
데이터세트를 가져오는 다양한 방법은 DATASET.md를 참조하세요.
OSV-5M의 최고 모델은 Huggingface에서도 찾을 수 있습니다.
from PIL import Image
from models . huggingface import Geolocalizer
geolocalizer = Geolocalizer . from_pretrained ( 'osv5m/baseline' )
img = Image . open ( '.media/examples/img1.jpeg' )
x = geolocalizer . transform ( img ). unsqueeze ( 0 ) # transform the image using our dedicated transformer
gps = geolocalizer ( x ) # B, 2 (lat, lon - tensor in rad)
Hugingface 모델의 결과를 재현하려면 다음을 실행하세요.
python evaluation.py exp=eval_best_model dataset.global_batch_size=1024
우리 논문의 모든 실험을 재현하기 위해 scripts/experiments
에 전용 스크립트를 제공합니다.
Conda 환경을 설치하려면 다음을 실행하세요.
conda env create -f environment.yaml
conda activate osv5m
대부분의 메서드를 실행하려면 먼저 QuadTrees를 미리 계산해야 합니다(약 10분).
python scripts/preprocessing/preprocess.py data_dir=datasets do_split=1000 # You will need to run this code with other splitting/depth arguments if you want to use different quadtree arguments
configs/exp 폴더를 사용하여 원하는 실험을 선택하세요. 자유롭게 탐험해 보세요. 논문에서 평가된 모든 모델에는 전용 구성 파일이 있습니다.
# Using more workers in the dataloader
computer.num_workers=20
# Change number of devices available
computer.devices=1
# Change batch_size distributed to all devices
dataset.global_batch_size=2
# Changing mode train or eval, default is train
mode=eval
# All these parameters and more can be changed from the config file!
# train best model
python train.py exp=best_model computer.devices=1 computer.num_workers=16 dataset.global_batch_size=2
@article { osv5m ,
title = { {OpenStreetView-5M}: {T}he Many Roads to Global Visual Geolocation } ,
author = { Astruc, Guillaume and Dufour, Nicolas and Siglidis, Ioannis
and Aronssohn, Constantin and Bouia, Nacim and Fu, Stephanie and Loiseau, Romain
and Nguyen, Van Nguyen and Raude, Charles and Vincent, Elliot and Xu, Lintao
and Zhou, Hongyu and Landrieu, Loic } ,
journal = { CVPR } ,
year = { 2024 } ,
}