2009년부터 현재까지 뉴욕시 택시 및 리무진 위원회(TLC) 여행 기록 데이터 데이터 세트에서 36억 9천만 개가 넘는 기록을 다운로드, 처리 및 분석하는 Python 스크립트입니다.
Python/Apache Spark/Apache Arrow/데이터 엔지니어링 컨설팅 프로젝트를 위해 이 저장소의 관리자를 고용할 수 있습니다. 비용 견적을 받으려면 [email protected]으로 이메일을 보내십시오(규모나 복잡성에 관계없이 프로젝트의 경우).
파이썬 3.8+
핍 24.2+
잡립 1.3+
넘파이 1.24.+
파이애로우 14.0+
팬더 2.0+
지리판다 0.13+
jupyterlab>=4.0+
파이스파크 3.5+
이 저장소 복제
자식 클론 https://github.com/lykmapipo/NYC-TLC-Trip-Data.gitcd NYC-TLC-Trip-Data
모든 종속성 설치
pip 설치 -r 요구사항.txt
환경 변수 설정(AWS S3를 사용하는 경우)
내보내기 AWS_ACCESS_KEY_ID="<YOUR_AWS_ACCESS_KEY>"내보내기 AWS_SECRET_ACCESS_KEY="<YOUR_AWS_SECRET_ACCESS_KEY>"내보내기 AWS_REGION="us-east-1"
여행 메타데이터를 추출하려면 다음을 실행하세요.
파이썬 extract_trips_metadata.py -s 웹 -t 노란색 -y 2024
구역 데이터 (ie taxi+_zone_lookup, taxi_zones etc.)
를 추출하려면 다음을 실행하십시오.
파이썬 extract_zones_data.py
여행 데이터를 추출하려면 다음을 실행하세요.
파이썬 extract_trips_data.py -s 웹 -t 노란색 -y 2024 -m 1 -m 2
여행 데이터를 샘플링하려면 다음을 실행하세요.
python Sample_trips_data.py -s 웹 -t 노란색 -y 2024 -m 1 -f csv
무슨 일이 일어나고 있는지 알 수 있도록 먼저 문제를 열어서 이 저장소를 포크하고 아이디어를 전달하면 좋을 것입니다. 추가하는 가치에 대한 약간의 테스트를 추가하는 것을 잊지 마십시오.
[email protected] 또는 GitHub 문제 열기
MIT 라이센스 (MIT)
Copyright (c) lykmapipo 및 기여자
본 소프트웨어 및 관련 문서 파일(이하 "소프트웨어")의 사본을 취득한 모든 사람에게 사용, 복사, 수정, 병합에 대한 권리를 포함하되 이에 국한되지 않고 제한 없이 소프트웨어를 취급할 수 있는 권한이 무료로 부여됩니다. , 소프트웨어 사본을 게시, 배포, 재라이센스 부여 및/또는 판매하고, 소프트웨어를 제공받은 사람에게 다음 조건에 따라 그렇게 하도록 허용합니다.
위의 저작권 고지와 본 허가 고지는 소프트웨어의 모든 사본 또는 상당 부분에 포함됩니다.
소프트웨어는 상품성, 특정 목적에의 적합성 및 비침해에 대한 보증을 포함하되 이에 국한되지 않고 명시적이든 묵시적이든 어떠한 종류의 보증 없이 "있는 그대로" 제공됩니다. 어떠한 경우에도 작성자나 저작권 보유자는 계약, 불법 행위 또는 기타 행위로 인해 소프트웨어나 사용 또는 기타 거래와 관련하여 발생하는 모든 청구, 손해 또는 기타 책임에 대해 책임을 지지 않습니다. 소프트웨어.