用於下載、處理和分析紐約市計程車和豪華轎車委員會 (TLC) 行程記錄資料資料集中超過 36.9 億筆記錄(從 2009 年至今)的 Python 腳本。
此儲存庫的維護人員可以為 Python/Apache Spark/Apache Arrow/資料工程諮詢專案聘請。要獲得成本估算,請發送電子郵件至 [email protected](適用於任何規模或複雜程度的項目)。
Python 3.8+
點 24.2+
作業庫 1.3+
numpy 1.24.+
pyarrow 14.0+
熊貓 2.0+
地理熊貓 0.13+
jupyterlab>=4.0+
pyspark 3.5+
克隆這個儲存庫
git克隆 https://github.com/lykmapipo/NYC-TLC-Trip-Data.gitcd NYC-TLC-Trip-Data
安裝所有依賴項
pip install -r 要求.txt
設定環境變數(如果使用 AWS S3)
匯出 AWS_ACCESS_KEY_ID="<YOUR_AWS_ACCESS_KEY>"匯出 AWS_SECRET_ACCESS_KEY="<YOUR_AWS_SECRET_ACCESS_KEY>"匯出 AWS_REGION="us-east-1"
若要擷取行程元數據,請執行:
python extract_trips_metadata.py -s web -t 黃色 -y 2024
若要擷取區域資料(ie taxi+_zone_lookup, taxi_zones etc.)
,請執行:
python extract_zones_data.py
要提取行程數據,請運行:
python extract_trips_data.py -s web -t 黃色 -y 2024 -m 1 -m 2
若要對行程資料進行取樣,請執行:
pythonsample_trips_data.py -s web -t 黃色 -y 2024 -m 1 -f csv
如果您先打開一個問題以便我們知道發生了什麼,然後分叉此存儲庫並提出您的想法,那就太好了。不要忘記添加一些關於您添加的值的測試。
[email protected],或開啟 GitHub 問題
麻省理工學院許可證 (MIT)
版權所有 (c) lykmapipo 及貢獻者
特此免費授予任何獲得本軟體和相關文件文件(「軟體」)副本的人不受限制地使用本軟體,包括但不限於使用、複製、修改、合併的權利、發布、分發、再授權和/或銷售軟體的副本,並允許向其提供軟體的人員這樣做,但須滿足以下條件:
上述版權聲明和本授權聲明應包含在本軟體的所有副本或主要部分中。
本軟體以「現況」提供,不提供任何明示或暗示的保證,包括但不限於適銷性、特定用途的適用性和不侵權的保證。 IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE軟體.