用于下载、处理和分析纽约市出租车和豪华轿车委员会 (TLC) 行程记录数据数据集中超过 36.9 亿条记录(从 2009 年至今)的 Python 脚本。
该存储库的维护人员可以为 Python/Apache Spark/Apache Arrow/数据工程咨询项目聘请。要获得成本估算,请发送电子邮件至 [email protected](适用于任何规模或复杂程度的项目)。
Python 3.8+
点 24.2+
作业库 1.3+
numpy 1.24.+
pyarrow 14.0+
熊猫 2.0+
地理熊猫 0.13+
jupyterlab>=4.0+
pyspark 3.5+
克隆这个存储库
git克隆 https://github.com/lykmapipo/NYC-TLC-Trip-Data.gitcd NYC-TLC-Trip-Data
安装所有依赖项
pip install -r 要求.txt
设置环境变量(如果使用 AWS S3)
导出 AWS_ACCESS_KEY_ID="<YOUR_AWS_ACCESS_KEY>"导出 AWS_SECRET_ACCESS_KEY="<YOUR_AWS_SECRET_ACCESS_KEY>"导出 AWS_REGION="us-east-1"
要提取行程元数据,请运行:
python extract_trips_metadata.py -s web -t 黄色 -y 2024
要提取区域数据(ie taxi+_zone_lookup, taxi_zones etc.)
,请运行:
python extract_zones_data.py
要提取行程数据,请运行:
python extract_trips_data.py -s web -t 黄色 -y 2024 -m 1 -m 2
要对行程数据进行采样,请运行:
pythonsample_trips_data.py -s web -t 黄色 -y 2024 -m 1 -f csv
如果您先打开一个问题以便我们知道发生了什么,然后分叉此存储库并提出您的想法,那就太好了。不要忘记添加一些关于您添加的值的测试。
[email protected],或打开 GitHub 问题
麻省理工学院许可证 (MIT)
版权所有 (c) lykmapipo 及贡献者
特此免费授予获得本软件和相关文档文件(“软件”)副本的任何人不受限制地使用本软件,包括但不限于使用、复制、修改、合并的权利、发布、分发、再许可和/或销售软件的副本,并允许向其提供软件的人员这样做,但须满足以下条件:
上述版权声明和本许可声明应包含在本软件的所有副本或主要部分中。
本软件按“原样”提供,不提供任何明示或暗示的保证,包括但不限于适销性、特定用途的适用性和不侵权的保证。在任何情况下,作者或版权持有者均不对因本软件或本软件的使用或其他交易而引起的或与之相关的任何索赔、损害或其他责任负责,无论是合同、侵权还是其他行为。软件。