2009 年から現在までの、ニューヨーク市タクシーおよびリムジン委員会 (TLC) の旅行記録データ データセットから 36 億 9,000 万を超えるレコードをダウンロード、処理、分析するための Python スクリプト。
このリポジトリのメンテナは、Python/Apache Spark/Apache Arrow/データ エンジニアリング コンサルティング プロジェクトに雇用できます。コストの見積もりを取得するには、[email protected] に電子メールを送信してください (プロジェクトの規模や複雑さを問わず)。
Python 3.8+
ピップ 24.2+
ジョブライブラリ 1.3+
numpy 1.24.+
パイアロー 14.0+
パンダ 2.0+
ジオパンダ 0.13+
ジュピターラボ>=4.0+
pyspark 3.5+
このリポジトリのクローンを作成します
git clone https://github.com/lykmapipo/NYC-TLC-Trip-Data.gitcd NYC-TLC-Trip-Data
すべての依存関係をインストールする
pip install -r 要件.txt
環境変数を設定する (AWS S3 を使用する場合)
エクスポート AWS_ACCESS_KEY_ID="<YOUR_AWS_ACCESS_KEY>"エクスポート AWS_SECRET_ACCESS_KEY="<YOUR_AWS_SECRET_ACCESS_KEY>"エクスポート AWS_REGION="us-east-1"
旅行のメタデータを抽出するには、次を実行します。
python extract_trips_metadata.py -s web -t yellow -y 2024
ゾーン データ(ie taxi+_zone_lookup, taxi_zones etc.)
を抽出するには、次を実行します。
python extract_zones_data.py
旅行データを抽出するには、次を実行します。
python extract_trips_data.py -s web -t yellow -y 2024 -m 1 -m 2
旅行データをサンプリングするには、次を実行します。
python sample_trips_data.py -s web -t yellow -y 2024 -m 1 -f csv
まず問題をオープンして何が起こっているのかを知ることができ、それからこのリポジトリをフォークしてアイデアを押し込んでいただければ幸いです。どのような値を追加するかについてのテストを少し追加することを忘れないでください。
[email protected]、または GitHub の問題を開く
MIT ライセンス (MIT)
著作権 (c) lykmapipo および寄稿者
本ソフトウェアおよび関連ドキュメント ファイル (以下「ソフトウェア」) のコピーを入手した人には、使用、コピー、変更、マージする権利を含むがこれらに限定されない、制限なくソフトウェアを取り扱う許可が、ここに無償で与えられます。 、以下の条件を条件として、本ソフトウェアのコピーを出版、配布、サブライセンス、および/または販売すること、および本ソフトウェアが提供される人物にそれを許可すること。
上記の著作権表示およびこの許可通知は、ソフトウェアのすべてのコピーまたは主要部分に含まれるものとします。
ソフトウェアは「現状のまま」提供され、明示的か黙示的かを問わず、商品性、特定目的への適合性、および非侵害の保証を含むがこれらに限定されない、いかなる種類の保証も行われません。いかなる場合においても、作者または著作権所有者は、契約行為、不法行為、またはその他の行為であるかどうかにかかわらず、ソフトウェアまたはソフトウェアの使用またはその他の取引に起因または関連して生じる、いかなる請求、損害、またはその他の責任に対しても責任を負わないものとします。ソフトウェア。