bigdata_analyse
1.0.0
このリポジトリは、私が実践したデータ分析プロジェクトのコレクションです。各プロジェクトには、開発プロセス全体を説明および表示するためのわかりやすい説明ドキュメントが含まれており、ダウンロードして実践できる関連データ セットも提供されます。
さまざまなテクノロジースタックを使用し、さまざまな業界のデータセットを分析することで、次の目標を達成したいと考えています。
Jupyter ノートブックは、pip を通じて直接インストールされる Web インタラクティブな Python エディターであり、データ分析の視覚化、記事の作成、サンプル コードの作成などに非常に適しています。
テーマ | 加工方法 | テクノロジースタック | データセットのダウンロード |
---|---|---|---|
1億人のタオバオユーザー行動データの分析 | オフライン処理 | ハイブのクリーンアップ + ハイブの分析 + echart の視覚化 | Alibaba Cloud または Baidu ネットワーク ディスク抽出コード: 5ipq |
1,000万人のタオバオユーザー行動データのリアルタイム分析 | リアルタイム処理 | データソース kafka + リアルタイム分析 flink + 可視化 (es + kibana) | Baidu ネットワーク ディスク抽出コード: m4mc |
『バーバリアン エイジ』300万人のプレイヤーデータを分析 | オフライン処理 | pandas をクリーンアップ + mysql を分析 + pyechart を視覚化 | Baidu ネットワーク ディスク抽出コード: paq4 |
130万件の深センパスカードスワイプデータの分析 | オフライン処理 | pandas のクリーンアップ + impala の分析 + dbeaver の視覚化 | Baidu ネットワーク ディスク抽出コード: t561 |
アモイの10万件の採用データを分析 | オフライン処理 | パンダのクリーンアップ + ハイブの分析 + 視覚化 (色相 + pyecharts) + sklearn の予測 | Baidu ネットワーク ディスク抽出コード: 9wx0 |
7,000件の賃貸データを分析 | オフライン処理 | pandas のクリーンアップ + sqlite の分析 + matplotlib の視覚化 | Baidu ネットワーク ディスク抽出コード: 9en3 |
倒産企業6,000社のデータを分析 | オフライン処理 | パンダのクリーンアップ + パンダの分析 + 視覚化 (jupyter ノートブック + pyecharts) | Baidu ネットワーク ディスク抽出コード: xvgm |
新型コロナウイルス感染症流行データ分析 | オフライン処理 | パンダのクリーンアップ + パンダの分析 + 視覚化 (jupyter ノートブック + pyecharts) | COVID-19 または Baidu ネットワーク ディスク抽出コード: wgmg |
70,000件のTmall注文データの分析 | オフライン処理 | パンダのクリーンアップ + パンダの分析 + 視覚化 (jupyter ノートブック + pyecharts) | Baidu ネットワーク ディスク抽出コード: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19