bigdata_analyse
1.0.0
Этот репозиторий представляет собой коллекцию проектов анализа данных, которые я практиковал. Каждый проект будет включать понятный документ с описанием, объясняющий и отображающий весь процесс разработки. Он также предоставит соответствующие наборы данных для загрузки и практики.
Используя различные стеки технологий и анализируя наборы данных из разных отраслей, мы надеемся достичь следующих целей:
Jupyter Notebook — это интерактивный веб-редактор Python. Он устанавливается непосредственно через pip, а также поддерживает уценку. Он очень подходит для визуализации анализа данных, написания статей, написания примеров кода и т. д.
тема | Метод обработки | стек технологий | Загрузка набора данных |
---|---|---|---|
Анализ данных о поведении 100 миллионов пользователей Taobao | Оффлайн обработка | Очистить улей + проанализировать улей + визуализировать электронные таблицы | Код извлечения сетевого диска Alibaba Cloud или Baidu: 5ipq |
Анализ в реальном времени данных о поведении 10 миллионов пользователей Taobao | обработка в реальном времени | Источник данных kafka + анализ в реальном времени flink + визуализация (es + kibana) | Код извлечения сетевого диска Baidu: m4mc |
Анализ данных 3 миллионов игроков «Варварской эпохи» | Оффлайн обработка | Очистить панды + проанализировать MySQL + визуализировать диаграммы pyecharts | Код извлечения сетевого диска Baidu: paq4 |
Анализ 1,3 миллиона данных считывания карт Shenzhen Pass | Оффлайн обработка | Очистить панд + проанализировать импалу + визуализировать dbeaver | Код извлечения сетевого диска Baidu: t561 |
Анализ 100 000 данных о наборе персонала в Сямыне | Оффлайн обработка | Очистка панд + анализ улья + визуализация (оттенок + цветные диаграммы) + прогнозирование sklearn | Код извлечения сетевого диска Baidu: 9wx0 |
Анализ 7000 данных об аренде | Оффлайн обработка | Очистить pandas + проанализировать sqlite + визуализировать matplotlib | Код извлечения сетевого диска Baidu: 9en3 |
Анализ данных 6000 предприятий-банкротов | Оффлайн обработка | Очистка панд + анализ панд + визуализация (блокнот Jupyter + pyecharts) | Код извлечения сетевого диска Baidu: xvgm |
Анализ данных об эпидемии COVID-19 | Оффлайн обработка | Очистка панд + анализ панд + визуализация (блокнот Jupyter + pyecharts) | Код извлечения сетевого диска COVID-19 или Baidu: wgmg |
Анализ 70 000 данных о заказах Tmall | Оффлайн обработка | Очистка панд + анализ панд + визуализация (блокнот Jupyter + pyecharts) | Код извлечения сетевого диска Baidu: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19