bigdata_analyse
1.0.0
이 저장소는 제가 실습한 데이터 분석 프로젝트 모음입니다. 각 프로젝트에는 전체 개발 프로세스를 설명하고 표시하는 친숙한 설명 문서도 포함되어 있으며 다운로드 및 실습을 위한 관련 데이터 세트도 제공됩니다.
다양한 기술 스택을 사용하고 다양한 산업의 데이터 세트를 분석함으로써 우리는 다음과 같은 목표를 달성하고자 합니다.
Jupyter Notebook은 pip를 통해 직접 설치되며 데이터 분석 시각화, 기사 작성, 샘플 코드 작성 등에 매우 적합합니다.
주제 | 가공방법 | 기술 스택 | 데이터 세트 다운로드 |
---|---|---|---|
1억 건의 타오바오 사용자 행동 데이터 분석 | 오프라인 처리 | 하이브 정리 + 하이브 분석 + 전자 차트 시각화 | Alibaba Cloud 또는 Baidu 네트워크 디스크 추출 코드: 5ipq |
1,000만 건의 타오바오 사용자 행동 데이터를 실시간 분석 | 실시간 처리 | 데이터 소스 kafka + 실시간 분석 플링크 + 시각화(es + kibana) | Baidu 네트워크 디스크 추출 코드: m4mc |
'바바리안 에이지' 300만 플레이어 데이터 분석 | 오프라인 처리 | 팬더 정리 + mysql 분석 + pyecharts 시각화 | Baidu 네트워크 디스크 추출 코드: paq4 |
130만 건의 Shenzhen Pass 카드 긁기 데이터 분석 | 오프라인 처리 | 팬더 정리 + 임팔라 분석 + dbeaver 시각화 | Baidu 네트워크 디스크 추출 코드: t561 |
샤먼 채용 데이터 10만 건 분석 | 오프라인 처리 | 팬더 정리 + 하이브 분석 + 시각화(hue + pyecharts) + sklearn 예측 | Baidu 네트워크 디스크 추출 코드: 9wx0 |
7,000개 임대 데이터 분석 | 오프라인 처리 | 팬더 정리 + sqlite 분석 + matplotlib 시각화 | Baidu 네트워크 디스크 추출 코드: 9en3 |
6,000개 부도기업 데이터 분석 | 오프라인 처리 | 팬더 정리 + 팬더 분석 + 시각화(jupyter Notebook + pyecharts) | Baidu 네트워크 디스크 추출 코드: xvgm |
코로나19 전염병 데이터 분석 | 오프라인 처리 | 팬더 정리 + 팬더 분석 + 시각화(jupyter Notebook + pyecharts) | COVID-19 또는 Baidu 네트워크 디스크 추출 코드: wgmg |
70,000개의 Tmall 주문 데이터 분석 | 오프라인 처리 | 팬더 정리 + 팬더 분석 + 시각화(jupyter Notebook + pyecharts) | Baidu 네트워크 디스크 추출 코드: 27nr |
- https://tianchi.aliyun.com/dataset/
- https://opendata.sz.gov.cn/data/api/toApiDetails/29200_00403601
- https://www.kesci.com/home/dataset
- https://github.com/CSSEGISandData/COVID-19