#Self- Learning
#Guide for Beginners
#Self Learning
#Python
#LearnDataScience
#Machcine Learning
글쎄, 일반적으로 데이터 과학은 특정하거나 단일한 영역이 아니라, 데이터를 분석하고 이를 기반으로 최상의 솔루션을 찾는 데 중점을 두는 다양한 학문의 조합과 같습니다. 처음에는 수학이나 통계 전문가가 이러한 작업을 수행했지만, 데이터 전문가는 데이터 분석 방법으로 최적화 및 컴퓨터 과학을 추가하는 기계 학습 및 인공 지능을 사용하기 시작했습니다. 이 새로운 접근 방식은 훨씬 더 빠르고 효과적이며 매우 인기가 있는 것으로 나타났습니다.
따라서 전체적으로 데이터 과학의 인기는 구조화된 데이터와 구조화되지 않은 데이터의 대규모 배열 컬렉션을 포함하고 이를 시각화, 통계 작업 및 분석 방법(기계 및 심층 분석 포함)을 포함하여 사람이 읽을 수 있는 형식으로 변환한다는 사실에 있습니다. 학습, 확률 분석 및 예측 모델, 신경망 및 실제 문제 해결을 위한 응용.
인공 지능, 기계 학습, 딥 러닝 및 데이터 과학 — 의심할 여지 없이 이러한 주요 용어는 오늘날 가장 인기가 있습니다. 그리고 비록 어느 정도 관련이 있기는 하지만 동일하지는 않습니다. 따라서 그러한 영역으로 뛰어들기 전에 차이점을 느끼는 것이 필수입니다.
인공지능(Artificial Intelligence)은 인간처럼 작동하고 반응하는 지능적인 기계를 만드는 데 초점을 맞춘 영역입니다. AI 연구는 Alan Turing이 최초의 AI 기반 기계를 만든 1936년으로 거슬러 올라갑니다. 꽤 오랜 역사에도 불구하고 오늘날 대부분의 분야에서 AI는 아직 인간을 완전히 대체할 수는 없습니다. 그리고 체스에서 AI와 인간의 경쟁과 데이터 암호화는 동전의 양면입니다.
Machine learning is a creating tool for extracting knowledge from data. In ML models can be trained on data independently or in stages: training with a teacher, that is, having human-prepared data or training without a teacher, working with spontaneous, noisy data.
딥 러닝은 보다 진보된 또는 빠른 분석이 필요하고 기존의 기계 학습이 대처할 수 없는 영역에서 다층 신경망을 생성하는 것입니다. "깊이"는 수학적 계산을 수행하는 네트워크에서 하나 이상의 숨겨진 뉴런 레이어를 제공합니다.
Big Data — work with huge amounts of often unstructured data. The specifics of the sphere are tools and systems capable of withstanding high loads.
데이터 과학은 데이터 배열, 시각화, 통찰력 수집 및 이러한 데이터를 기반으로 한 의사 결정에 의미를 추가하는 것입니다. 현장 전문가는 클라우드 컴퓨팅, 가상 개발 환경 생성 도구 등 머신 러닝과 빅 데이터의 몇 가지 방법을 사용합니다. 데이터 과학의 작업은 Drew Conway가 만든 벤 다이어그램에 잘 요약되어 있습니다.
그렇다면 데이터 과학자는 어떤 일을 할까요?
여기에 대해 알아야 할 모든 것이 있습니다.
- detection of anomalies, for example, abnormal customer behavior, fraud; - personalized marketing — personal e-mail newsletters, retargeting, recommendation systems; - Metric forecasts — performance indicators, quality of advertising campaigns and other activities; - scoring systems — process large amounts of data and help to make a decision, for example, on granting a loan; - asic interaction with the client — standard answers in chat rooms, voice assistants, sorting letters into folders.
위 작업을 수행하려면 특정 단계를 따라야 합니다.
- Collection Search for channels where you can collect data, and how to get it. - Check. Validation, pruning anomalies that do not affect the result and confuse with further analysis. - Analysis. The study of data, confirmation of assumptions, conclusions. - Visualization. Presentation in a form that will be simple and understandable for perception by a person — in graphs, diagrams. - Act. Making decisions based on the analyzed data, for example, about changing the marketing strategy, increasing the budget for any activity of the company.
지금은 더 복잡한 문제로 나아갈 때입니다. 아래의 모든 단계는 아마도 너무 힘들고 시간과 에너지가 많이 소모되고 어쩌고 저쩌고 보일 것입니다. 네, 이 길은 한 달, 심지어 일 년 안에 배울 수 있는 것으로 인식한다면 어려운 길입니다. 당신은 끊임없는 배움의 사실, 매일 작은 발걸음을 내디딘다는 사실을 인정하고 실수를 볼 준비가 되어 있어야 하며, 다시 시도할 준비가 되어 있고 이 분야를 오랜 기간 숙달해야 한다고 믿어야 합니다.
자, 정말 이 일을 할 준비가 되셨나요? 그렇다면 굴려보자.
“Data Scientist is a person who is better at statistics than any programmer and better at programming than any statistician.” Josh Wills
데이터 과학에 대해 일반적으로 이야기한다면 진지한 이해와 작업을 위해서는 확률 이론(따라서 확률 이론에 필요한 도구인 수학적 분석), 선형 대수학 및 물론 수학적 통계에 대한 기본 과정이 필요합니다. 데이터 처리 알고리즘을 적용한 결과를 분석하기 위해서는 기본적인 수학적 지식이 중요합니다. 그런 배경 없이도 머신러닝 분야에서 상대적으로 실력이 뛰어난 엔지니어의 사례가 있지만 이는 오히려 예외이다.
대학 교육으로 인해 공백이 많이 생겼다면 Hastie, Tibshirani, Friedman이 쓴 The Elements of Statistical Learning이라는 책을 추천합니다. 이 책에서는 머신러닝의 고전적인 부분을 엄격한 수학적 계산이 포함된 수학적 통계 측면에서 제시합니다. 풍부한 수학적 공식과 증거에도 불구하고 모든 방법에는 실제 사례와 연습이 수반됩니다.
신경망의 기본 수학적 원리를 이해하기 위한 현재 최고의 책 — Ian Goodfellow의 딥 러닝(Deep Learning) 서문에는 신경망을 잘 이해하는 데 필요한 모든 수학에 대한 전체 섹션이 있습니다. 또 다른 좋은 참고 자료는 Michael Nielsen의 Neural Networks and Deep Learning입니다. 이것은 기본적인 작업은 아닐 수도 있지만 기본 원리를 이해하는 데 매우 유용할 것입니다.
추가 리소스:
데이터 과학을 위한 수학과 통계에 대한 완전한 가이드: 수학과 통계 영역에 대한 올바른 방향을 잡는 데 도움이 되는 멋지고 지루하지 않은 연습
데이터 과학을 위한 통계 입문: 이 튜토리얼은 모집단과 표본, 표본 추출 분포, 직관을 다루는 중심 극한 정리를 설명하는 데 도움이 되며 학습을 계속할 수 있도록 유용한 비디오를 포함합니다.
데이터 과학자를 위한 선형 대수학에 대한 포괄적인 초보자 가이드: 선형 대수학에 대해 알아야 할 모든 것
데이터 과학자를 위한 선형 대수학: 기본 사항을 빠르게 살펴보는 놀라운 기사입니다.
실제로 프로그래밍의 기본을 즉시 익힐 수 있다는 것이 가장 큰 장점입니다. 그러나 이는 매우 시간이 많이 걸리는 프로세스이므로 이 작업을 약간 단순화할 수 있습니다. 어떻게? 모든 것이 간단합니다. 하나의 언어를 배우기 시작하고 해당 언어의 구문을 통해 프로그래밍의 모든 뉘앙스에 집중하세요.
But still, it is difficult to do without some kind of general guide. For this reason, I recommend paying attention to this article: Software Development Skills for Data Scientists: Amazing article about important soft skills for programming practice.
예를 들어, Python에 주의를 기울이라고 조언하고 싶습니다. 첫째, 초보자가 배우기에 적합하며 비교적 간단한 구문을 가지고 있습니다. 둘째, Python은 전문가에 대한 수요를 결합하고 다기능입니다.
But if these statements don't tell you anything, read more about it here: Python vs R. Choosing the Best Tool for AI, ML & Data Science. Time is a precious resource, so it's better not to disintegrate at once and not just waste it.
그렇다면 파이썬을 어떻게 배워야 할까요?
프로그래밍에 대한 이해가 없다면 Automate the Boring Stuff With Python을 읽어 보시기 바랍니다. 이 책은 초보자를 위한 실용적인 프로그래밍을 설명하고 처음부터 가르칠 수 있도록 제공합니다. 6장 "문자열 조작"을 읽고 이 단원의 실제 작업을 완료하세요. 그것으로 충분할 것입니다.
다음은 살펴볼 만한 다른 훌륭한 리소스입니다.
Codecademy — 좋은 일반 구문을 가르칩니다.
Python을 어렵게 배우세요 — 기본과 더 복잡한 응용 프로그램을 모두 설명하는 훌륭한 매뉴얼 같은 책입니다.
Dataquest — 이 리소스는 구문을 가르치면서 데이터 과학도 가르칩니다.
Python 튜토리얼 — 공식 문서
Python을 자세히 배우세요
Python의 기본 사항을 배운 후에는 주요 라이브러리를 알아가는 데 시간을 투자해야 합니다.
Machine learning allows you to train computers to act independently so that we do not have to write detailed instructions for performing certain tasks. For this reason, machine learning is of great value for almost any area, but first of all, of course, it will work well where there is Data Science.
ML 학습의 첫 번째 단계 또는 첫 번째 단계는 세 가지 주요 그룹입니다.
지도 학습은 현재 ML의 가장 발전된 형태입니다. 여기서의 아이디어는 출력 변수에 대한 일부 개념이 포함된 과거 데이터가 있다는 것입니다. 출력 변수는 여러 입력 변수와 해당 출력 값을 과거 데이터로 어떻게 잘 조합할 수 있는지 인식하고 이를 기반으로 어떤 입력에 대해서도 출력을 예측할 수 있는 함수를 생각해 내기 위한 것입니다. 따라서 핵심 아이디어는 과거 데이터에 라벨이 지정된다는 것입니다. 레이블이 지정된다는 것은 데이터의 모든 행에 대해 특정 출력 값이 표시된다는 의미입니다.⠀ PS. 출력 변수의 경우 출력 변수가 신중하면 CLASSIFICATION이라고 합니다. 연속적인 경우 REGRESSION이라고 합니다.
2) Unsupervised learning doesn't have the luxury of having labeled historical data input-output. Instead, we can only say that it has a whole bunch of input data, RAW INPUT DATA. It allows us to identify what is known as patterns in the historical input data and interesting insights from the overall perspective. So, the output here is absent and all you need to understand is that is there a pattern being visible in the unsupervised set of input. The beauty of unsupervised learning is that it lends itself to numerous combinations of patterns, that's why unsupervised algorithms are harder.
강화 학습은 비지도 학습처럼 레이블이 없는 예제를 알고리즘에 제시할 때 발생합니다. 그러나 알고리즘이 제안하는 솔루션에 따라 긍정적인 피드백이나 부정적인 피드백이 있는 예시를 동반할 수 있습니다. RL은 알고리즘이 결정을 내려야 하고 결정이 결과를 가져오는 애플리케이션에 연결됩니다. 그것은 시행착오를 통해 배우는 것과 같습니다. RL의 흥미로운 예는 컴퓨터가 스스로 비디오 게임을 배우는 경우입니다. 좋습니다. 이제 ML의 기본 사항을 알았습니다. 그 후에는 분명히 더 많은 것을 배워야 합니다. 이 목적을 위해 탐색할 수 있는 훌륭한 리소스는 다음과 같습니다.
지도 및 비지도 기계 학습 알고리즘: 기계 학습 알고리즘 유형에 대한 명확하고 간결한 설명입니다. 기계 학습 시각화: 기계 학습이 어떻게 사용되는지 정확하게 안내하는 뛰어난 시각화입니다.
데이터 마이닝은 데이터를 탐색하기 위해 설계된 중요한 분석 프로세스입니다. 데이터의 숨겨진 패턴을 다양한 관점에 따라 분석하여 유용한 정보로 분류하는 프로세스이며, 효율적인 분석, 데이터 마이닝 알고리즘, 비즈니스 의사결정 촉진 및 기타 정보 요구 사항을 위해 데이터 웨어하우스와 같은 공통 영역에서 수집 및 조립됩니다. 궁극적으로 비용을 절감하고 수익을 늘리는 것입니다.
데이터 마이닝을 마스터하기 위한 리소스:
데이터 마이닝 작동 방식 - 지금까지 찾은 최고의 설명이 포함된 훌륭한 비디오 '관리인 작업'은 통찰력의 핵심 장애물입니다. 데이터 과학 분야에서 데이터 마이닝 관행의 중요성에 대해 자세히 설명하는 흥미로운 기사입니다.
데이터 시각화(Data Visualization)는 데이터를 시각적인 맥락에 배치하여 사람들이 데이터의 중요성을 이해할 수 있도록 돕는 노력을 설명하는 일반적인 용어입니다.
데이터 시각화를 마스터하기 위한 리소스:
데이터 시각화 초보자 가이드
좋은 데이터 시각화를 만드는 방법
이론만 공부하는 것은 그리 흥미롭지 않습니다. 실습을 시도해 볼 필요가 있습니다. 데이터 과학자의 초보자에게는 이에 대한 몇 가지 좋은 옵션이 있습니다.
Use Kaggle, a website dedicated to Data Science. It constantly hosts data analysis competitions in which you can take part. There are also a large number of open data sets that you can analyze and publish your results. In addition, you can watch scripts published by other participants (on Kaggle, such scripts are called Kernels) and learn from successful experience.
데이터 분석에 필요한 모든 것을 공부하고 공개 작업 및 콘테스트에 참가한 다음 일자리를 찾기 시작하세요. 물론 좋은 말만 하겠지만, 자신의 말을 의심할 권리도 있습니다. 그런 다음 독립적인 확인을 보여줍니다. 예를 들면 다음과 같습니다.
Advanced profile on Kaggle. Kaggle has a ranks system, you can go through the steps from beginner to grandmaster. For successful participation in competitions, the publication of scripts and discussions, you can get points that allow you to raise the rating. In addition, the site shows in what competitions you participated, and what are your results.
데이터 분석 프로그램은 GitHub 또는 기타 공개 저장소에 게시될 수 있으며 관심 있는 모든 사람이 이에 대해 알아볼 수 있습니다. 귀하와 인터뷰를 실시할 고용주 대표를 포함합니다.
Final Advice: Don't Be a Copy of a Copy, Find Your Own Way
이제 누구나 데이터 과학자가 될 수 있습니다. 공개 도메인에는 온라인 강좌, 서적, 실제 경험을 얻기 위한 대회 등 필요한 모든 것이 있습니다. 언뜻보기에는 좋지만 과대 광고 때문에 배우면 안됩니다. 우리가 데이터 과학에 관해 듣는 것은 믿을 수 없을 만큼 멋지고 21세기의 가장 섹시한 직업입니다. 이러한 것들이 당신의 주요 동기라면 아무것도 작동하지 않을 것입니다. 슬픈 사실은 그렇습니다. 어쩌면 제가 조금 과장했을 수도 있지만 제가 느끼는 감정은 그 정도입니다. 지금 제가 말씀드리고 싶은 것은 독학으로 데이터 과학자가 되는 것이 가능하다는 것입니다. 그러나 성공의 열쇠는 정기적으로 데이터 분석과 실제 적용을 연구할 시간을 찾는 높은 동기입니다. 가장 중요한 것은 배우고 일하는 과정에서 만족을 얻으려면 배워야 한다는 것입니다.
생각해 보세요.
행운을 빌어요!
여러분의 아이디어와 생각을 자유롭게 공유해 보세요.
보고서를 다운로드하세요.
데이터 과학을 향하여
데이터 과학 레포 - 분석에 대한 자세한 보고서
다음 저장소를 복제하세요.
자식 클론 https://github.com/iamsivab/Data-Science-Resources.git
여기에서 문제를 확인하세요.
변경하고 Pull Request를 보내세요.
? 편하게 연락주세요 @ [email protected]
MIT © 시바수브라마니안