데이터 과학 인터뷰 - 리소스
업데이트: 지난 몇 년간의 광범위한 인터뷰 경험을 바탕으로 저는 최근 개인이 데이터 과학 분야에서 뛰어난 성과를 낼 수 있도록 돕는 전용 채널을 시작하기로 결정했습니다. 제 목표는 다가오는 인터뷰 전에 기본 사항을 다시 확인하거나 데이터 과학 인터뷰에서 성공하고 실제로 데이터 과학을 적용하는 데 필요한 기술과 심층적 지식을 습득하려는 모든 사람을 위한 포괄적인 리소스를 만드는 것입니다. 이 채널은 광범위한 머신러닝 주제를 다루면서 일상적으로 사용되는 다양한 기술에 대한 명확한 이해를 제공하는 것을 목표로 합니다. 여기에서 자유롭게 탐색해 보세요.
우선, 이 레포를 방문해 주셔서 감사합니다. 훌륭한 직업 선택을 축하합니다. 제 경험을 공유하고 두 대기업 모두에서 많은 인터뷰를 통해 여러분이 꿈꿔 왔던 놀라운 데이터 과학 직업을 얻을 수 있도록 돕고 싶습니다. 그리고 빠르게 성장하는 스타트업에게도 도움이 되길 바랍니다.
너무 많은 데이터 과학자에 대한 수요가 증가함에 따라 성공적으로 심사를 받고 인터뷰에 합격하는 것이 정말 어렵습니다. 이 저장소에는 성공적으로 심사를 받고 인터뷰를 진행하는 것부터 놀라운 위치에 오르는 것까지 모든 것이 포함되어 있습니다. 다음 리소스를 활용하세요.
여기에 나열한 모든 리소스는 제가 직접 검증한 것이며 대부분 개인적으로 사용해본 결과 많은 도움이 되었습니다.
주의사항: 데이터 과학/머신러닝은 영역이 매우 크고 배워야 할 것이 많습니다. 이는 결코 완전한 목록이 아니며 단지 준비를 시작하기 위한 좋은 리소스를 찾는 데 어려움을 겪고 있는 경우 도움을 주기 위한 것입니다. 하지만 저는 이 내용을 자주 다루고 업데이트하려고 노력하며, 제 목표는 모든 것을 다루고 인터뷰를 성공시키는 데 사용할 수 있는 하나의 리소스로 통합하는 것입니다!
노고에 감사드린다면 별표를 남겨주세요.
참고: 기여에 대해서는 Contribution.md를 참조하세요.
인터뷰를 구하는 방법?
무엇보다도 필요한 기술을 개발하고 기본을 탄탄하게 갖추십시오 . 다음은 귀하가 매우 편안하게 받아들여야 할 몇 가지 지평입니다.
- 비즈니스 이해(이것은 모든 직급에 걸쳐 매우 중요하지만 특히 3년 이상의 경력을 가진 사람들에게 중요합니다)
- SQL 및 데이터베이스(매우 중요)
- 프로그래밍 기술(Python에서 선호, Scala를 아는 경우 일부 특정 역할에 대한 추가 브라우니 포인트)
- 수학(확률, 통계, 선형대수학 및 미적분학) - https://medium.com/@rbhatia46/essential-probability-statistics-concepts-before-data-science-bb787b7a5aef
- 기계 학습(딥 러닝 포함) 및 모델 구축
- 데이터 구조 및 알고리즘(FAANG과 같은 최고의 제품 기반 회사의 필수 필수)
- 도메인 이해(대부분의 채용에는 선택 사항이지만 회사의 요구 사항에 따라 일부 역할에는 매우 중요함)
- 문헌 검토(연구 기반 역할에 필수): 새로운 연구 논문을 읽고 이해할 수 있는 능력은 대부분의 우수한 조직에서 연구 개발 문화와 혁신이 성장함에 따라 오늘날 업계에서 필요한 가장 필수적이고 까다로운 기술 중 하나입니다. .
- 커뮤니케이션 스킬 - 분석과 결과를 비즈니스 이해관계자 및 경영진에게 설명하는 능력은 요즘 데이터 사이언티스트에게 정말 중요한 스킬이 되고 있습니다.
- 일부 엔지니어링 지식(필수는 아니지만 있으면 좋음) - RESTful API를 개발할 수 있고, 깨끗하고 우아한 코드를 작성하고, 객체 지향 프로그래밍은 추가적인 브라우니 포인트를 위해 집중할 수 있는 것들 중 일부입니다.
- 빅 데이터 지식(대부분의 채용에 필수는 아니지만 있으면 좋습니다) - Spark, Hive, Hadoop, Sqoop.
개인 브랜드 구축
- 해결한 사용 사례의 좋은 GitHub/포트폴리오를 개발하고, 비즈니스 이해부터 모델 배포까지 전체 데이터 과학 수명주기를 보여주는 엔드투엔드 사용 사례를 해결하기 위해 항상 노력하세요.
- 블로그를 쓰고, 가르치는 것이 즐겁다면 YouTube 채널을 시작하고, 책을 쓰세요.
- 열기 쉽고 읽기 쉽고 깔끔하고 간결하며 쉽게 사용자 정의할 수 있는 디지털 이력서/CV로 작업하세요. 항상 해결한 모든 사용 사례의 데모 링크와 소스 코드를 포함하세요.
- Kaggle 대회에 참여하고, 좋은 Kaggle 프로필을 구축하고, 이를 잠재적인 고용주에게 보내면 인터뷰 전화를 빨리 받을 가능성이 높아집니다.
LinkedIn을 통해 컨퍼런스에 참석하고 할 수 있는 모든 일을 함으로써 좋은 관계를 구축하세요 . 좋은 관계를 통해 추천을 받고 인터뷰 프로세스를 시작하는 것이 매우 중요합니다. 최고의 제품 기반 조직, 빠르게 성장하는 스타트업에서 일하는 데이터 과학자와 정기적으로 연결하고, 천천히 그리고 꾸준히 네트워크를 구축하는 것이 매우 중요합니다.`
이력서/CV에 대한 몇 가지 팁:
과거의 역할과 자신이 만든 영향을 정량화할 수 있는 방식으로 설명하고, 관련성이 없는 사실을 이야기하기보다는 간결하게 설명하고, 그 영향을 정량화합니다 . Google 채용 담당자에 따르면 XYZ 공식을 사용합니다. Accomplished [X] as measured by [Y], by doing [Z]
짧게 유지하세요. 이상적으로는 2페이지를 넘지 않는 것이 좋습니다. 일반적으로 채용 담당자는 이력서를 6초 동안만 스캔하고 이에 따라 결정을 내립니다.
신입이고 경험이 없는 경우 엔드투엔드 사용 사례를 해결하고 이력서에 이를 언급하십시오. 가급적이면 데모 링크(채용 담당자가 쉽게 할 수 있도록 함)와 소스 코드 링크를 사용하세요. GitHub.
기술적인 전문 용어를 너무 많이 사용하지 마십시오. 말할 필요도 없이 자신이 없는 내용은 언급하지 마십시오. 이는 인터뷰 중에 큰 병목 현상이 될 수 있습니다.
유용한 링크:
- 데이터 포트폴리오 프로젝트 구축에 대한 조언
- 킬러 소프트웨어 엔지니어링 이력서를 작성하는 방법
- ATS를 통과하여 데이터 과학 이력서를 받으세요
- 채용 관리자가 실제로 읽을 개발자 이력서 작성 방법
수학 기초를 빠르게 수정하려면 다음을 따르세요. https://media-exp2.licdn.com/dms/document/C4D1FAQFzFmR919-Erw/feedshare-document-pdf-an alyzed/0/1655384106479?e=1656547200&v=beta&t=9bm4OUyWfM1dQR8LWXsLrGDqYz_Yr_e7TJxHXLXe36I
통계 및 ML 기본 사항을 빠르게 수정하려면 다음을 따르세요. https://media-exp2.licdn.com/dms/document/C4D1FAQFLvzVgVxYAAA/feedshare-document-pdf-an alyzed/0/1656265480370?e=1657152000&v=beta&t=RD90ZEx3x2VLUGSthO-1uYKadzwTRixKRg3s8j2nvOc
확률, 통계 및 선형 대수학
- 기술통계의 기초를 이해합니다(면접에서 정말 중요합니다)
- 40 데이터 과학 인터뷰 확률 에 관한 질문
- 데이터 과학자를 위한 40가지 통계 인터뷰 문제 및 답변
- 딥러닝 맥락의 확률과 통계
- 확률 대 가능성 ?
- 부트스트랩 방법 - 모든 데이터 과학자의 스위스 군용 칼
- 데이터 과학자를 위해 간단하게 설명되는 신뢰구간
- 데이터 과학자를 위해 간단하게 설명되는 P-값
- PDF는 확률이 아니다
- 모든 데이터 과학자가 알아야 할 5가지 샘플링 알고리즘
- 데이터 과학자가 숙달해야 할 10가지 통계 기법
- 응용 선형 대수 집중 강좌?
SQL 및 데이터 수집
이는 아마도 데이터 과학 프로젝트의 시작점일 것입니다. SQL은 모든 데이터 과학자에게 가장 중요한 기술 중 하나입니다.
- 데이터 과학자를 위한 5가지 일반적인 SQL 인터뷰 문제
- SQL에 대한 데이터 과학자를 테스트하기 위한 46가지 질문
- 전 Facebook 데이터 과학자가 FAANG을 위해 선별한 30가지 SQL 인터뷰 질문
- SQL 면접 질문
- 데이터 과학 인터뷰에서 좋은 성적을 거두는 방법 - SQL
- 데이터 과학 인터뷰에 합격하려면 반드시 알아야 할 SQL 질문 3가지
- 인터뷰에서 자주 묻는 SQL 쿼리 10가지
- 기술 데이터 과학 면접 질문: SQL 및 코딩
- SQL 쿼리를 최적화하는 방법 - Datacamp
- 데이터 과학 인터뷰를 위해 알아야 할 10가지 SQL 개념
데이터 준비 및 시각화
- 모든 데이터 과학자가 알아야 할 5가지 기능 선택 알고리즘
- 데이터 세트의 누락된 값을 보상하는 6가지 다양한 방법
- 이상값 탐지 기술에 대한 간략한 개요
- 데이터 과학을 위해 Python을 사용하여 데이터 정리 및 준비 — 모범 사례 및 유용한 패키지
- 시각화를 위해 어떤 플롯을 사용해야 하는 경우
- 이상값을 감지하고 제거하는 방법
- 머신러닝의 클래스 불균형 처리
- 범주형 데이터를 인코딩하는 더 스마트한 방법
- Numpy 및 Pandas 요약본
- 이상값을 처리하는 3가지 방법
- 기능 선택 기술
- 기능을 확장해야 하는 이유, 방법 및 시기
- 산점도에 대해 알아야 할 모든 것
- 기계 학습을 위한 기능을 선택하는 방법은 무엇입니까?
- 기능 선택을 위한 10가지 방법?
클래식 기계 학습 알고리즘
1. 로지스틱 회귀
- 하나의 기사로 로지스틱 회귀에 대한 모든 것을 다룹니다.
- 로지스틱 회귀의 단계별 이해
- 로지스틱 회귀 - 짧고 명확한 설명 - 9분?
- 선형 회귀 대 로지스틱 회귀?
- 로지스틱 회귀에 대한 데이터 과학자를 테스트하기 위한 30가지 질문
- 로지스틱 회귀 - 1개의 영상으로 모든 것(이론+수학+코딩)을 이해하실 수 있나요?
- Lasso, Ridge 및 Logistic Regression이 모두 하나의 비디오에 포함되어 있습니까?
2. 선형 회귀
- 선형 회귀에 대해 데이터 과학자를 테스트하기 위한 30가지 질문
- 선형 회귀 - 1개의 비디오로 모든 것(이론 + 수학 + 코딩)을 이해합니까?
- 5가지 회귀 유형과 그 속성
- 능형 회귀 - 명확하게 설명되었나요?
- 올가미 회귀 - 명확하게 설명되었나요?
3. 트리 기반/앙상블 알고리즘
- 트리 기반 모델에서 데이터 과학자를 테스트하기 위한 30가지 질문
- 지니 지수 대 정보 엔트로피
- 의사결정 트리와 랜덤 포레스트 – 어떤 알고리즘을 사용해야 합니까?
- Random Forest가 시계열에 대해 잘 작동하지 않는 이유는 무엇입니까?
- 앙상블 모델에 대한 종합 가이드
- 3가지 의사결정나무 분할 기준 뒤에 숨은 간단한 수학
4. K-최근접이웃
- KNN의 기본 인터뷰 질문 - 빠른 새로 고침
- KNN에서 데이터 과학자를 테스트하기 위한 30가지 질문
- KNN의 장점과 단점
- KNN 알고리즘 - 모든 것(이론+수학+코딩)을 영상 1개로 ?
5. 지원 벡터 머신
- SVM에 관한 모든 것 - 수학, 용어, 직관, 커널을 하나의 문서로
- SVM에서 데이터 과학자를 테스트하기 위한 25가지 질문
6. 나이브 베이즈
- Naive Bayes를 최대한 활용하기 위한 12가지 팁
- Naive Bayes - 1개의 비디오로 모든 것(이론 + 수학 + 코딩)을 이해 하시겠습니까?
- Naive Bayes를 배우기 위한 6가지 쉬운 단계
시계열
- 시계열에 대해 데이터 과학자를 테스트하기 위한 40가지 질문
- 11 고전적인 시계열 예측 방법
- ARIMA에 대한 인터뷰 질문?
비지도 학습
- PCA(주성분 분석)의 DO와 DONT
- t-SNE 소개 : DataCamp
- 차원적 축소(Dimensionally Reducing) 좋은 것만 짜내는 것
- 입문자를 위한 차원 축소: 1부 - 직관
- DBSCAN 알고리즘에 대한 심층 설명
추천 시스템
딥러닝
- 정규화가 심층 신경망에서 과적합을 줄이는 이유는 무엇입니까?
- 신경망의 장점과 단점
- 신경망을 사용하지 말아야 할 경우
- 딥 러닝에 관해 데이터 과학자를 테스트하기 위한 40가지 질문
- 21가지 인기 있는 딥 러닝 인터뷰 질문
- 딥러닝 면접 질문 - Edureka ?
- 신경망의 활성화 기능 - 설명
- 사라지고 폭발하는 그라디언트 - 명확하게 설명되었나요?
- 편향과 분산 - 아주 명확하게 설명되었나요?
- Sigmoid 대신 ReLU를 사용하는 이유
- 지식을 테스트하기 위한 25가지 딥 러닝 인터뷰 질문
- 2020년에 명심해야 할 10가지 딥 러닝 모범 사례
GenAI 및 LLM
- LoRA 설명?
- RAG v/s 미세 조정 v/s 프롬프트 엔지니어링?
- 크로스 인코더와 바이 인코더: 텍스트 인코딩 방법에 대한 심층 분석
- 래그 101
- 간단히 말해서 생성 AI?
- BERT 이론에 대한 심층 설명을 영상 하나로?
- 트랜스포머 이론의 심층 설명을 영상 하나로?
- Attention: Keys, Queries, Values 행렬의 수학은 무엇일까요?
머신러닝 시스템 설계
- 기계 학습 시스템 설계 인터뷰 질문에 답하는 방법
기계 학습 해석성
- 머신러닝 모델의 세계를 이해하는 데 관한 네 가지 질문
- 머신러닝 설명성 - Kaggle의 단기집중과정
- SHAP 값은 간단하게 설명됩니까?
사례 연구
사례 연구는 인터뷰에서 매우 중요합니다. 아래에는 연습할 수 있는 몇 가지 리소스가 있습니다. 솔루션을 보기 전에 먼저 생각해 보세요.
- 택시 수집가의 새벽
- 온라인 공급업체를 위한 제품 가격 최적화
- 사례 연구 인터뷰를 위한 팁
- Mercari 가격 예측
- 엔드투엔드 멀티클래스 텍스트 분류 파이프라인
- 엔드투엔드 멀티클래스 이미지 분류 파이프라인
- 1000개 이상의 제품에 대한 대규모 예측 - Nagarro ?
- 전자상거래의 클러스터링 및 분류
- 순위 학습의 ABC
- 데이터 과학 사례 연구: 소매업에서의 제품 배치 최적화
NLP
- NLP에서 데이터 과학자를 테스트하기 위한 30가지 질문
- 초보자를 위한 가장 일반적으로 묻는 NLP 인터뷰 질문 11가지
- NLP 문제의 90%를 해결하는 방법
- 회사의 NLP 역할에 대해 묻는 질문
- 유사성 검색을 위한 벡터 기반 방법(TF-IDF, BM25, SBERT) ?
- BERT에 대해 자세히 이해하기 - BERT의 기본과 내부 작동 방식을 이해하기 위한 최고의 재생 목록 중 하나입니다. Chris McCormick에게 큰 박수를 보냅니다.
- 워드 임베딩, CBoW 및 Skipgram?
- CBoW v/s Skipgram: 데이터 과학 인터뷰 질문 ?
FAANG 및 유사 회사의 데이터 과학 인터뷰
- Amazon의 데이터 과학자 인터뷰 연습 문제
- Microsoft 데이터 과학 인터뷰 질문 및 답변
- Google의 데이터 과학 인터뷰를 위한 문제 해결 질문
Rockstar 데이터 과학자 되기(시간이 있으면 읽어보세요)
이 과정을 거치면 브라우니 포인트가 추가로 추가되므로 시간이 있으면 놓치지 마세요.
- Rockstar 데이터 과학자가 되기 위한 13가지 기술
- 전문가처럼 들리려면 4가지 ML 개념을 이해하세요.
- 데이터 과학자로 시작하기 전에 알았더라면 좋았을 12가지
- 데이터 과학 파이프라인 이해
- Kaggle 데이터 과학 용어집
- Google 머신러닝 용어집
- ML 예측을 50배 더 빠르게 실행 - Hummingbird
- 데이터 과학 인터뷰에서 저지르면 안되는 3가지 실수
- BlackBox 모델의 기능 중요도를 찾는 방법은 무엇입니까?
데이터 구조 및 알고리즘(선택 사항)
선택 사항일 수도 있지만 직무 설명에서 명시적으로 요구하는 경우에는 놓치지 마세요. 특히 FAANG 및 유사한 조직에서 인터뷰를 하거나 CS 배경이 있는 경우에는 이것을 놓치지 마십시오. 이 분야에서 SDE만큼 능숙할 필요는 없지만 최소한 기본 사항은 알고 있어야 합니다.
- 데이터 구조 및 알고리즘에 대한 데이터 과학자 가이드
- 데이터 과학 알고리즘 인터뷰에서 트리 처리
- 데이터 과학자를 위한 연결 목록에 대한 간단한 소개
- 데이터 과학자를 위한 동적 프로그래밍
- 3 데이터 과학자를 위한 프로그래밍 개념
- 데이터 과학자, 당신이 알아야 할 5가지 그래프 알고리즘
엔지니어링 및 배포
- 몇 분 만에 API를 생성하기 위한 데이터 과학자를 위한 일반인 가이드
- 다음의 간단한 5단계를 통해 기계 학습 모델을 프로덕션으로 전환하세요.
- ML 모델을 배포하는 두 가지 방법
- Flask를 통해 Keras 모델을 웹앱으로 배포하는 방법
- 데이터 과학자를 위한 간단한 Python을 사용하여 웹 앱을 작성하는 방법은 무엇입니까?
빅데이터와 스파크
- 55 아파치 스파크 인터뷰 질문
- Spark 인터뷰에서 기대할 수 있는 10가지 질문
- 하이브 인터뷰 질문
- Apache Spark 인터뷰 질문 상위 20개?
- Spark 인터뷰 질문 - 전체 재생 목록?
- Spark 인터뷰 질문을 위한 또 다른 멋진 재생 목록이 있습니까?
- 데이터 과학자를 위한 실용적인 PySpark 팁
- Spark를 사용하여 코드를 병렬화하는 3가지 방법
- Datashader - 진정한 빅데이터의 구조를 밝히다?
- Lightnings Talk: Spark-MLlib에 대해 알아야 할 사항은 무엇입니까?
- Apache Spark에서 "메모리 제한을 초과하여 Yarn에 의해 컨테이너가 종료됨" 예외 해결
Python과 Spark에 관한 몇 가지 놀라운 내용
빅데이터 직무 면접을 한다면 이 점을 놓칠 수 없습니다.
- Python 및 Spark 성능 향상?
- Spark의 고성능 Python?
- 벡터화된 UDF: Python 및 PySpark를 사용한 확장 가능한 분석 ?
스펙트럼 전반에 걸친 일반적인 인터뷰 질문(비디오)
- 일반적인 데이터 과학 면접 질문 - Edureka
- 일반적인 머신러닝 면접 질문 - Edureka
- 데이터 과학에 사용되는 상위 5개 알고리즘
- 일반적인 데이터 과학 인터뷰 질문 - Analytics University
- 데이터 과학 면접 질문 3가지 유형
- 힘들게 배운 교훈 - 데이터 과학 인터뷰 해킹
- 데이터 과학자 인터뷰는 어떤가요?
- 데이터 과학 직업을 구하는 5가지 팁
- 8 자주 사용되는 데이터 과학 알고리즘
- 시나리오 기반 실무면접
- KNN v/s K 평균
스펙트럼 전반에 걸친 일반적인 인터뷰 질문(읽기)
- 데이터 과학 인터뷰 가이드
- 데이터 과학 면접 질문 상위 30개
- 35가지 중요한 데이터 과학 면접 질문
- FAANG 전체의 100가지 데이터 과학 인터뷰 질문
- 가장 포괄적인 데이터 과학 인터뷰 가이드
- 41가지 필수 ML 인터뷰 질문 - Springboard
- 30일간의 데이터 과학 인터뷰 준비 - iNeuron
- 109 데이터 과학 면접 질문 - 스프링보드
- 인도에서 가장 많이 묻는 데이터 과학 면접 질문 - Springboard
- 인도의 AI 스타트업 목록 및 인터뷰 준비를 위한 리소스
- 좋은 데이터 과학자를 예측하기 위한 5가지 인터뷰 질문
- ML 모델의 정확성을 향상시키는 8가지 입증된 방법
- 머신러닝에 관한 60가지 인터뷰 질문 - AnalyticsIndiaMag
- DS 및 ML 인터뷰 리소스의 주요 목록
- 100가지 기본 데이터 과학 인터뷰 질문과 답변
- ML/DS 인터뷰에서 Startups에 묻는 40개의 인터뷰 질문
- 내 데이터 과학/머신러닝 면접 경험: DS/ML/DL 질문 목록 – 머신러닝 실행
- Airbnb에서 데이터 과학 전화 인터뷰를 어떻게 준비하나요?
- 회귀 문제에 대한 최고의 ML 알고리즘
- 대면 데이터 과학 인터뷰에서 좋은 성적을 거두는 방법
- Airbnb에서 데이터 과학자 일자리를 구하는 방법
- 120개의 데이터 과학 인터뷰 질문(모든 도메인에서)
- 편향-분산 균형 이해
- ML 알고리즘을 다루는 경우 이 치트시트가 필요합니다.
- 데이터 과학 인터뷰의 위험 신호
- 인터뷰 질문에 대한 데이터 과학자의 견해
- 교차 엔트로피(Cross Entropy)란 무엇입니까(간단하고 간단한 설명)
- 이상적인 데이터 과학자의 프로필은 어떤 모습인가요?
- 머신러닝 인터뷰를 위한 25가지 재미있는 질문
- 머신러닝 인터뷰를 준비하는 방법
- 기계 학습 모델을 처음부터 개발하는 방법
- 머신러닝 프로젝트를 위한 엔드투엔드 가이드
- 분류와 회귀
- 모든 데이터 과학자는 수학적 측정 방법을 알아야 합니다.
- 최소제곱은 어디에서 왔는가
- 기계 학습의 정규화 - 설명
흥미로운 읽기
- 3가지 일반적인 데이터 과학 경력 전환 및 이를 실현하는 방법
- 데이터 과학 경력 환경 탐색
- 어떤 모델과 데이터 양