Ressources d'entretien sur la science des données
Mise à jour : Fort d'une vaste expérience en entretiens au cours des dernières années, j'ai récemment décidé de lancer une chaîne dédiée pour aider les individus à exceller dans la science des données. Mon objectif est de créer une ressource complète pour tous ceux qui cherchent à revoir les bases avant un prochain entretien ou à maîtriser les compétences et les connaissances approfondies requises pour réussir les entretiens de Data Science et appliquer la Data Science dans la pratique. Cette chaîne vise à fournir une compréhension claire des différentes techniques utilisées au quotidien, couvrant un large éventail de sujets liés au Machine Learning. N'hésitez pas à l'explorer ici :
Tout d'abord, merci d'avoir visité ce dépôt, félicitations pour avoir fait un excellent choix de carrière, mon objectif est de vous aider à décrocher un emploi incroyable en science des données dont vous rêvez, en partageant mon expérience et en passant de nombreux entretiens dans les deux grandes entreprises basées sur les produits. et les startups à croissance rapide, j'espère que cela vous sera utile.
Avec une demande croissante pour autant de Data Scientists, il est très difficile d'être sélectionné et accepté pour un entretien. Dans ce référentiel, j'inclus tout, depuis la sélection réussie jusqu'à l'obtention de ce poste incroyable, assurez-vous de le réussir avec les ressources suivantes.
Chaque ressource que je liste ici est personnellement vérifiée par moi et la plupart d'entre elles que j'ai utilisées personnellement, ce qui m'a beaucoup aidé.
Mot d'avertissement : la science des données/l'apprentissage automatique a un très vaste domaine et il y a beaucoup de choses à apprendre. Cette liste n’est en aucun cas exhaustive et vise simplement à vous aider si vous avez du mal à trouver de bonnes ressources pour commencer votre préparation. Cependant, j'essaie de couvrir et de mettre à jour cela fréquemment et mon objectif est de tout couvrir et d'unifier en une seule ressource que vous pouvez utiliser pour faire vibrer ces interviews !
Veuillez laisser une étoile si vous appréciez l'effort.
Remarque : Pour la contribution, reportez-vous à Contribution.md
Comment obtenir un entretien ?
Avant tout, développez les compétences nécessaires et maîtrisez les fondamentaux , ce sont quelques-uns des horizons avec lesquels vous devriez être extrêmement à l'aise -
- Compréhension commerciale (ceci est extrêmement essentiel à tous les niveaux d'ancienneté, mais spécifiquement pour les personnes ayant plus de 3 ans d'expérience)
- SQL et bases de données (très crucial)
- Compétences en programmation (de préférence en Python, si vous connaissez Scala, points supplémentaires pour certains rôles spécifiques)
- Mathématiques (Probabilités, Statistiques, Algèbre Linéaire et Calcul) - https://medium.com/@rbhatia46/essential-probability-statistics-concepts-before-data-science-bb787b7a5aef
- Apprentissage automatique (cela inclut l'apprentissage profond) et création de modèles
- Structures de données et algorithmes (doit et obligatoire pour les meilleures entreprises basées sur des produits comme FAANG)
- Compréhension du domaine (facultatif pour la plupart des ouvertures, bien que très critique pour certains rôles en fonction des besoins de l'entreprise)
- Revue de la littérature (indispensable pour les postes basés sur la recherche) : Être capable de lire et de comprendre un nouveau document de recherche est l'une des compétences les plus essentielles et les plus exigeantes requises dans l'industrie aujourd'hui, alors que la culture de la recherche et du développement et de l'innovation se développe dans la plupart des bonnes organisations. .
- Compétences en communication – Être capable d’expliquer l’analyse et les résultats aux parties prenantes et aux dirigeants de l’entreprise devient de nos jours une compétence très importante pour les Data Scientists.
- Quelques connaissances en ingénierie (pas obligatoires, mais bonnes à avoir) - Être capable de développer une API RESTful, d'écrire du code propre et élégant, la programmation orientée objet sont quelques-unes des choses sur lesquelles vous pouvez vous concentrer pour quelques points supplémentaires.
- Connaissance du Big Data (pas obligatoire pour la plupart des ouvertures, mais bon à avoir) - Spark, Hive, Hadoop, Sqoop.
Construire une marque personnelle
- Développez un bon GitHub/portefeuille de cas d'utilisation que vous avez résolus, efforcez-vous toujours de résoudre des cas d'utilisation de bout en bout, qui démontrent l'ensemble du cycle de vie de la science des données, de la compréhension commerciale au déploiement du modèle.
- Écrivez des blogs, créez une chaîne YouTube si vous aimez enseigner, écrivez un livre.
- Travaillez sur un CV numérique, facile à ouvrir, facile à lire, propre, concis et facilement personnalisable, incluez toujours vos liens de démonstration et le code source de chaque cas d'utilisation que vous avez résolu.
- Participez aux concours Kaggle, créez un bon profil Kaggle et envoyez-les à des employeurs potentiels pour augmenter les chances d'obtenir un entretien téléphonique très rapidement.
Développez de bonnes relations , via LinkedIn, en assistant à des conférences et en faisant tout ce que vous pouvez, il est très important d'obtenir des références et de vous lancer dans le processus d'entretien grâce à de bonnes relations. Connectez-vous régulièrement avec des Data Scientists travaillant dans des organisations de premier plan basées sur des produits, des startups à croissance rapide, construisez un réseau, lentement et régulièrement, c'est très important.
Quelques conseils sur le CV :
Décrivez les rôles passés et l'impact que vous avez eu de manière quantifiable , soyez concis et je le répète, quantifiez l'impact, plutôt que de parler de faits qui n'ont aucune pertinence. Selon Google Recruiters, utilisez la formule XYZ - Accomplished [X] as measured by [Y], by doing [Z]
Soyez bref, idéalement pas plus de 2 pages, comme vous le savez peut-être, un recruteur moyen ne scanne votre CV que pendant 6 secondes et prend une décision en fonction de cela.
Si vous êtes novice et n'avez pas d'expérience, essayez de résoudre des cas d'utilisation de bout en bout et mentionnez-les dans votre CV, de préférence avec le lien de démonstration (facilite la tâche du recruteur) et le lien vers le code source sur GitHub.
Évitez trop de jargon technique, et cela va de soi, ne mentionnez rien dont vous n'êtes pas sûr, cela pourrait devenir un goulot d'étranglement majeur lors de votre entretien.
Quelques liens utiles :
- Conseils sur la création de projets de portefeuille de données
- Comment rédiger un CV en génie logiciel qui tue
- Obtenez votre CV en science des données après l'ATS
- Comment rédiger un CV de développeur que les responsables du recrutement liront réellement
Si vous souhaitez réviser rapidement vos bases en mathématiques, suivez ceci : https://media-exp2.licdn.com/dms/document/C4D1FAQFzFmR919-Erw/feedshare-document-pdf-an alyzed/0/1655384106479?e=1656547200&v=beta&t=9bm4OUyWfM1dQR8LWXsLrGDqYz_Yr_e7TJxHXLXe36I
Si vous souhaitez réviser rapidement vos bases de statistiques et de ML, suivez ceci : https://media-exp2.licdn.com/dms/document/C4D1FAQFLvzVgVxYAAA/feedshare-document-pdf-analyzed/0/1656265480370?e=1657152000&v=beta&t=RD90ZEx3x2VLUGSthO-1uYKadzwTRixKRg3s8j2nvOc
Probabilités, statistiques et algèbre linéaire
- Comprendre les bases des statistiques descriptives (vraiment important pour un entretien)
- 40 Question sur la probabilité pour un entretien Data Science
- 40 problèmes d'entretien statistique et réponses pour les data scientists
- Probabilités et statistiques dans le contexte du Deep Learning
- Probabilité vs vraisemblance ?
- Méthodes Bootstrap - Le couteau suisse de tout data scientist
- Les intervalles de confiance expliqués simplement aux data scientists
- La valeur P expliquée simplement pour les data scientists
- Le PDF n'est pas une probabilité
- 5 algorithmes d'échantillonnage que tout Data Scientist devrait connaître
- Les 10 techniques statistiques que les data scientists doivent maîtriser
- Cours intensif d'algèbre linéaire appliquée ?
SQL et acquisition de données
C'est probablement le point d'entrée de votre projet Data Science, SQL est l'une des compétences les plus importantes pour tout Data Scientist.
- 5 problèmes d'entretien SQL courants pour les data scientists
- 46 questions pour tester un Data Scientist sur SQL
- 30 questions d'entretien SQL organisées pour FAANG par un ancien data scientist de Facebook
- Questions d'entretien SQL
- Comment réussir les entretiens de science des données - SQL
- 3 questions SQL à connaître pour réussir votre entretien de science des données
- 10 requêtes SQL fréquemment posées lors des entretiens
- Questions d'entretien sur la science des données techniques : SQL et codage
- Comment optimiser les requêtes SQL - Datacamp
- Dix concepts SQL à connaître pour les entretiens en science des données
Préparation et visualisation des données
- 5 algorithmes de sélection de fonctionnalités que tout data scientist devrait connaître
- 6 façons différentes de compenser les valeurs manquantes dans un ensemble de données
- Un bref aperçu des techniques de détection des valeurs aberrantes
- Nettoyer et préparer les données avec Python pour la science des données – Meilleures pratiques et packages utiles
- Quand utiliser quel tracé pour la visualisation
- Façons de détecter et de supprimer les valeurs aberrantes
- Gérer les déséquilibres de classe dans l'apprentissage automatique
- Des moyens plus intelligents d'encoder des données catégorielles
- Aide-mémoire Numpy et Pandas
- 3 méthodes pour traiter les valeurs aberrantes
- Techniques de sélection des fonctionnalités
- Pourquoi, comment et quand faire évoluer vos fonctionnalités
- Tout ce que vous devez savoir sur les nuages de points
- Comment sélectionner les fonctionnalités pour l’apprentissage automatique ?
- 10 façons de sélectionner les fonctionnalités ?
Algorithmes d'apprentissage automatique classiques
- Tous les algorithmes d'apprentissage expliqués en 14 minutes
1. Régression logistique
- Tout sur la régression logistique dans un seul article
- Comprendre la régression logistique étape par étape
- Régression logistique – Explication courte et claire – 9 minutes ?
- Régression linéaire vs régression logistique ?
- 30 questions pour tester un Data Scientist sur la régression logistique
- Régression Logistique - Tout comprendre (Théorie + Maths + Codage) en 1 vidéo ?
- Lasso, Ridge et Régression Logistique dans une seule vidéo ?
2. Régression linéaire
- 30 questions pour tester un Data Scientist sur la régression linéaire
- Régression Linéaire - Tout comprendre (Théorie + Maths + Codage) en 1 vidéo ?
- 5 types de régression et leurs propriétés
- Régression de crête – clairement expliquée ?
- Régression Lasso - Clairement expliquée ?
3. Algorithmes basés sur des arbres/ensembles
- 30 questions pour tester un Data Scientist sur des modèles arborescents
- Indice de Gini vs entropie de l'information
- Arbre de décision ou forêt aléatoire : quel algorithme devriez-vous utiliser ?
- Pourquoi Random Forest ne fonctionne pas bien pour les séries temporelles ?
- Guide complet des modèles d'ensemble
- Les mathématiques simples derrière 3 critères de fractionnement de l'arbre de décision
4. K-Voisins les plus proches
- Questions d'entretien fondamentales sur KNN - Un rafraîchissement rapide
- 30 questions pour tester un Data Scientist sur KNN
- Avantages et inconvénients de KNN
- Algorithme KNN - Tout comprendre (Théorie + Maths + Codage) en 1 vidéo ?
5. Machines vectorielles de support
- Tout sur les SVM – Mathématiques, terminologie, intuition, noyaux dans un seul article
- 25 Questions pour tester un Data Scientist sur les SVM
6. Bayes naïfs
- 12 conseils pour tirer le meilleur parti de Naive Bayes
- Naive Bayes - Tout comprendre (Théorie + Maths + Codage) en 1 vidéo ?
- 6 étapes faciles pour apprendre Naive Bayes
Série chronologique
- 40 questions pour tester un Data Scientist sur les séries temporelles
- 11 méthodes classiques de prévision de séries chronologiques
- Questions d'entretien sur ARIMA ?
Apprentissage non supervisé
- Les choses à faire et à faire de l'ACP (analyse en composantes principales)
- Une introduction au t-SNE : DataCamp
- Réduire dimensionnellement Éliminer les bonnes choses
- Réduction de dimensionnalité pour les nuls : Partie 1 - Intuition
- Explication approfondie de l'algorithme DBSCAN
Systèmes de recommandation
- Les systèmes de recommandation en un mot
Apprentissage profond
- Pourquoi la régularisation réduit le surapprentissage dans les réseaux de neurones profonds ?
- Avantages et inconvénients des réseaux de neurones
- Quand ne pas utiliser les réseaux de neurones
- 40 questions pour tester un Data Scientist sur le Deep Learning
- 21 questions d'entretien populaires sur l'apprentissage profond
- Questions d'entretien sur l'apprentissage profond - Edureka ?
- Fonctions d'activation dans un réseau neuronal - Expliquées
- Dégradé de disparition et d'explosion - Clairement expliqué ?
- Biais et variance – Très clairement expliqués ?
- Pourquoi utiliser ReLU plutôt que Sigmoïde
- 25 questions d'entretien d'apprentissage profond pour tester vos connaissances
- 10 meilleures pratiques de Deep Learning à garder à l’esprit en 2020
GenAI et LLM
- LoRA expliquée ?
- RAG contre réglage fin contre ingénierie rapide ?
- Encodeurs croisés vs bi-encodeurs : une plongée approfondie dans les méthodes d'encodage de texte
- CHIFFON 101
- L’IA générative en quelques mots ?
- Explication approfondie de la théorie BERT dans une vidéo ?
- Explication approfondie de la théorie des transformateurs dans une vidéo ?
- Les mathématiques derrière les matrices Attention : clés, requêtes et valeurs ?
Conception de systèmes d’apprentissage automatique
- Comment répondre à toute question d'entretien sur la conception d'un système d'apprentissage automatique
Interprétabilité de l’apprentissage automatique
- Quatre questions pour décrypter le monde des modèles d'apprentissage automatique
- Explicabilité de l'apprentissage automatique - Cours accéléré par Kaggle
- Les valeurs SHAP expliquées simplement ?
Études de cas
Les études de cas sont extrêmement importantes pour les entretiens. Vous trouverez ci-dessous quelques ressources pour vous entraîner, réfléchissez d'abord avant d'examiner les solutions.
- L’aube des agrégateurs de taxis
- Optimiser les prix des produits pour un fournisseur en ligne
- Conseils pour un entretien d’étude de cas
- Prévision de cours Mercari
- Pipeline de classification de texte multiclasse de bout en bout
- Pipeline de classification d’images multiclasses de bout en bout
- Prévisions à grande échelle pour plus de 1000 produits - Nagarro ?
- Clustering et classification dans le commerce électronique
- L'ABC de l'apprentissage du classement
- Étude de cas sur la science des données : optimiser le placement de produits dans le commerce de détail
PNL
- 30 Questions pour tester un Data Scientist sur la PNL
- 11 questions d'entretien PNL les plus fréquemment posées pour les débutants
- Comment résoudre 90 % des problèmes de PNL
- Questions posées pour les rôles en PNL dans les entreprises
- Méthodes vectorielles pour la recherche de similarité (TF-IDF, BM25, SBERT) ?
- Comprendre BERT en détail - l'une des meilleures playlists pour comprendre les fondamentaux et le fonctionnement interne de BERT, un grand merci à Chris McCormick ?
- Embeddings de mots, CBoW et Skipgram ?
- CBoW contre Skipgram : Question d'entretien sur la science des données ?
Entretiens en science des données chez FAANG et des sociétés similaires
- Problèmes de pratique d'entretien avec les data scientists d'Amazon
- Questions et réponses d'entretien avec Microsoft Data Science
- Questions de résolution de problèmes pour l'entretien de science des données chez Google
Devenir un Rockstar Data Scientist (lire si vous avez du temps supplémentaire)
Les parcourir ajoutera certainement des points brownie supplémentaires, alors ne les manquez pas si vous avez le temps.
- Top 13 des compétences pour devenir un Data Scientist Rockstar
- Comprenez ces 4 concepts du ML pour ressembler à un maître
- 12 choses que j'aurais aimé savoir avant de commencer en tant que Data Scientist
- Comprendre le pipeline de science des données
- Glossaire de la science des données Kaggle
- Glossaire de l'apprentissage automatique Google
- Exécuter vos prédictions ML 50 fois plus rapidement - Hummingbird
- 3 erreurs à ne pas commettre lors d'un entretien Data Science
- Comment trouver l’importance des fonctionnalités pour les modèles BlackBox ?
Structures de données et algorithmes (facultatif)
Bien que cela puisse être facultatif, ne le manquez pas si la description de poste le demande explicitement, et surtout ne le manquez jamais si vous passez un entretien chez FAANG et dans des organisations similaires, ou si vous avez une formation CS. Vous n'avez pas besoin d'être aussi bon qu'un SDE pour cela, mais connaissez au moins les bases.
- Guide du Data Scientist sur les structures de données et les algorithmes
- Gestion des arbres dans l'entretien algorithmique de la science des données
- Une introduction simple aux listes chaînées pour les data scientists
- Programmation dynamique pour les data scientists
- 3 concepts de programmation pour les data scientists
- Data Scientists, Les 5 algorithmes de graphes que vous devez connaître
Ingénierie et déploiement
- Un guide du profane destiné aux data scientists pour créer des API en quelques minutes
- Mettez vos modèles d'apprentissage automatique en production avec ces 5 étapes simples
- 2 façons de déployer vos modèles ML
- Comment déployer un modèle Keras en tant qu'application Web via Flask
- Comment écrire des applications Web en utilisant Python simple pour les Data Scientists ?
Mégadonnées et Spark
- 55 questions d'entretien avec Apache Spark
- 10 questions auxquelles vous pouvez vous attendre lors d'un entretien Spark
- Questions d'entretien chez Hive
- Top 20 des questions d'entretien avec Apache Spark ?
- Questions d'entretien avec Spark - La playlist complète ?
- Une autre playlist fabuleuse pour les questions d’entretien Spark ?
- Conseils pratiques PySpark pour les data scientists
- 3 façons de paralléliser votre code à l'aide de Spark
- Datashader - Révéler la structure du véritable Big Data ?
- Lightnings Talk : Que faut-il savoir sur Spark-MLlib ?
- Résolution de l'exception « Conteneur tué par Yarn pour dépassement des limites de mémoire » dans Apache Spark
Des trucs étonnants sur Python et Spark
Vous ne pouvez pas vous permettre de manquer cela si vous passez un entretien pour un poste Big Data.
- Améliorer les performances de Python et Spark ?
- Python haute performance sur Spark ?
- UDF vectorisées : analyse évolutive avec Python et PySpark ?
Questions d'entretien générales à travers le spectre (vidéo)
- Questions courantes d'entretien sur la science des données - Edureka
- Question d'entretien courante sur l'apprentissage automatique - Edureka
- Top 5 des algorithmes utilisés en Data Science
- Questions courantes d'entretien sur la science des données - Analytics University
- 3 types de questions d'entretien sur la science des données
- Leçons apprises à la dure - Hacking the Data Science Interview
- À quoi ressemble un entretien en tant que Data Scientist
- 5 conseils pour obtenir un emploi en science des données
- 8 algorithmes de science des données fréquemment utilisés
- Entretien pratique basé sur un scénario
- KNN contre K Moyens
Questions d'entretien générales à travers le spectre (lecture)
- Le guide d'entretien en science des données
- Top 30 des questions d'entretien en science des données
- 35 questions importantes pour l'entretien sur la science des données
- 100 questions d'entretien sur la science des données dans FAANG
- Le guide d'entretien le plus complet en science des données
- 41 questions essentielles d'entretien de ML - Springboard
- 30 jours de préparation aux entretiens en science des données - iNeuron
- 109 questions d'entretien pour la science des données - Tremplin
- Questions d'entretien les plus posées en science des données en Inde - Springboard
- Liste des startups d'IA en Inde et ressources pour préparer l'entretien
- 5 questions d'entretien pour prédire un bon Data Scientist
- 8 façons éprouvées d'améliorer la précision de votre modèle ML
- 60 questions d'entretien sur l'apprentissage automatique - AnalyticsIndiaMag
- La grande liste des ressources d'entretien DS et ML
- 100 questions d'entretien de base sur la science des données avec réponses
- 40 questions d'entretien posées lors de l'entretien Startups in ML/DS
- Mon expérience d'entretien d'embauche en science des données/apprentissage automatique : liste de questions DS/ML/DL – L'apprentissage automatique en action
- Comment puis-je me préparer à un entretien téléphonique Data Science chez Airbnb
- Meilleur algorithme ML pour les problèmes de régression
- Comment réussir l'entretien en personne sur la science des données
- Comment décrocher un emploi de Data Scientist chez Airbnb
- 120 questions d'entretien sur la science des données (de tous les domaines)
- Comprendre le compromis biais-variance
- Vous avez besoin de ces aide-mémoire si vous abordez les algorithmes de ML
- Drapeaux rouges dans une interview en science des données
- Le point de vue d'un data scientist sur les questions d'entretien
- Qu'est-ce que l'entropie croisée (explication agréable et courte)
- À quoi ressemble le profil d’un Data Scientist idéal
- 25 questions amusantes pour un entretien d'apprentissage automatique
- Comment se préparer aux entretiens d'apprentissage automatique
- Comment développer un modèle d'apprentissage automatique à partir de zéro
- Guide de bout en bout pour un projet d'apprentissage automatique
- Classification vs régression
- Doit connaître les mesures mathématiques pour chaque data scientist
- D'où vient le moindre carré
- Régularisation dans l'apprentissage automatique - Expliqué
Lectures intéressantes
- 3 transitions de carrière courantes en science des données et comment les réaliser
- Naviguer dans le paysage professionnel de la science des données
- Quel modèle et combien de données