Ресурсы для интервью по науке о данных
Обновление: Опираясь на обширный опыт проведения собеседований за последние несколько лет, я недавно решил запустить специальный канал, чтобы помочь людям преуспеть в области науки о данных. Моя цель — создать всеобъемлющий ресурс для всех, кто хочет вернуться к основам перед предстоящим собеседованием или овладеть навыками и глубокими знаниями, необходимыми как для успеха на собеседованиях по науке о данных, так и для применения науки о данных на практике. Целью этого канала является предоставление четкого понимания различных методов, используемых в повседневной жизни, охватывающих широкий спектр тем машинного обучения. Не стесняйтесь изучить это здесь:
Прежде всего, спасибо за посещение этого репозитория, поздравляю с отличным выбором карьеры. Я стремлюсь помочь вам получить потрясающую работу в области науки о данных, о которой вы мечтали, делясь своим опытом, проводя многочисленные собеседования в обеих крупных продуктовых компаниях. и быстрорастущие стартапы, надеюсь, вы найдете это полезным.
С ростом спроса на такое количество специалистов по обработке и анализу данных действительно сложно успешно пройти проверку и принять на собеседование. В этот репозиторий я включаю все: от успешного прохождения отбора и прохождения собеседования до получения этой потрясающей должности. Обязательно закрепите ее с помощью следующих ресурсов.
Каждый ресурс, который я перечисляю здесь, проверен мной лично, и большинство из них я использовал лично, что мне очень помогло.
Предупреждение: наука о данных/машинное обучение имеют очень большую область применения, и здесь есть чему поучиться. Это ни в коем случае не исчерпывающий список, он предназначен только для того, чтобы помочь вам, если вы изо всех сил пытаетесь найти хорошие ресурсы для начала подготовки. Тем не менее, я стараюсь часто освещать и обновлять эту информацию, и моя цель — охватить и объединить все в один ресурс, который вы сможете использовать для проведения интервью!
Пожалуйста, оставьте звезду, если вы цените усилия.
Примечание: информацию о вкладе см. на Contribution.md.
Как попасть на собеседование?
Прежде всего, развивайте необходимые навыки и хорошо разбирайтесь в основах . Вот некоторые из горизонтов, с которыми вам должно быть очень комфортно:
- Понимание бизнеса (это чрезвычайно важно для всех уровней стажа, но особенно для людей с опытом работы более 3 лет)
- SQL и базы данных (очень важно)
- Навыки программирования (желательно на Python, если вы знаете Scala, дополнительные баллы за некоторые конкретные роли)
- Математика (вероятность, статистика, линейная алгебра и исчисление) — https://medium.com/@rbhatia46/essential-probability-statistics-concepts-before-data-science-bb787b7a5aef
- Машинное обучение (включая глубокое обучение) и построение моделей.
- Структуры данных и алгоритмы (обязательны для ведущих продуктовых компаний, таких как FAANG)
- Понимание предметной области (необязательно для большинства вакансий, но очень важно для некоторых должностей в зависимости от требований компании)
- Обзор литературы (обязательно для должностей, связанных с исследованиями): способность читать и понимать новую исследовательскую работу является одним из наиболее важных и востребованных навыков, необходимых в отрасли сегодня, поскольку культура исследований и разработок и инноваций растет в большинстве хороших организаций. .
- Навыки общения. Способность объяснить анализ и результаты заинтересованным сторонам бизнеса и руководителям в наши дни становится действительно важным навыком для специалистов по обработке данных.
- Некоторые инженерные знания (не обязательны, но полезно иметь). Умение разрабатывать RESTful API, написание чистого и элегантного кода, объектно-ориентированное программирование — это лишь некоторые из вещей, на которых вы можете сосредоточиться, чтобы получить дополнительные очки.
- Знание больших данных (не обязательно для большинства вакансий, но полезно) — Spark, Hive, Hadoop, Sqoop.
Создайте личный бренд
- Создайте хороший GitHub/портфель вариантов использования, которые вы решили, всегда стремитесь к решению комплексных вариантов использования, которые демонстрируют весь жизненный цикл науки о данных, от понимания бизнеса до развертывания модели.
- Ведите блоги, заведите канал на YouTube, если вам нравится преподавать, напишите книгу.
- Работайте над цифровым, легко открываемым, легко читаемым, понятным, кратким и легко настраиваемым резюме/резюме, всегда включайте свои демонстрационные ссылки и исходный код каждого варианта использования, который вы решили.
- Участвуйте в конкурсах Kaggle, создайте хороший профиль Kaggle и отправляйте его потенциальным работодателям, чтобы повысить шансы на очень быстрое приглашение на собеседование.
Развивайте хорошие связи через LinkedIn, посещая конференции и делая все возможное. Очень важно получить рекомендации и начать процесс собеседования, используя хорошие связи. Регулярно общайтесь с учеными, работающими в области данных, работающими в ведущих продуктовых организациях, быстрорастущих стартапах, создавайте сеть, медленно и постепенно, это очень важно».
Несколько советов по резюме/CV:
Опишите прошлые роли и влияние, которое вы оказали, поддающимся количественной оценке , будьте краткими, и я повторяю, оцените влияние количественно, а не говорите о фактах, которые не имеют отношения к делу. По мнению Google Recruiters, используйте формулу XYZ — Accomplished [X] as measured by [Y], by doing [Z]
Будьте краткими, в идеале не более 2 страниц, поскольку, как вы, наверное, знаете, средний рекрутер просматривает ваше резюме всего 6 секунд и на основании этого принимает решение.
Если вы новичок и у вас нет опыта, попробуйте решить комплексные сценарии использования и упомяните их в своем резюме, желательно со ссылкой на демонстрацию (облегчает работу рекрутера) и ссылкой на исходный код на Гитхаб.
Избегайте слишком большого количества технического жаргона, и это само собой разумеется. Не упоминайте ничего, в чем вы не уверены, это может стать серьезным препятствием во время вашего собеседования.
Некоторые полезные ссылки:
- Консультации по созданию проектов портфеля данных
- Как написать потрясающее резюме инженера-программиста
- Получите свое резюме по науке о данных через ATS
- Как написать резюме разработчика, которое прочитают менеджеры по найму
Если вы хотите быстро повторить свои основы математики, выполните следующие действия: https://media-exp2.licdn.com/dms/document/C4D1FAQFzFmR919-Erw/feedshare-document-pdf-an alyzed/0/1655384106479?e=1656547200&v=beta&t=9bm4OUyWfM1dQR8LWXsLrGDqYz_Yr_e7TJxHXLXe36I
Если вы хотите быстро повторить основы статистики и машинного обучения, выполните следующие действия: https://media-exp2.licdn.com/dms/document/C4D1FAQFLvzVgVxYAAA/feedshare-document-pdf-an alyzed/0/1656265480370?e=1657152000&v=beta&t=RD90ZEx3x2VLUGSthO-1uYKadzwTRixKRg3s8j2nvOc
Вероятность, статистика и линейная алгебра
- Понять основы описательной статистики (очень важно для собеседования)
- 40 вопросов о вероятности для собеседования по науке о данных
- 40 проблем на собеседовании по статистике и ответы для ученых, работающих с данными
- Вероятность и статистика в контексте глубокого обучения
- Вероятность против вероятности?
- Bootstrap-методы — швейцарский армейский нож любого специалиста по данным
- Доверительные интервалы, объясненные просто для специалистов по данным
- P-значение просто объяснено для специалистов по обработке данных
- PDF – это не вероятность
- 5 алгоритмов выборки, которые должен знать каждый специалист по данным
- 10 статистических методов, которыми должны овладеть ученые, работающие с данными
- Ускоренный курс прикладной линейной алгебры?
SQL и сбор данных
Вероятно, это отправная точка вашего проекта по науке о данных. SQL — один из самых важных навыков для любого специалиста по анализу данных.
- 5 распространенных проблем на собеседовании по SQL для специалистов по данным
- 46 вопросов для тестирования специалиста по данным на SQL
- 30 вопросов для интервью по SQL, подготовленных для FAANG бывшим специалистом по данным Facebook
- Вопросы для интервью по SQL
- Как успешно пройти собеседование по Data Science — SQL
- 3 вопроса, которые необходимо знать по SQL, чтобы пройти собеседование по Data Science
- 10 часто задаваемых SQL-запросов на собеседованиях
- Вопросы для собеседования по техническим данным: SQL и кодирование
- Как оптимизировать SQL-запросы - Datacamp
- Десять концепций SQL, которые вам следует знать для прохождения собеседований по науке о данных
Подготовка и визуализация данных
- 5 алгоритмов выбора функций, которые должен знать каждый специалист по данным
- 6 различных способов компенсации пропущенных значений в наборе данных
- Краткий обзор методов обнаружения выбросов
- Очистка и подготовка данных с помощью Python для науки о данных — лучшие практики и полезные пакеты
- Когда какой график использовать для визуализации
- Способы обнаружения и удаления выбросов
- Борьба с классовым дисбалансом в машинном обучении
- Более разумные способы кодирования категориальных данных
- Шпаргалка по Нампи и Пандам
- 3 метода борьбы с выбросами
- Методы выбора функций
- Зачем, как и когда масштабировать свои функции
- Все, что вам нужно знать о диаграммах рассеяния
- Как выбрать функции для машинного обучения?
- 10 способов выбора функции?
Классические алгоритмы машинного обучения
- Все алгоритмы обучения объяснены за 14 минут
1. Логистическая регрессия
- Все о логистической регрессии в одной статье
- Понимание логистической регрессии шаг за шагом
- Логистическая регрессия. Краткое и ясное объяснение. 9 минут?
- Линейная регрессия против логистической регрессии?
- 30 вопросов для проверки специалиста по данным на предмет логистической регрессии
- Логистическая регрессия — понять все (теория + математика + кодирование) в 1 видео?
- Лассо, Ридж и логистическая регрессия — все в одном видео?
2. Линейная регрессия
- 30 вопросов для проверки специалиста по данным на предмет линейной регрессии
- Линейная регрессия: разберитесь во всем (теория + математика + кодирование) в 1 видео?
- 5 типов регрессии и их свойства
- Ридж-регрессия – ясное объяснение?
- Лассо-регрессия – ясное объяснение?
3. Древовидные/ансамблевые алгоритмы
- 30 вопросов для тестирования специалиста по данным на основе древовидных моделей
- Индекс Джини против информационной энтропии
- Дерево решений или случайный лес: какой алгоритм следует использовать?
- Почему случайный лес не подходит для временных рядов?
- Полное руководство по ансамблевым моделям
- Простая математика, лежащая в основе трех критериев разделения дерева решений
4. K-ближайшие соседи
- Фундаментальные вопросы для интервью о KNN – быстрое обновление
- 30 вопросов для проверки специалиста по данным на KNN
- Плюсы и минусы КНН
- Алгоритм KNN — понять все (теория + математика + кодирование) в 1 видео?
5. Машины опорных векторов
- Все о SVM — математика, терминология, интуиция, ядра в одной статье
- 25 вопросов для тестирования специалиста по данным на SVM
6. Наивный Байес
- 12 советов, как максимально эффективно использовать Наивный Байес
- Наивный Байес — понять все (теория + математика + кодирование) в 1 видео?
- 6 простых шагов, чтобы изучить Наивный Байес
Временной ряд
- 40 вопросов для проверки специалиста по данным на временных рядах
- 11 классических методов прогнозирования временных рядов
- Вопросы для интервью по ARIMA?
Обучение без присмотра
- Что можно и чего нельзя делать при PCA (анализ главных компонентов)
- Введение в t-SNE: DataCamp
- Уменьшение размеров. Выжимание хороших вещей.
- Уменьшение размерности для чайников: Часть 1 – Интуиция
- Углубленное объяснение алгоритма DBSCAN
Рекомендательные системы
- Коротко о рекомендательных системах
Глубокое обучение
- Почему регуляризация уменьшает переобучение в глубоких нейронных сетях?
- Плюсы и минусы нейронных сетей
- Когда не следует использовать нейронные сети
- 40 вопросов для проверки специалиста по данным в области глубокого обучения
- 21 популярный вопрос на собеседовании по глубокому обучению
- Вопросы для собеседования по глубокому обучению — Edureka?
- Функции активации в нейронной сети – объяснение
- Исчезающий и взрывающийся градиент – ясное объяснение?
- Смещение и дисперсия – очень четко объяснено?
- Зачем использовать ReLU вместо Sigmoid
- 25 вопросов на собеседовании по глубокому обучению, которые проверят ваши знания
- 10 лучших практик глубокого обучения, о которых следует помнить в 2020 году
GenAI и LLM
- ЛоРА объяснил?
- RAG против тонкой настройки или подсказки по проектированию?
- Кросс-кодировщики против би-кодировщиков: глубокое погружение в методы кодирования текста
- Тряпка 101
- Генеративный ИИ в двух словах?
- BERT Теория: подробное объяснение в одном видео?
- Подробное объяснение Теории Трансформеров в одном видео?
- Математика, лежащая в основе матрицы «Внимание: ключи, запросы и значения»?
Проектирование систем машинного обучения
- Как ответить на любой вопрос на собеседовании по проектированию системы машинного обучения
Интерпретируемость машинного обучения
- Четыре вопроса о расшифровке мира моделей машинного обучения
- Объяснимость машинного обучения — ускоренный курс от Kaggle
- Ценности SHAP объясняются просто?
Тематические исследования
Тематические исследования чрезвычайно важны для собеседований. Ниже приведены некоторые ресурсы для практики. Сначала подумайте, прежде чем искать решения.
- Рассвет агрегаторов такси
- Оптимизация цен на продукцию для онлайн-продавца
- Советы по проведению собеседования по тематическому исследованию
- Прогноз цен на Меркари
- Сквозной многоклассовый конвейер классификации текста
- Сквозной конвейер многоклассовой классификации изображений
- Крупномасштабное прогнозирование для более чем 1000 продуктов - Нагарро?
- Кластеризация и классификация в электронной коммерции
- Азбука обучения ранжированию
- Практический пример в области науки о данных: оптимизация размещения продуктов в розничной торговле
НЛП
- 30 вопросов для проверки Data Scientist по НЛП
- 11 наиболее часто задаваемых вопросов на собеседовании по НЛП для начинающих
- Как решить 90% проблем НЛП
- Вопросы, задаваемые в отношении ролей НЛП в компаниях
- Векторные методы поиска сходства (TF-IDF, BM25, SBERT)?
- Подробное понимание BERT — один из лучших плейлистов для понимания основ и внутренней работы BERT. Огромный привет Крису МакКормику?
- Встраивание слов, CBoW и Skipgram?
- CBoW против Skipgram: Вопрос для собеседования по науке о данных?
Интервью по науке о данных в FAANG и аналогичных компаниях
- Практические проблемы на собеседовании с ученым по данным Amazon
- Вопросы и ответы на собеседовании по Microsoft Data Science
- Вопросы по решению проблем для собеседования по Data Science в Google
Стать специалистом по данным Rockstar (прочитайте, если у вас есть дополнительное время)
Их прохождение определенно добавит дополнительные очки пирожных, так что не пропустите их, если у вас есть время.
- 13 главных навыков, которые помогут стать специалистом по данным Rockstar
- Поймите эти 4 концепции машинного обучения, чтобы стать мастером
- 12 вещей, которые я хотел бы знать, прежде чем начать работать специалистом по данным
- Понимание конвейера Data Science
- Глоссарий Kaggle по науке о данных
- Глоссарий Google по машинному обучению
- Выполнение прогнозов машинного обучения в 50 раз быстрее - Hummingbird
- 3 ошибки, которые не следует совершать на собеседовании по Data Science
- Как определить важность функций для моделей BlackBox?
Структуры данных и алгоритмы (необязательно)
Хотя это может быть необязательно, но не пропустите это, если это прямо указано в описании вакансии, и особенно никогда не пропускайте это, если вы проходите собеседование в FAANG и аналогичных организациях или если у вас есть опыт работы в области CS. Вам не обязательно быть в этом так же хорош, как SDE, но, по крайней мере, знать основы.
- Руководство для специалиста по данным по структурам данных и алгоритмам
- Обработка деревьев в алгоритмическом интервью по науке о данных
- Простое введение в связанные списки для специалистов по обработке и анализу данных
- Динамическое программирование для специалистов по данным
- 3 концепции программирования для специалистов по данным
- Специалисты по обработке данных, 5 графических алгоритмов, которые вам следует знать
Проектирование и внедрение
- Руководство для непрофессионалов для специалистов по обработке данных: создание API за считанные минуты
- Перенесите свои модели машинного обучения в производство, выполнив эти 5 простых шагов
- 2 способа развертывания моделей машинного обучения
- Как развернуть модель Keras как веб-приложение через Flask
- Как писать веб-приложения с использованием простого Python для специалистов по данным?
Большие данные и Spark
- 55 вопросов для собеседования по Apache Spark
- 10 вопросов, которые вас могут ожидать на собеседовании в Spark
- Вопросы для интервью с Ульем
- 20 главных вопросов на собеседовании по Apache Spark?
- Вопросы для интервью Spark — Весь плейлист?
- Еще один потрясающий плейлист с вопросами для интервью Spark?
- Практические советы по PySpark для специалистов по обработке и анализу данных
- 3 способа распараллелить ваш код с помощью Spark
- Datashader — раскрытие структуры действительно больших данных?
- Разговор о молнии: что следует знать о Spark-MLlib?
- Решение исключения «Контейнер убит Yarn из-за превышения ограничений памяти» в Apache Spark
Некоторые удивительные вещи о Python и Spark
Вы не можете позволить себе пропустить это, если проходите собеседование на должность, занимающуюся большими данными.
- Улучшение производительности Python и Spark?
- Высокопроизводительный Python в Spark?
- Векторизованные пользовательские функции: масштабируемый анализ с помощью Python и PySpark?
Общие вопросы для интервью по всему спектру (видео)
- Распространенные вопросы на собеседовании по науке о данных — Edureka
- Распространенный вопрос на собеседовании по машинному обучению - Edureka
- Топ-5 алгоритмов, используемых в Data Science
- Распространенные вопросы на собеседовании по науке о данных - Университет аналитики
- 3 типа вопросов для интервью по науке о данных
- Уроки, извлеченные на собственном горьком опыте - интервью по взлому Data Science
- Каково проходить собеседование на должность специалиста по данным
- 5 советов, как получить работу в сфере Data Science
- 8 часто используемых алгоритмов обработки данных
- Практическое интервью на основе сценариев
- KNN против K Means
Общие вопросы для интервью по всему спектру (чтение)
- Руководство по собеседованию в сфере Data Science
- 30 лучших вопросов на собеседовании по Data Science
- 35 важных вопросов на собеседовании по науке о данных
- 100 вопросов для интервью по Data Science в FAANG
- Самое полное руководство по проведению интервью по науке о данных
- 41 важный вопрос на собеседовании по ML - Springboard
- 30 дней подготовки к собеседованию по Data Science - iNeuron
- 109 вопросов для собеседования по Data Science — Трамплин
- Самые задаваемые вопросы на собеседованиях по Data Science в Индии – Springboard
- Список AI-стартапов в Индии и ресурсы для подготовки к собеседованию
- 5 вопросов на собеседовании, которые помогут предсказать хорошего специалиста по данным
- 8 проверенных способов повысить точность вашей модели машинного обучения
- 60 вопросов на собеседовании по машинному обучению
- Большой список ресурсов для интервью DS и ML
- 100 основных вопросов для собеседования по науке о данных и ответы
- 40 вопросов на собеседовании, заданных на Startups in ML/DS Interview
- Мой опыт собеседования в области науки о данных/машинного обучения: список вопросов DS/ML/DL – машинное обучение в действии
- Как мне подготовиться к телефонному собеседованию по Data Science на Airbnb?
- Лучший алгоритм машинного обучения для решения проблем регрессии
- Как пройти личное собеседование по науке о данных
- Как получить работу специалиста по данным в Airbnb
- 120 вопросов для интервью по Data Science (из всех доменов)
- Понимание компромисса между смещением и дисперсией
- Вам понадобятся эти шпаргалки, если вы занимаетесь алгоритмами машинного обучения
- Красные флажки в интервью по науке о данных
- Взгляд специалиста по данным на вопросы на собеседовании
- Что такое перекрестная энтропия (хорошее и краткое объяснение)
- Как выглядит идеальный профиль Data Scientist
- 25 забавных вопросов для собеседования по машинному обучению
- Как подготовиться к собеседованиям по машинному обучению
- Как разработать модель машинного обучения с нуля
- Комплексное руководство для проекта машинного обучения
- Классификация против регрессии
- Должен знать математические меры для каждого специалиста по данным
- Откуда взялся наименьший квадрат
- Регуляризация в машинном обучении – объяснение
Интересное чтение
- 3 распространенных карьерных перехода в области науки о данных и как их осуществить
- Навигация по карьере в области науки о данных
- Какая модель и сколько данных