Руководство по проектированию данных
В этом репо есть все ресурсы, необходимые для того, чтобы стать удивительным инженером данных!
Начиная
Если вы новичок в разработке данных, начните с того, что следуйте этой дорожной карте Data Engineering.
Если вы здесь для 6-недельного бесплатного учебного лагеря YouTube, вы можете проверить
- введение
- программное обеспечение необходимо
Для более прикладного обучения:
- Проверьте раздел проектов для более практических примеров!
- Ознакомьтесь с разделом интервью, чтобы получить дополнительные советы о том, как пройти интервью для инженерии данных!
- Проверьте раздел книг для списка высококачественных книг по технике данных
- Ознакомьтесь с разделом сообществ, чтобы присоединиться
- Проверьте раздел рассылки, чтобы узнать по электронной почте
Ресурсы
Отличный список из более чем 25 книг
Топ -3 должны читать книги:
- Основы инженерии данных
- Проектирование приложений с интенсивными данными
- Проектирование систем машинного обучения
Отличный список из более чем 10 сообществ для присоединения:
Верхние сообщества обязательно-младших для DE:
- Eczachly Data Engineering Discord
- Data Talks Club Slack
- Сообщество инженеров данных
Верхние сообщества обязательно-младших для ML:
- Adalflow Discord
- Chip Huyen Mlops Discord
Компании:
- Оркестровка
- Маг
- Астроном
- Префект
- Дагстер
- Расход воздуха
- Кестра
- Верфи
- Гамильтон
- Data Lake / Cloud
- Табличный
- Microsoft
- DataBricks
- Onehouse
- Дельта -озеро
- Хранилище данных
- Качество данных
- DBT
- Громкий
- Отличные ожидания
- Streamdal
- Боясь
- Газировка
- DQOPS
- Hedda.io
- Образовательные компании
- DataExpert.io
- LearnDataEngineering.com
- AlgoExpert
- Bytebytego
- Аналитика / визуализация
- Предустановка
- Starburst
- Метабаза
- Looker Studio
- Таблица
- Власть би
- Apache Superset
- Доказательство
- Интеграция данных
- Куб
- Фиветер
- Airbyte
- длт
- Шлинг
- Мельтано
- Современный Олап
- Apache Druid
- КЛЮЧЕСКИЙ ДОХОД
- Apache Pinot
- Апач Кайлин
- Утка
- Questdb
- LLM Библиотека приложений
- Adalflow
- Лангхейн
- Lmamaindex
- Данные в реальном времени
- Агрегации .IO
- Отзывчивый
- Risingwave
- Стрим
Блоги компании по инженерии данных:
- Netflix
- Uber
- DataBricks
- Airbnb
- Блог Amazon AWS
- Блог архитектуры данных Microsoft
- Блог Microsoft Fabric
- Оракул
- Мета
- Onehouse
Технические работоспособные техники:
- Пятислойная архитектура бизнес-аналитики
- Lakehouse: новое поколение открытых платформ, которые объединяют хранилище данных и расширенную аналитику
- Качество больших данных: модель профилирования качества данных
- Data Lakehouse: хранилище данных и многое другое
- Spark: кластерные вычисления с рабочими наборами
- Файловая система Google
- Создание универсальных данных Lakehouse
- Xtable в действии: бесшовная взаимодействие в озерах данных
- MapReduce: упрощенная обработка данных на больших кластерах
Счета социальных сетей
Вот в основном всеобъемлющий список создателей разработки данных: (вам нужно иметь не менее 5 тысяч подписчиков где -то!)
Имя | YouTube | LinkedIn | X/Twitter | Instagram | Тикток |
---|
Зак Уилсон | Данные с Zach (70K+) | Зак Уилсон (400K+) | Eczachly (30K+) | Eczachly (150K+) | @Eczachly (70K+) |
Шашанк Мишра | Мост электронного обучения (100K+) | Шашанк Мишра (100K+) | | | |
Сиэтл -данные | Сиэтлский парень данных (100K+) | Бен Рогоджан (100K+) | Seattledataguy (10k+) | | |
Trendytech | TrendyTech (100K+) | Сумит Миттал (100K+) | | | |
Даршил Пармар | Даршил Пармар (100K+) | Даршил Пармар (100K+) | | | |
Андреас Крец | Андреас Крец (100K+) | Андреас Крец (100K+) | | LearnDataEngineering (5K+) | |
Bytebytego | Bytebytego (1m+) | Алекс Сюй (100K+) | Alexxubyte (100K+) | | |
Шоу Равита | Шоу Равита (100K+) | | | | |
Парень в кубе | Парень в кубе (100 тыс.+) | | | | |
Адам Марчак | Адам Марчак (100K+) | | | | |
Nullqueries | Nullqueries (100K+) | | | | |
Techtfq от Thoufiq | Techtfq от Thoufiq (100K+) | | | | |
SQLBI | SQLBI (100K+) | Марко Руссо (50K+) | Маркор (10K+) | | |
Azure Lib | Azure Lib (10K+) | Дипак Гоял (100K+) | | | |
Продвигая аналитику | Продвинутая аналитика (10K+) | Саймон Уайтли (10K+) | | | |
Каханские решения для данных | Каханские решения данных (10K+) | | | | |
Анкит Бансал | Ankit bansal (10K+) | Ankit bansal (50k+) | | | |
Мистер К говорит технология | Мистер К говорит технология (10K+) | | | | |
Ли Инь | | Ли Инь (10K+) | | | |
Джейко Ван Гелдер | | Jaco van Gelder (10K+) | | | |
Джозеф Мачадо | | Джозеф Мачадо (10K+) | Startdataeng (5K+) | | |
Эрик Роби | | Эрик Роби (10K+) | | | |
Саймон Спяти | | Саймон Спцти (10K+) | | | |
Dipankar Mazumdar | | Dipankar Mazumdar (5K+) | | | |
Даниэль Чиоцирлан | | Даниэль Чиоцирлан (5K+) | | | |
Хьюго Лу | | Хьюго Лу (5K+) | | | |
Тобиас Мейси | | Тобиас Мейси (5K+) | | | |
Маркос Ортис | | Маркос Ортис (5K+) | | | |
Жюльен Хуро | | Жюльен Hurault (5K+) | | | |
Алекс Фриберг | Алекс аналитик (100K+) | Алекс Фриберг (100K+) | | | @alex_the_analyst (10k+) |
Марк Ламберти | | Марк Ламберти (50K+) | | | |
Чип Хайен | | Чип Хайен (250K+) | | | |
Алекс Мерсед | Данные Алекса Мерсед | Алекс Мерсед (30K+) | @amdatalakehouse | @alexmercedcoder | |
Джон Кутай | Джон Кутай | Джон Кутай (5K+) | @Johnkutay | | |
Лакшми Сонтенэм | | Lakshmi Sontenam (9,5K+) | | | |
Хассаан Акбар | | Хассаан Акбар (5K+) | | | |
Сэмюэль Фохт | Основы питона (10K+) | | | | |
Константин Лунгу | | Константин Лунгу (10K+) | | | |
Ijaz ali | | Ijaz ali (24k+) | | | |
Субханкар | | Субханкар (5K+) | | | |
Анкур Ранджан | Большие данные показывают (100K+) | Анкур Ранджан (48K+) | | | |
Ленни | | Ленни А (6K+) | | | |
Мехди Оуазза | Mehdio DataTV (3K+) | Мехди Оуазза (20K+) | mehd_io | | @mehdio_datatv |
Ивертивность | Истоверность (67K+) | Дурга Гадираджу (48K+) | | | |
Отличные подкасты
- Инженерная инженерия показывает
- Подкаст по технике данных
- Дататопики
- Сторонняя сторона данных
- DataWare
- Подкаст Data Data Coffee Break
- DataStack Show
- Intricity101 Data Sharks подкаст
- Тренировка, чтобы детали с Марком Риттманом
- Analytics Power Hour
- Каталог и коктейли
- DataTalks
- Заваривание данных с помощью данных DataBricks
- Подкаст облака данных от снежинки
- Что нового в данных
- Открыть || Источник || Данные по DataStax
- Потоковое звук с помощью Confluent
- Ученый по данным показывает
- Mlops.community
- Данные в понедельник в чате данных
- Начальник данных
Отличный список из более чем 20 информационных бюллетеней
TOP должен следить за информационными бюллетенями для разработки данных:
- Dataengineer.io Информационный бюллетень
- Джо Рейс
- Начать инженерию данных
- Техническое инженером данных еженедельно
Глоссарии:
- Данное хранилище
- Airbyte Data Glossary
- Data Engineering Wiki от Reddit
- Второй глоссарий
- Глоссарий Databricks
- Атмосферный глоссарий
- Глоссарий инженерии данных от Dagster
Дизайн -шаблоны
- Совокупный дизайн таблицы
- Микробатч дедупликация
- Маленькая книга трубопроводов
- Платформа разработчика данных
Курсы / академии
- DataExpert.io Course Используйте код Справочник10 для скидки!
- LearnDataEngineering.com
- Академия технического фрилансера Используйте код ZWTech для скидки!
- IBM Data Engineering для всех
- Qwiklabs
- DataCamp
- Курсы Udemy от Shruti Mantri
- Скала JVM преподает Spark (в Scala), Flink и другие
- Разработка данных ZoomCamp от DataTalksClub
- Эффективная обработка данных в Spark
- Прозрачный
- DataTeams - Платформа найма данных (Data Engingeer
- Курсы Udemy от Даниэля Бланко
Курсы сертификатов
- Google Cloud Certified - профессиональный инженер данных
- DataBricks - сертифицированный заместитель разработчика Apache Spark
- DataBricks - Associate Инженер данных
- DataBricks - Professional
- Экзамен DP-203: Техническое разработка данных на Microsoft Azure
- Microsoft Fabric Analytics Ingener Associate
- Сертифицированный инженер данных AWS - Ассоциированный