19 курсов по Data Engineer доступных для прохождения в 2024 году

Профессия Data Engineer становится все более востребованной в контексте растущей зависимости компаний от данных. Курсы по Data Engineering предоставляют обширные знания и практические навыки, необходимые для работы с данными, их обработки, хранения и трансформации в информацию, полезную для бизнеса.

Data Engineering охватывает широкий спектр задач, начиная от сбора данных из различных источников и их чистки до разработки систем хранения и обработки больших объемов информации. Курсы в этой области обучают работе с базами данных, инструментами обработки данных и языками программирования, необходимыми для создания эффективных и масштабируемых платформ обработки информации.

С увеличением количества данных, которые генерируются и используются компаниями, роль Data Engineer становится критической для обеспечения эффективного управления и анализа этой информации. Data Engineers создают инфраструктуру, необходимую для работы с данными, что является основой для принятия бизнес-решений, разработки продуктов и оптимизации процессов.

Профессия Data Engineer предоставляет множество возможностей для карьерного роста и развития. Специалисты в этой области востребованы в различных секторах: от технологических компаний до финансовых учреждений и медицинской индустрии. Учитывая постоянный рост количества данных и их значение для бизнеса, Data Engineering остается перспективной профессией, привлекательной для тех, кто стремится работать в области анализа и обработки данных.

Курс «Профессия Data Engineer» — Skillbox
  • Длительность 18 месяцев
  • Проекты на основе реальных задач
  • Трудоустройство во время обучения
  • Уровень Junior после года обучения.

Дата-инженер собирает информацию, выстраивает инфраструктуру для её хранения и готовит данные для использования другими специалистами.

Задача специалиста — проанализировать сырые данные, отобрать полезные, создать экспериментальные модели и отдать их дата-сайентисту для дальнейшего изучения.

Кому подойдёт этот курс:

  • Новичкам
    С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения.
  • Программистам
    Подтянете математику и статистику, разовьёте аналитическое и алгоритмическое мышление. Получите опыт работы с моделями машинного обучения. Пройдёте процесс от сбора данных до деплоя модели.
  • Начинающим аналитикам
    Научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать код на Python и превращать сырые данные в полезную информацию для компании. Сможете работать быстрее и претендовать на Middle-уровень.

Чему вы научитесь:

  1. Использовать инструменты анализа
    Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark.
  2. Обрабатывать данные
    Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные.
  3. Тестировать код
    Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки.
  4. Взаимодействовать с заказчиком
    Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику.
  5. Разворачивать Data Science проект
    Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта.
  6. Работать в команде
    Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.

Программа

Вас ждут онлайн-лекции и практические задания на основе реальных кейсов.
34 модуля

Базовый уровень

  1. Введение в Data Science
  • Познакомитесь с основными направлениями Data Science. Узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
  • Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
  1. Основы математики для Data Science
    Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и векторы. Научитесь работать с математическими сущностями в Python-библиотеке SymPy.
  2. Основы статистики и теории вероятностей
    Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.

Data Engineer Junior

  1. Вводный блок
    Узнаете, чем занимается Data Engineer, какую роль играет в Data Science проекте и какие у него пути карьерного развития. Поймёте, как построен курс и какие темы вы будете изучать.
  2. SQL
  • Научитесь манипулировать данными в существующих таблицах, выполнять операции вставки, очистки и обновления данных. Сможете сохранять данные из БД в различные форматы.
  • Познакомитесь с оконными функциями и основами подготовки витрин данных, использующих SQL. Научитесь обеспечивать корректную вставку информации в режиме транзакции. Сможете читать и понимать лог транзакций.
  • Узнаете, что такое индексы и архитектура индексов, где они применяются. Изучите методы ускорения запросов.
  1. LVL 2
    Рассмотрите типы данных, возможности их преобразования и принцип совместной работы Python и SQL — получение данных из БД, работа с данными и выполнение запросов. Изучите основные понятия схем данных JSON и XML. Сможете настраивать отладку приложений, писать тесты, обезличивать и шифровать данные.
  2. Библиотеки для Python
    Узнаете, что такое библиотеки для работы с графиками, обучение с учителем, визуализация метрик и источники датасетов. Научитесь использовать Python и библиотеки для работы с данными. Сможете продолжить изучение Pandas.
  3. Airflow
    Рассмотрите ключевые понятия и практики по работе с Airflow. Изучите архитектуру и основы взаимодействия от UI до CLI. Построите свой первый data pipeline.
  4. Основы Spark
  • Освоите Spark: узнаете, какими ресурсами вычислений он оперирует, как хранит данные и работает с памятью и диском. Развернёте свой первый локальный стенд.
  • Изучите основы RDD: базовые концепции, работу с источниками, actions. Научитесь работать с Dataframe API. Изучите вопросы производительности и оптимизации при использовании Dataframe, источники и типы данных, работу с валидными/невалидными данными, обработку ошибок, UDF, взаимодействие с Python и SQL.
  1. Основы алгоритмов Machine Learning
    Разберёте основные виды моделей машинного обучения, ключевые термины и определения. Изучите алгоритмы регрессии и алгоритмы кластеризации.
  2. Deployment
  • Изучите основные этапы подготовки модели к деплою, подходы к построению API и способы обработки ошибок и отладки приложений. Сможете устранять проблемы при деплое и освоите основные инструменты swagger.
  • Познакомитесь с ключевыми процессами bash: написанием скриптов, работой с переменными и текстовыми редакторами sed и awk.

Data Engineer Advanced

  1. Продвинутый уровень
    Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.

Бонусные курсы

  1. Карьера разработчика: трудоустройство и развитие
    Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям.
  2. Система контроля версий Git
    Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git.
  3. Английский для IT-специалистов
    Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.

Дипломный проект

  1. Дашборды на основе данных источника
    Вы объедините и обработаете данные из различных источников: истории транзакций от партнёров, текстовых логов, выгрузки справочников по API и других. На основе этих данных построите интерактивный отчёт.
Стоимость: Рассрочка на 31 месяц - 4 879 ₽ / мес
Подробнее о курсе →
Курс «Профессия Data Engineer» — Skillbox
  • Трудоустройство через 9 месяцев
  • Авторы курса – эксперты из Сбера, Visa, Wildberries, Luxoft, PropellerAds
  • ★ 4,6 из 5 – рейтинг курса на основе 14 267 оценок
  • 9 проектов для портфолио
  • Обновили курс в июне 2022 года.

Дата-инженер — специалист, который работает с большими данными (big data). Он организует сбор, очистку и загрузку данных в базы, создаёт инфраструктуру для хранения, чтобы дата-аналитики могли найти в них полезные инсайты для бизнеса.

Кому подойдёт этот курс:

  • Новичкам
    С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения.
  • Программистам
    Подтянете знание SQL для работы с базами данных. Пройдёте весь путь дата-инженера от сбора сырых данных до деплоя модели. Опыт в программировании поможет быстро разобраться в новой профессии и сменить сферу.
  • Начинающим аналитикам
    Изучите все этапы работы с данными. Научитесь собирать информацию из разных источников, выстраивать архитектуру для её хранения и визуализировать отчёты. Сможете самостоятельно подготовить данные для последующего анализа.

Чему вы научитесь?

  • Использовать инструменты анализа
    Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark.
  • Обрабатывать данные
    Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные.
  • Тестировать код
    Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки.
  • Взаимодействовать с заказчиком
    Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику.
  • Разворачивать Data Science проект
    Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта.
  • Работать в команде
    Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.

Содержание курсов:

Вас ждут тематические модули и практика на основе реальных кейсов.
80+ практических работ, 3 итоговых проекта

  1. Первый уровень: базовая подготовка
    Среднее время прохождения — 5 месяцев.
  • Введение в Data Science
  1. Второй уровень: введение в дата-инженерию и трудоустройство
    Среднее время прохождения — 4 месяца. В процессе вам предстоит решить 6 реальных кейсов из практики дата-инженера и выполнить итоговый проект.
  • Data Engineer Junior
  1. ✦ Трудоустройство с помощью Центра карьеры
  • Карьерный консультант поможет подготовиться к собеседованию в компании-партнёре. Разберёте частые вопросы и научитесь меньше переживать на интервью.
  • Напишете сопроводительное письмо и грамотно оформите резюме.
  • Будете готовы пройти собеседование — карьерный консультант организует встречу с работодателем.
  • На интервью презентуете проекты, над которыми вы работали на курсе, а знания и навыки пригодятся для выполнения тестовых задач.
  1. Продвинутый уровень: погружение в профессию
    Среднее время прохождения — 3 месяца
  • Data Engineer advanced
  1. Дополнительные курсы
  • Основы математики для Data Science
  • Основы статистики и теории вероятностей
  • Основы статистики и теории вероятностей. Advanced
  • Карьера разработчика: трудоустройство и развитие
  • Система контроля версий Git
  • Английский для IT-специалистов.
Стоимость: Рассрочка на 31 месяц - 4 879 ₽ / мес
Подробнее о курсе →
Курс «Data Engineering» — GeekBrains

Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.

После курса вы сможете работать по специальностям:

  • Data Engineer
  • Инженер дата-центра
  • DWH-аналитик
  • Инженер пайплайнов данных для машинного обучения (ML Engineer)
  • А также владеть DevOps компетенциями.

Кому подойдёт курс:

  • Всем, кому интересно работать с данными.
    Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных.
  • Начинающим аналитикам и разработчикам.
    У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень.
  • Практикующим IT-специалистам.
    Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.

Программа курса:

Подготовительный блок
Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.

  • Базовый курс

I четверть. Сбор и хранение данных
Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.

  • Основы реляционных баз данных. MySQL
  • Основы Python
  • Методы сбора и обработки данных из интернета
  • Проект: Разработка собственного парсера

II четверть. Построение хранилищ данных для систем аналитики
Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.

  • Построение хранилища данных и основы ETL-процессов
  • Технологии OLAP + BI
  • Введение в NoSQL баз данных. Tarantool
  • Проект: Хранилище для BI-системы

III четверть. Распределенные базы данных
В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.

  • Big Data. Экосистема Hadoop
  • Big Data. Фреймворк Apache Spark
  • Настройка потоков данных. Apache Airflow
  • Проект: Полноценный ETL-пайплайн с использованием инструментов работы с большими данными.

IV четверть. Real-time обработка данных и инфраструктура
В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.

  • Потоковая обработка данных
  • Микросервисная архитектура и контейнеризация
  • Проект: Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения

Курсы вне четверти

Предметы с индивидуальным выбором даты старта
Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.

  • Подготовка данных для ML Applications
  • Рабочая станция.

Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю.

Стоимость: нет информации
Подробнее о курсе →
Курс «Факультет Data Engineering» — GeekBrains

Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.

Дата-инженеры помогают аналитикам и дата саентистам своевременно получать качественные данные, на основании которых принимаются взвешенные бизнес-решения и создаются конкурентоспособные продукты с применением машинного обучения, аналитических систем, корпоративные хранилища.

После курса вы сможете работать по специальностям:

  • Data Engineer
  • Инженер дата-центра
  • DWH-аналитик
  • Инженер пайплайнов данных для машинного обучения (ML Engineer)

А также владеть DevOps компетенциями.

 

Кому подойдёт курс

  1. Всем, кому интересно работать с данными.

Вы научитесь обрабатывать самые разные источники и форматы данных, освоите обработку больших массивов данных (BigData) на распределенных системах, максимизируйте пользу, извлекаемую из данных.

  1. Начинающим аналитикам и разработчикам.

У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами. Прокачайте свои навыки для выхода на новый уровень.

  1. Практикующим IT-специалистам.

Рассмотрим знакомые темы с новых углов, приумножим имеющиеся знания, подскажем, как перейти в востребованное направление и зарабатывать больше.

 

Программа обучения

Научитесь собирать и обрабатывать данные, проектировать хранилища и витрины, работать с инфраструктурой и с современными фреймворками обработки данных.

141 час обучающего контента

279 часов практики

2-3 вебинара в неделю

 

Подготовительный блок

Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.

Курсы

Git. Базовый курс

  • Введение в Git
  • Установка и настройка Git
  • Основные команды терминала
  • Работа с репозиториями в Git
  • Управление файлами репозитория
  • История изменений
  • Работа с ветками репозитория
  • Публикация репозитория
  • Слияния веток
  • Управление версиями
  • Создание pull-request
  • Сложные операции
  • Работа с Fork-репозиториями

13 видео-уроков
2 часа обучающего контента

 

I четверть

Сбор и хранение данных

Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.

Курсы

Основы реляционных баз данных. MySQL

  • Вебинар. Установка окружения. DDL-команды
  • Видеоурок. Управление базами данных. Язык запросов SQL
  • Вебинар. Введение в проектирование баз данных
  • Вебинар. CRUD-операции
  • Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
  • Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
  • Видеоурок. Сложные запросы
  • Вебинар. Сложные запросы
  • Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
  • Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
  • Видеоурок. Оптимизация запросов. NoSQL
  • Вебинар. Оптимизация запросов

1 месяц — 12 уроков
18 часов контента, 36 часов практики

 

Основы Python

  • Знакомство с Python
  • Некоторые встроенные типы и операции с ними
  • Функции. Словари
  • Функции. Словари
  • Генераторы и comprehensions. Множества
  • Работа с файлами
  • Работа с файловой системой. Исключения в Python
  • Регулярные выражения и декораторы в Python
  • Объектно-ориентированное программирование (ООП). Введение
  • Объектно-ориентированное программирование (ООП). Продвинутый уровень
  • Объектно-ориентированное программирование (ООП). Полезные дополнения

1 месяц — 11 уроков
17 часов контента, 34 часа практики

 

Методы сбора и обработки данных из интернета

  • Основы клиент-серверного взаимодействия. Парсинг API
  • Парсинг HTML. Beautiful Soup, MongoDB
  • Системы управления базами данных MongoDB и SQLite в Python
  • Парсинг HTML. XPath
  • Фреймворк Scrapy
  • Scrapy. Парсинг фото и файлов
  • Selenium в Python
  • Работа с данными

1 месяц — 8 уроков
12 часов контента, 24 часа практики

Проект

Разработка собственного парсера

 

II четверть

Построение хранилищ данных для систем аналитики

Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.

Курсы

Построение хранилища данных и основы ETL-процессов

  • Введение
  • Архитектура хранилищ
  • Проектирование хранилища, часть 1:
  • Проектирование хранилища, часть 2:
  • Создание ETL-процесса, часть 1:
  • Создание ETL-процесса, часть 2:
  • Управление качеством данных
  • Курсовой проект

1 месяц — 8 уроков
12 часов контента, 24 часа практики

 

Технологии OLAP + BI

  • Почему OLAP. Готовим ETL и DWH
  • Многомерное хранилище. Работа с измерениями
  • Создание мер. Процессинг и его оптимизация
  • Работа в MDX. Автопроцессинг
  • Подключение BI-системы

1 месяц — 4 урока
13 часов контента, 27 часов практики

 

Введение в NoSQL баз данных. Tarantool

  • Подходы к организации NoSQL данных
  • Redis
  • MongoDB. Часть 1
  • MongoDB. Часть 2
  • MongoDB. Часть 3
  • Tarantool. Часть 1
  • Tarantool. Часть 2

1 месяц — 7 уроков
14 часов контента, 12 часов практики

Проект

Хранилище для BI-системы

III четверть

Распределенные базы данных

В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.

Курсы

Big Data. Экосистема Hadoop

  • Введение в Hadoop
  • HDFS
  • YARN, MR
  • Hive, HUE
  • Форматы хранения
  • ETL
  • NoSQL
  • DWH

1 месяц — 8 уроков
12 часов контента, 24 часа практики

 

Big Data. Фреймворк Apache Spark

  • Архитектура Spark. Принципы исполнения запросов. Сохранение и чтение данных
  • Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
  • Типы данных в Spark. Коллекции как объекты DataFrame. User-defined Functions
  • Машинное обучение на PySpark на примере линейной регрессии

1 месяц — 4 урока
6 часов контента, 12 часов практики

 

Настройка потоков данных. Apache Airflow

  • Планирование задач. Введение Apache AirFlow
  • Установка Airflow. Создание и основные параметры DAG
  • Разработка потоков данных
  • Airflow в production. Примеры реальных задач

1 месяц — 4 урока
8 часов контента, 18 часов практики

Проект

Полноценный ETL-пайплайн с использованием инструментов работы с большими данными

IV четверть

Real-time обработка данных и инфраструктура

В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.

Курсы

Потоковая обработка данных

  • Архитектура Kafka, Kafka Workflow
  • Kafka Producer и Kafka Consumer
  • Kafka Broadcasting and Groups
  • Kafka Stream
  • Processor API
  • Динамические запросы в Apache Kafka

1 месяц — 8 уроков
9 часов контента, 18 часов практики

 

Микросервисная архитектура и контейнеризация

  • Микросервисы и контейнеры
  • Docker
  • Введение в Kubernetes
  • Хранение данных и ресурсы
  • Сетевые абстракции Kubernetes
  • Устройство кластера
  • Продвинутые абстракции
  • Деплой тестового приложения в кластер, CI/CD

1 месяц — 8 уроков
12 часов контента, 24 часов практики

Проект

Потоковый сервис для оценки кредитоспособности клиентов банка с использованием машинного обучения

 

Курсы вне четверти

Предметы с индивидуальным выбором даты старта

Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.

Курсы

Подготовка данных для ML Applications

  • Введение в машинное обучение
  • Построение ML-модели, часть 1:
  • Построение ML-модели, часть 2:
  • Подготовка данных для разных задач

1 месяц – 4 урока
6 часов контента, 12 часов практики

 

Linux. Рабочая станция

  • Введение. Установка ОС
  • Настройка и знакомство с интерфейсом командной строки
  • Пользователи. Управление пользователями и группами
  • Загрузка ОС и процессы
  • Устройство файловой системы Linux. Понятия файла и каталога
  • Введение в скрипты Bash. Планировщики задач crontab и at
  • Управление пакетами и репозиториями. Основы сетевой безопасности
  • Введение в Docker

1 месяц — 8 уроков
12 часов контента, 24 часа практики

 

Освойте современные технологии и компетенции

  • Data Engineering
  • Python
  • Jupyter
  • SQL
  • DDL
  • NoSQL
  • Linux
  • CLI
  • HTML
  • HTTP
  • REST API
  • Hadoop
  • Map Reduce
  • Hive
  • HBase
  • Hue
  • Apache Spark
  • PySpark
  • Spark Streaming
  • Kafka
  • Airflow
  • MongoDB
  • Cassandra
  • HDFS
  • RDBMS
  • DevOps
  • Gitlab
  • CI/CD
  • Docker
  • Kubernetes
  • Machine Learning

 

  • Разработка, поддержка и оптимизация пайплайнов обработки данных и машинного обучения на Python и Spark
  • Проработка архитектуры разрабатываемых решений
  • Опыт проектирования аналитических систем хранения и обработки больших данных
  • Знание принципов работы БД (SQL/noSQL) и методологий моделирования
  • Опыт работы с Airflow и другими инструментами для запуска регулярных задач
  • Опыт с Devops (Docker, Kubernetes) инструментами
  • Понимание принципов машинного обучения и подготовки данных для ML-приложений
  • Опыт работы с ОС Linux
  • Сбор процессов очистки и валидации данных
  • Опыт работы с ETL-инструментами и сервисами
  • Опыт работы с пакетной и потоковой выгрузкой данных в аналитическое хранилище
  • Разработка витрин данных для бизнес-пользователей аналитики
  • Опыт работы с Hadoop кластером и HDFS, мониторинг своих приложений

 

Вы получите диплом о профессиональной переподготовке

Вы получаете электронный сертификат и диплом о профессиональной переподготовке, их можно приложить к портфолио и показать работодателю. Обучение проводим на основании гослицензии № 040485.

Отзывы на сайте.

Стоимость: нет информации
Подробнее о курсе →
Курс «Дата-инженер с нуля до middle» — Нетология

Обучение на курсе поможет вам:

  • Перейти в профессию с высоким окладом на низкоконкурентном рынке
  • Освоить ключевые технологии и опередить запрос рынка
  • Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных.

Кому будет полезен этот курс:

  • Системным и сетевым администраторам
    Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег
  • Backend и Fullstack-разработчикам
    Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики
  • Новичкам, желающим войти в сферу Data Science
    Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.

Чему вы научитесь:

  1. Объяснять архитектуру и структуру базы данных
    Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift
  2. Создавать процессы обработки данных
    Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
  3. Работать с основными инструментами обработки больших данных
    Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры
  4. Обрабатывать события в режиме реального времени
    Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
  5. Разовьёте навык data literacy
    Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации
  6. Строить работающий пайплайн в облачной среде
    И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности.

Программа курса:

  1. SQL и получение данных
  • Основы баз данных
  • Работа с базами данных
  • Основы SQL
  • Продвинутый SQL
  • Углубление в SQL
  • Работа с PostgreSQL
  • Работа с MongoDB.
  1. Data Warehouse
    Научим работать с классическим хранилищем данных.
  2. Business Intelligence решения и многомерная модель данных
  • BI как сердце аналитики
  • Многомерные модели
  • Real-time отчётность
  • Современные подходы.
  1. Python
  • Основы Python
  • Введение в анализ данных на Python
  • Статистика в Python
  • Предобработка данных
  • Feature Selection.
  1. Data Lake & Hadoop
    Познакомим с основным инструментом обработки больших данных.
  2. Продвинутые методы работы с данными
  • Apache Spark
  • Работа со Spark
  • Spark SQL
  • Продвинутый Spark
  • Airflow
  • Работа с Airflow
  • Продвинутый Airflow
  • Dbt как инструмент ETL.
  1. Работа с потоковыми данными
    Научим работать с потоковыми данными.
  2. Работа с данными в облаке
  • Google Cloud Platform — хранение данных
  • Spark в GCP
  • Managed ETL в GCP
  • Обработка real-time данных в GCP
  • Поиск инсайтов в данных при помощи ML
  • Другие облачные провайдеры.
  1. Введение в DS & ML
  • Введение в машинное обучение
  • Задача классификации
  • Задача кластеризации
  • Ансамблевые методы решения задачи классификации
  • Feature engineering
  • Нейронные сети.
  1. MLOps
  • Зачем нужен DevOps
  • Docker и микросервисная архитектура
  • K8S
  • Орекстраторы
  • CI/CD
  • Мониторинг
  • Инструменты DevOps для обучения ML-моделей
  • Deploy ML-моделей.
  1. Дипломный проект
    Разработка и документирование ETL-процессов заливки данных в хранилище.
Стоимость: 120 000 ₽ или рассрочка на 24 месяца - 5 000 ₽ / мес
Подробнее о курсе →
Курс «Дата-инженер с нуля до middle» — Нетология
  • Научим автоматизировать работу с данными, настраивать мониторинги, создавать конвейеры обработки и схемы хранения данных
  • Сможете претендовать на позицию инженера данных, ETL-эксперта или MLOps уровня middle
  • Формат обучения - Онлайн
  • Уровень - С нуля
  • Документ - Диплом о профессиональной переподготовке

 

Обучение на курсе поможет вам

  • Перейти в профессию с высоким окладом на низкоконкурентном рынке

Окажетесь одним из первых в профессии, пока все учатся на data scientists

  • Освоить ключевые технологии и опередить запрос рынка

Станете востребованным специалистом сразу после обучения и не растеряете накопленные знания и навыки

  • Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных

Получите знания в концентрированном формате и с обратной связью от экспертов

 

А ещё вы получите

  • Больше 10 кейсов в портфолио

Выполните 80 домашних работ с фидбеком эксперта, а также онлайн-лабораторные и тесты

  • Доступ в профессиональные сообщества

Вас ждут полезные знакомства и обмен опытом с единомышленниками

  • Помощь в трудоустройстве

Поможем составить резюме, подготовиться к собеседованию, проконсультируем по релокации

 

Главный навык инженеров данных – создавать условия для хранения и организации полезных данных.

 

Кому будет полезен этот курс

  • Системным и сетевым администраторам

Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег.

  • Backend или Fullstack-разработчикам

Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики. 

  • Новичкам, желающим войти в сферу Data Science

Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.

 

Чему вы научитесь

  • Объяснять архитектуру и структуру базы данных

Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift

  • Создавать процессы обработки данных

Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах

  • Работать с основными инструментами обработки больших данных

Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры

  • Обрабатывать события в режиме реального времени

Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения

  • Разовьёте навык data literacy

Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации

  • Строить работающий пайплайн в облачной среде

И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности

 

Структура программы

Курс состоит из трёх больших модулей

Часть 1. Хороший аналитик

Программа построена от простого к сложному. В первом модуле вы научитесь пользоваться запросами SQL и работать с классическим хранилищем данных. Узнаете, как спроектировать аналитическую базу данных для ваших нужд, создадите свой первый OLAP-куб и научитесь выбирать и подключать Business Intelligence решения.

Работа студентки Анастасии Орел, ETL-пайплайн: посмотреть на GitHub.

 

Часть 2. Data Engineer

Получите базовые навыки по работе с Python. Установите и запустите свой первый hadoop. Создадите витрины данных. Освоите продвинутые методы работы с данными. Выполните обработку данных при помощи Spark. Построите конвейер обработки данных. Научитесь работать с базами данных для хранения и обработки потоковых данных. Создадите облачную базу данных и запустите Pipeline в облаке.

Работа студента Владимира Герингера после прохождения модуля по Python: посмотреть на GitHub.

 

Часть 3. ML-engineer

В этом модуле вы познакомитесь с моделями машинного обучения, построите свой первый классификатор и регрессию и обучите нейронную сеть. Узнаете, что такое CI/CD, запустите свой первый сервис в кластере и изучите подходы к масштабируемости ML-модели.

 

Программа курса

SQL и получение данных

  • 7 часов теории
  • 11 часов практики
  • Основы баз данных
  • Работа с базами данных
  • Основы SQL
  • Углубление в SQL
  • Работа с PostgreSQL
  • Работа с MongoDB

Data Warehouse

Научим работать с классическим хранилищем данных.

  • 9 часов теории
  • 15 часов практики
  • Введение в хранилища данных
  • Проектирование хранилища данных
  • Знакомство с Pentaho
  • Pentaho как инструмент ETL
  • ETL-pro
  • Общие рекомендации по разработки ETL
  • Смежные темы
  • DWH в облаке

Business Intelligence решения и многомерная модель данных

  • 6 часов теории
  • 6 часов практики
  • BI как сердце аналитики
  • Многомерные модели
  • Real-time отчётность
  • Современные подходы

Python

  • 11 часов теории
  • 19 часов практики
  • Основы Python
  • Введение в анализ данных на Python
  • Статистика в Python
  • Предобработка данных
  • Feature Selection

Data Lake & Hadoop

Познакомим с основным инструментом обработки больших данных.

  • 8 часов теории
  • 12 часов практики
  • Основы Hadoop
  • HDFS
  • MapReduce
  • MapReduce 2
  • Yarn
  • Pig & Hive
  • HBase & Cassandra
  • Кластер. Управление и администрирование

Продвинутые методы работы с данными

  • 8 часов теории
  • 8 часов практики
  • Apache Spark
  • Работа со Spark
  • Spark SQL
  • Продвинутый Spark
  • Airflow
  • Работа с Airflow
  • Продвинутый Airflow
  • Dbt как инструмент ETL

Работа с потоковыми данными

Научим работать с потоковыми данными.

  • 6 часов теории
  • 10 часов практики
  • ClickHouse
  • Kafka
  • Kafka Streams
  • Kafka Streams 2
  • Spark Streaming
  • Spark Streaming 2

Работа с данными в облаке

  • 6 часов теории
  • 10 часов практики
  • Google Cloud Platform — хранение данных
  • Spark в GCP
  • Managed ETL в GCP
  • Обработка real-time данных в GCP
  • Поиск инсайтов в данных при помощи ML
  • Другие облачные провайдеры

Введение в DS & ML

  • 6 часов теории
  • 10 часов практики
  • Введение в машинное обучение
  • Задача классификации
  • Задача кластеризации
  • Ансамблевые методы решения задачи классификации
  • Feature engineering
  • Нейронные сети

MLOps

  • 9 часов теории
  • 13 часов практики
  • Зачем нужен DevOps
  • Docker и микросервисная архитектура
  • K8S
  • Орекстраторы
  • CI/CD
  • Мониторинг
  • Инструменты DevOps для обучения ML-моделей
  • Deploy ML-моделей

 

Гарантия возврата денег

У вас есть три занятия, чтобы попробовать. Если передумаете учиться, скажите — и мы вернём вам всю сумму.

 

Ключевые навыки

  • Определение потребностей и требований бизнес-пользователей разных уровней
  • Работа с Tableau / Power BI как самыми популярными энтерпрайз-решениями для отчётности
  • Управление потоками данных любого размера
  • Выбор способа организации работы с большими данными — lambda architecture, kappa architecture и прочие
  • Создание витрин данных
  • Построение конвейеров обработки данных
  • Работа с data lakes в облаках и использование spark для обработки данных в них
  • Знание подходов к масштабируемости ML-моделей

 

Мы поможем с трудоустройством

Вас ждёт бесплатная программа трудоустройства Центра развития карьеры

Стоимость: 110 000 ₽ или рассрочка на 24 месяца - 4 583 ₽ / мес
Подробнее о курсе →
Курс «Data Engineering» — SkillFactory

Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Программа курса:

  1. Введение, практический linux
    Кто такой Data Engineer и зачем ему Linux?
  2. Современные хранилища данных
    Разнообразие баз данных и их особенности
  3. Экосистема Hadoop
    Что такое Hadoop, что он умеет и как им пользоваться
  4. Источники данных и работа с ними
    Файлы как источники данных, JDBC - структурированные данные, SQL для выгрузки данных
  5. Apache Spark и обработка данных
    Зачем нужен Apache Spark и как с ним работать
  6. Hadoop как хранилище данных
    Особенности и нюансы hdfs
  7. Apache Airflow для оркестрации конвейеров
    Настройка data pipelines
  8. Обзор облачных хранилищ
    Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure.

На курсе обучение не заканчивается:

  • Портфолио
    Готовый код и пайплайны для портфолио
  • Развитие карьеры и бизнеса
    Помощь с трудоустройством и стажировкой
    Тусовка специалистов и полезные знакомства.
  • Сертификат школы SkillFactory.

Стоимость: 32 400 ₽ или рассрочка на 12 месяцев
Подробнее о курсе →
Курс «Data Engineer» — NIX LTD

Этот курс для тех, у кого есть базовые знания баз данных, стремление изучить теорию и отработать ее на практике, а также желание перейти от слов к действию. Полученные скиллы станут веским аргументом для твоего дебюта в качестве Junior Data Engineer в NIX.

  • научиться всему, что знает и умеет Junior Data Engineer.
  • отпраздновать удачное окончание курсов и утвердиться в гордом титуле Junior Data Engineer, став членом большой команды NIX.
Стоимость: бесплатно
Подробнее о курсе →
Курс «Data Engineer» — НОЧУ ДПО «НЬЮПРОЛАБ»

Что входит в программу:

  • 6 лаб
    Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура. Также будет реальный проект с призовым фондом для продвинутых участников.
  • 10+ инструментов
    С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.
  • 21 занятие
    С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия устроены так, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывая подводные камни и best practices.

Для кого эта программа?

  • Дата инженеры
    У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.
  • Администраторы БД
    Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.
  • Менеджеры
    Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.

Чему вы научитесь:

В нашей программе есть три составляющих

  1. Установка
    Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.
  2. Настройка
    Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.
  3. Тюнинг
    Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.

Проект 1. Lambda-архитектура

  1. Деплой кластера в облаке и подключение Kafka
    Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.
  2. Batch-layer
    В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.
  3. Speed-layer
    Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.
  4. Service-layer
    Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.

Проект 2. Kappa-архитектура

  1. Speed-layer
    В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.
  2. Service-layer
    Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.
Стоимость: 80 000 ₽
Подробнее о курсе →
Курс «Data Engineer» — KARPOV.COURSES

Для кого:

  • Для аналитиков и дата-сайентистов
    Понимание инженерии данных даст представление о том, что происходит за пределами очистки и анализа датасетов, и позволит выйти на качественно новый уровень в аналитике.
  • Для разработчиков
    Программа поможет понять проблематику построения хранилища данных и покажет, как применить свой опыт разработки для решения задач в области инженерии данных.

Вы освоите:

  1. Проектирование DWH
    В этом модуле мы познакомимся с верхнеуровневой логической архитектурой DWH, разберём её основные компоненты, которые будут освещены далее в курсе, а также рассмотрим в теории и разберём на практике разные подходы к проектированию детального слоя.
  2. Реляционные и MPP СУБД
    В этом модуле познакомимся с реляционными и MPP базами данных, рассмотрим, как они работают изнутри, и узнаем, что и в каком случае лучше выбрать. Изучим архитектуру разнообразных решений на рынке. Попрактикуемся готовить PostgreSQL и MPP на примере GreenPlum.
  3. Big Data
    В этом модуле познакомимся с механизмами распределённого хранения и обработки данных на базе Hadoop стека. Разберём основные паттерны реализации распределённой обработки. Рассмотрим вопросы отказоустойчивости и восстановления после сбоев. Коснёмся потоковой обработки данных и уделим внимание методам и средствам мониторинга и профилирования spark заданий.
  4. ETL
    В этом модуле познакомимся с Apache Airflow, научимся его настраивать и строить с его помощью пайплайны.
  5. Хранилище в облаках
    В этом модуле познакомимся с облаками и инструментами для построения DWH и Data Lake, рассмотрим основы Kubernetes и получим практические навыки применения Kubernetes для работы с данными.
  6. Визуализация
    В этом модуле познакомимся с Tableau — одним из самых мощных BI-инструментов. Рассмотрим основные принципы работы с данными с точки зрения их визуализации.
  7. Big ML
    В этом блоке познакомимся с модулем Spark ML. Изучим подходы по обучению и применению моделей машинного обучения на больших данных.
  8. Управление моделями
    В этом модуле рассмотрим применяемые инструменты для помощи в построении ML пайпланов, версионирования датасетов и организации учета и трекинга ML моделей.
  9. Управление данными.
    В этом блоке познакомимся с подходами, применяемыми компаниями для управления данными. Разберем подходы для управления данными, происхождения данных и контроля качества данных.
Стоимость: 80 000 ₽
Подробнее о курсе →
Курс «Data Engineer» — ProductStar

Чему вы научитесь:

  • Работать SQL
    Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
  • Использовать Python и библиотеки анализа данных
    Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных
  • Оптимизировать системы работы с данными
    Научитесь создавать необходимые условия для хранения и организации полезных данных всей компании. Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
  • Объяснять архитектуру и структуру базы данных
    Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift.

Программа курса (60 лекций и воркшопов)

Блок 1: «Получение и подготовка данных: SQL»

  • Основы SQL
  • Обновление, добавление и удаление данных. Работа с таблицами
  • Представления и хранимые процедуры. Особенности обработки транзакций
  • Расширенные возможности SQL и основные ограничения
  • Фильтрация данных и вычисляемые поля - практика (SELECT, SUM, AVG, GROUP BY, ..)
  • Группировка данных, подзапросы и объединение таблиц - практика (INNER, LEFT, RIGHT, DISTINCT)
  • Обновление, добавление и удаление данных. Работа с таблицами (INSERT, UPDATE, DELETE, MERGE, FOREIGN KEY)
  • Работа с популярными программами (MySQL, SQL Server, Redash, Tableau)

Блок 2: «Python, мат.модели и обработка данных»

  • Python: настройка окружения, базовые структуры данных и основные операторы
  • Python: работа с файлами и форматированный вывод
  • Python: пространства имен и области видимости, классы и объекты
  • Python: инструменты функционального программирования
  • Python: стандартные и сторонние библиотеки Python для анализа данных
  • Основы линейной алгебры и теории множеств
  • Методы математической оптимизации
  • Основы описательной статистики
  • Статистический анализ данных

Блок 3: «Data Warehouse»

  • Проектирование хранилища данных
  • Организация работы с традиционными хранилищами данных
  • ETL / ELT-процессы: знакомство с Pentaho
  • ETL-pro
  • Заливка данных и создание OLAP-кубов
  • Data Governance
  • Изучение Snowflake, BigQuery: плюсы и минусы
  • Практика с Azure SQL DW
  • Практика работы с Redshift и выгрузки данных
  • DWH в облаке

Блок 4: «Business Intelligence-решения и аналитика больших данных»

  • Установка и настройка Power BI
  • Подключение к данным: загрузка стационарных файлов, загрузка файлов из папок
  • Очистка и преобразование данных: типы данных, фильтрация данных
  • Знакомство с инфраструктурой Tableau. Загрузка данных. Первый дашборд
  • Tableau Professional.
  • Подключение к базам данных SQL Основы работы с Tableau Server
  • Знакомство с Pentaho BI
  • Многомерные модели. Pentaho Analysis Services
  • Машинные методы для обработки данных
  • Культура сбора и источники данных
  • Предобработка и визуализация данных в pandas
  • Улучшение качества работы с данными
  • Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
  • Основы работы в Hadoop и MapReduce
  • Работа с облачными платформами: AWS, EMR, Azure
  • Продвинутые подходы в MapReduce
  • Организация команды для работы с данными. CRISP-DM

Блок 5: Дипломная работа и помощь с трудоустройством

  • Работа над дипломным проектом для портфолио
  • Подготовка резюме
  • Подготовка к собеседованию
  • Финальная защита и консультации.

Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.

Стоимость: 39 000 ₽
Подробнее о курсе →
Курс «Data Engineering» — robot_dreams

Вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними, научитесь строить ETL-системы и проектировать хранилища данных.

 

Пройдите курс DE, и вы сможете:

  • Хранить и обрабатывать огромные массивы данных.
  • Освоить инструменты Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce.
  • Строить собственные Data Platform, которые способны масштабироваться.
  • Овладеть профессией, актуальной через 5-10-15 лет.
  • Повысить свою квалификацию и уровень дохода.

 

Кому будет полезен курс

  1. Data Scientist/
    Data Analyst

Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.

  • Со знаниями курса вы можете претендовать на позицию архитектора.
  1. Software/SQL/
    ETL Developer

Вы усилите свои компетенции по работе с данными, научитесь самостоятельно строить системы хранения и обработки данных.

  • На курсе вы получите знания, необходимые для позиции инженера данных.
  1. Data Engineer
    (beginner)

Вы углубите знания в работе с данными, научитесь строить пайплайны, хранилища, обрабатывать и эффективнее анализировать данные.

  • Со знаниями курса вы можете претендовать на позицию архитектора.

 

Программа курса (занятий)

Введение в Data Engineering
Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.

Python для Data Engineering
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.

SQL для Data Engineering
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.

Аналитические базы данных
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).

Проектирование хранилищ данных
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.

Передача данных между системами. Часть 1
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.

Передача данных между системами. Часть 2
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.

Распределенные вычисления. Лекция
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.

Экосистема Hadoop для распределенной работы с файлами
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.

Распределенная файловая система (HDFS)
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.

Распределенные вычисления (MapReduce)
Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах. Изучите задачи, которые решаются с помощью MapReduce. Научитесь анализировать большие объемы данных с использованием MapReduce

Распределенные вычисления в оперативной памяти (Apache Spark)
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.

Работа со структурированными данными при помощи SparkSQL. Часть 1
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.

Работа со структурированными данными при помощи SparkSQL. Часть 2
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.

Оптимизация выполнения задач в Apache Spark
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.

Потоки данных в Apache Spark
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.

Подведение итогов
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.

Защита курсового проекта
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.

Стоимость: нет информации
Подробнее о курсе →
Курс «Data Quality Engineering» — EPAM Systems

Data Engineering – это работа с данными и Big Data: программирование сбора, хранения, обработки, поиска и визуализации.

Тренинг поможет Вам:

  • Изучить современные технологии обработки и анализа данных;
  • Научиться применять Python (включая пакеты Pandas, NumPy);
  • Освоить SQL как универсальный «язык доступа к данным»;
  • Приобрести опыт работы с Data Warehouses;
  • Изучить основы Linux для использования облачных сервисов;
  • Познакомиться с классической теорией тестирования ПО.

Для кого:

  • Для студентов 4-6 курсов технических специальностей, выпускников и молодых специалистов;
  • Для тех, кто хочет обучаться и развиваться в направлении Data Quality.
Стоимость: нет информации
Подробнее о курсе →
Курс «Data Engineering and Analytics» — DATALEARN

Список курсов:

  1. Getting start with Data Engineering and Analytics (DE - 101)
    ~10 недель, с одним вебинаром в неделю и с домашкой, от простого к сложному, что-то вроде моей карьеры за 10 недель.
  2. Getting Started with Machine Learning и Data Science (ML-101)
    Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справитесь со всеми модулями курса ML-101, то вы легко справитесь с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist
  3. Курс по поиску работы для аналитических специальностей в России и за рубежом (JH - 101)
  4. Getting started with SQL for beginners
    Практический видеокурс по работе с базами данных с использованием языка структурированных запросов SQL (Structured Query Language).
    Подойдет тем, кто слышал об SQL, но боялся попробовать
  5. Women in Data Community
    Наша цель - создать наиболее комфортную среду для девушек, которые интересуются карьерой в data. В дополнение к основным курсам, коммьюнити - платформа, где можно пообщаться с девушками из data, узнать про карьеры в data и задать любые интересующие вопросы.

Для кого подойдут эти курсы:

  • Аналитики
    Изучите инструменты и станете более востребованными специалистами
  • Маркетологи
    Сможете структуризировать данные, увеличить эффективность рекламных каналов
  • Руководители
    Сможете анализировать продажи в разных разрезах и в динамике
  • Предприниматели
    Построите систему аналитики и найдете точки роста для своей компании
  • Инженеры
    Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение
  • Фрилансеры
    Сможете предлагать дополнительные услуги вашим клиентам или работать на западные компании
  • Финансисты
    Загружать, анализировать данные, строить отчёты.
Стоимость: бесплатно
Подробнее о курсе →
Курс «Data Engineering» — SkillFactory

По итогам курса вы:

  • Выполните реальный проект из практики дата инженера
  • Автоматизируете процесс очистки и сбора данных


Научитесь строить пайплайны данных в реальном времени

В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer - это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.

Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.

Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

 

Курс из специализации Data Science

  • Python
  • Math&Stat
  • Machine Learning
  • Deep Learning
  • Data Engineering
  • Менеджмент

 

Программа курса

МОДУЛИ

1

Введение, практический linux

Кто такой Data Engineer и зачем ему Linux?

2

Современные хранилища данных

Разнообразие баз данных и их особенности

3

Экосистема Hadoop

Что такое Hadoop, что он умеет и как им пользоваться

4

Источники данных и работа с ними

Файлы как источники данных, JDBC - структурированные данные, SQL для выгрузки данных

5

Apache Spark и обработка данных

Зачем нужен Apache Spark и как с ним работать

6

Hadoop как хранилище данных

Особенности и нюансы hdfs

7

Apache Airflow для оркестрации конвейеров

Настройка data pipelines

8

Обзор облачных хранилищ

Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure

 

Преимущества курса

В рамках курса вас ждет сквозной проект - реальная задача дата инженера, на каждом новом этапе вы будете решать часть большой задачи и в финале автоматизируете весь процесс.

Курс основан на практике. Мы рассматриваем инструмент или технологию и сразу на практике ее отрабатываем.

Программа построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать инженеру данных.

В процессе обучения вам будет помогать преподаватель и команда кураторов, которые помогут разобраться с предметом и решат все технические и организационные вопросы.

Персональный сертификат о прохождении курса. По запросу предоставляется на английском языке.

Стоимость: 32 400 ₽ или рассрочка на 12 месяцев
Подробнее о курсе →
Курс «DATA ENGINEER 9.0» — НОЧУ ДПО «НЬЮПРОЛАБ»

За любым продуктом, сервисом — будь то рекомендательная система на сайте, рассылка персонализированных предложений, кампания по удержанию клиентов — стоят данные. От качества этих данных зависит и качество решений, ведь garbage in — garbage out. За доставку качественных данных из разных источников (например, сайт компании, CRM, соц. сети) отвечает data engineer. Работодатели не могут закрыть вакансии на этих специалистов по полгода.

Что входит в программу

6 лаб

Почти каждую неделю вам нужно будет решать лабораторную работу и суперачивку. Лабы объединены в 2 проекта: lambda-архитектура и kappa-архитектура. Также будет реальный проект с призовым фондом для продвинутых участников.

10+ инструментов

С частью инструментов вы сможете поработать глубоко: Kafka, HDFS, ClickHouse, Spark, Airflow. С частью сможете просто познакомиться на практике: ELK, Flink, Docker, Grafana, Kubernetes и др.

21 занятие

С трансляциями в прямом эфире и видеозаписями в личном кабинете. Занятия устроены так, что преподаватель рассказывает об устройстве того или иного инструмента, демонстрирует разные кейсы работы, показывая подводные камни и best practices.

 

Для кого эта программа?

-1-

Дата инженеры

У вас есть опыт работы с одними инструментами и хочется получить опыт работы с другими? Вы сможете это сделать, решая наши лабы и упражнения, задавая вопросы нашим преподавателям-практикам.

-2-

Администраторы БД

Вы умеете работать с классическими реляционными БД и хочется получить опыт работы с другими инструментами хранения данных? На программе вы сможете поработать с HDFS, ClickHouse, Kafka, ElasticSearch.

-3-

Менеджеры

Вы занимаетесь развитием продукта или подразделения? На программе вы получите понимание, какие инструменты можно использовать для каких задач, какие у них есть достоинства и недостатки.

 

Чему вы научитесь

В нашей программе есть три составляющих

Установка

Научитесь самостоятельно устанавливать все инструменты, используемые на программе, пользуясь нашими подробными мануалами.

Настройка

Научитесь подключать инструменты друг к другу, формируя пайплайны, получая baseline-решение.

Тюнинг

Научитесь улучшать быстродействие и отказоустойчивость как отдельных инструментов, так и пайплайнов целиком.

 

Проект 1. Lambda-архитектура

Лаба 0: подготовка

Деплой кластера в облаке и подключение Kafka

Перед стартом проекта вам нужно будет реализовать подготовительный этап — развертывание собственного кластера в облаке. После чего организовать сбор данных о посещении пользователей различных страниц сайта и их покупках.

Лаба 1 и суперачивка

Batch-layer

В этой лабе вам нужно будет организовать batch-layer в lambda-архитектуре. Вы получите данные из Kafka, положите их на HDFS. Используя Airflow, будете планово перекладывать предобработанные данные в ClickHouse.

Лаба 2 и суперачивка

Speed-layer

Используя Spark Streaming, вам нужно будет построить speed-layer, который будет обрабатывать данные в режиме реального времени, восполняя недостающую информацию в batch-layer.

Лаба 3 и суперачивка

Service-layer

Первый проект завершает тем, что вы подключаете один из BI-инструментов к обоим слоям — batch и speed — для выполнения аналитических запросов в отношении среднего чека и других метрик.

Проект 2. Kappa-архитектура

Лаба 4 и суперачивка

Speed-layer

В рамках этого проекта вам нужно будет построить модель машинного обучения, используя Spark ML, после чего использовать ее для прогнозирования пола и возрастной категории пользователей, заходящих на сайт.

Лаба 5 и суперачивка

Service-layer

Второй проект завершается тем, что вы подключаете BI-инструмент, который по запросу сможет выдавать нужные сегменты аудитории за всю историю существования без использования batch-layer.

 

Инфраструктура программы

То, с чем вы будете работать каждый день

Кластер

Наша программа — про построение пайплайнов, поэтому каждый участник поднимает свой собственный кластер на GCP, на котором может экспериментировать с инструментами, не мешая другим.

GitHub

Все презентации, jupyter-ноутбуки, лабы, мануалы мы выкладываем в закрытый репозиторий на GitHub. Этот инструмент стал стандартом работы в среде программистов и профессионалов в сфере данных.

Личный кабинет

В нем вы можете проверить правильность выполнения лаб, используя автоматические чекеры. Там же можно смотреть прямые трансляции и видеозаписи занятий.

Slack

Общение во время программы происходит в Slack — удобный мессенджер для команд. Там можно общаться с преподавателями, организаторами, друг с другом. Следить за апдейтами в GitHub и быть в курсе новостей.

 

Для учебы вам потребуются

Входные требования

Умение программировать на Python 3

Это основной язык программирования, используемый на программе. Хорошо, если вы уже будете знакомы с базовым синтаксисом, циклами, условными операторами, функциями, чтением и записью файлов. Он понадобится для работы со Spark и Airflow.

Базовые знания Linux

В командной строке Linux вы тоже будете много времени проводить, работая со своим кластером. Хорошо, если вы уже будете уметь перемещаться по директориям, создавать и редактировать файлы, заходить на удаленный сервер по ssh.

SQL

На программе вы будете использовать Apache Spark. Знание языка SQL может быть полезно для написания скриптов на SparkSQL. Помимо этого в нескольких лабах вам нужно будет писать небольшие SQL-запросы к ClickHouse.

Hadoop

На программе вы будете разворачивать свой Hadoop-кластер и работать с YARN, HDFS. Хорошо, если вы уже будете знакомы с этими инструментами и будете понимать для чего они нужны.

Стоимость: 75 000 руб.
Подробнее о курсе →
Курс «data engineering» — Data Learn

Getting Started with Analytics (Data) Engineering - курс про мою работу инженером данных и мой 10+ летний опыт создания аналитических решений в России, Европе, Канаде и США. Если бы я брал на работу инженера данных или BI инженера, я бы хотел, чтобы он обладал знаниями и компетенциями, которые мы затронем в курсе. Курс включает в себя базовые вещи, такие как Business Intelligence инструменты, базы данных, ETL инструменты, облачные вычисления и многое другое. Даже если у вас нету опыта с данными, то это вам не помешает. Первые несколько модулей будут посвящены основам аналитики и классическим задачам: Business Intelligence (отчетность, визуализация, хранилище данных, SQL, Excel, интеграция данных). Это будет достаточно для профессии BI разработчик, Аналитик и тп. Начиная с 5-6 модуля мы начнем углубляться непосредственно в работу Инженера Данных, опираясь на знания, полученные на начальных этапах.

Getting Started with Machine Learning and Data Science (ML-101) - курс от Анастасии Риццо о теории Машинного Обучения и Data Science, с понятной теорией и практическими кейсами из реальной жизни. Курс включает в себя 3 модуля: Первый модуль про теорию машинного Обучения и ДС; Второй модуль посвящен Регрессии (теория и практика); Третий модуль про Классификацию (тоже теория и 2 практических кейса). Курс позволяет вам примерить профессию Data Scientist на себя и особенно подойдет тем, кому страшно, но очень интересно начать изучать данную тематику.

Поиск работы для аналитических специальностей в России и за рубежом - курс от Анастасии Дробышевой. Анастасия профессиональный консультант по рынку труда и карьерному развитию. За 10 лет Анастасия провела более 2 000 карьерных консультаций, специализируется на IT/ digital, internet & e-commerce. Использует лучшие международные практики, полученные в работе с крупными американскими компаниями. В 2017 г. переехала из России в Словению, поэтому не понаслышке знает о поиске работы за границей. Курс включает в себя 5 модулей. Задача курса ー описать весь процесс поиска работы и дать вам инструменты для самостоятельного джобхантинга в любой стране.

 

Также мне хотелось бы выделить еще один элемент - Аналитическое Комьюнити для Женщин. Я вижу большой спрос на такого рода сообщества на западе и я подумал, что было бы классно иметь такое в русскоязычном сообществе для того, чтобы прекрасная половина могла изучать аналитику и технологии в своей комфортной зоне и со своей скоростью. Я бы хотел, чтобы нашлись заинтересованные девушки, кто будет развивать это направление, а я бы помогал с контентом (на данном этапе в этом направлении пока ничего не делается).

Стоимость: разная стоимость
Подробнее о курсе →
Курс «Data Engineering» — Coursera
  • IBM Data Engineering by IBM
  • Data Engineering Foundations by IBM
  • Data Engineering, Big Data, and Machine Learning on GCP by Google Cloud
  • Preparing for Google Cloud Certification: Cloud Data Engineer by Google Cloud
  • Data Warehousing for Business Intelligence by University of Colorado System
  • Introduction to Data Engineering by IBM
  • Data Science with Databricks for Data Analysts by Databricks
  • Big Data by University of California San Diego
  • Executive Data Science by Johns Hopkins University
  • Python Project for Data Engineering by IBM
  • Cloud Data Engineering by Duke University
  • Google Data Analytics by Google
  • IBM Full Stack Cloud Developer by IBM
  • Introduction to Designing Data Lakes on AWS by Amazon Web Services
  • Foundations: Data, Data, Everywhere by Google
  • Business English for Non-Native Speakers by The Hong Kong University of Science and Technology
  • Machine Learning Engineering for Production (MLOps) by DeepLearning.AI
  • Software Design and Architecture by University of Alberta
  • Preparing for Google Cloud Certification: Cloud Architect by Google Cloud
  • Hands-on Foundations for Data Science and Machine Learning with Google Cloud Labs by Google Cloud
Стоимость: разная стоимость
Подробнее о курсе →
Курс «Data Engineer» — Otus

Освойте лучшие практики работы с большими данными: Architecture, Data Lake, DWH, MLOps!

Что даст вам этот курс

  • Понимание ключевых способов интеграции, обработки, хранения больших данных
  • Умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
  • Практические навыки разработки дата-сервисов, витрин и приложений
  • Знание принципов организации мониторинга, оркестрации, тестирования

Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.

После обучения Data Engineering вы станете востребованным специалистом, который:

  • разворачивает, налаживает и оптимизирует инструменты обработки данных
  • адаптирует датасеты для дальнейшей работы и аналитики
  • создает сервисы, которые используют результаты обработки больших объемов данных
  • отвечает за архитектуру данных в компании

 

Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

Высокая практическая направленность:

В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

Целостная картина вызовов и задач современного бизнеса, и роли Инженера Данных в их решении

Востребованность у работодателей

39 работодателей уже готовы позвать на собеседование выпускников курса

 

Инженер данных - почему это актуально и интересно:

  • Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.
  • В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.
  • Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.

 

Необходимые знания

Необходимое:

  • Опыт разработки на Java/Python
  • Основы работы с БД:SQL, индексы, агрегирующие функции
  • Базовые знания ОС:работа с командной строкой, доступ по SSH

Будет плюсом:

  • Навыки работы с Docker
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика

 

Вступительное тестирование

Подготовительный курс

Курс рассчитан для программистов и администраторов, которые хотят освоить ОС Linux с нуля.

На курсе мы:

  • детально разберем основные команды в Linux и научимся работать в консоли
  • познакомимся с зомби, сиротами и демонами
  • выясним, что такое ядро операционной системы и системные вызовы
  • научимся работать со стандартными потоками ввода/вывода
  • разберем некоторые особенности файловой системы ext4

 

Программа обучения

В процессе обучения вы получите комплексные знания и навыки.

Модуль 1. Data Architecture

Тема 1. Инженер Данных. Задачи, навыки, инструменты, потребность на рынке

Тема 2. Архитектура аналитических приложений: базовые компоненты и принципы

Тема 3. On premises / Cloud solutions

Тема 4. Автоматизация пайплайнов и оркестрация – 1

Тема 5. Автоматизация пайплайнов и оркестрация – 2

Модуль 2. Data Lake

Тема 6. Распределенные файловые системы. HDFS / S3

Тема 7. SQL-доступ к Hadoop. Apache Hive / Presto

Тема 8. Форматы хранения данных и их особенности

Тема 9. Разбор ДЗ по 1 кейсу

Тема 10. Очереди сообщений. Обзор Kafka.

Тема 11. Выгрузка данных из внешних систем

Тема 12. Apache Spark – 1

Тема 13. Apache Spark – 2

Модуль 3. DWH

Тема 14. Аналитические СУБД. MPP-базы данных

Тема 15. Моделирование DWH – 1. Основы работы с dbt

Тема 16. Моделирование DWH – 2. Data Vault 2.0

Тема 17. DevOps практики в Аналитических приложениях. CI + CD

Тема 18. Разбор ДЗ по 2 кейсу

Тема 19. Data Quality. Управление качеством данных

Тема 20. Развертывание BI-решения

Тема 21. Мониторинг / Метаданные

Модуль 4. NoSQL/NewSQL

Тема 22. NoSQL Хранилища. Key-value

Тема 23. NoSQL Хранилища. Document-oriented

Тема 24. ELK

Тема 25. ClickHouse

Тема 26. Разбор ДЗ по 3 кейсу

Модуль 5. MLOps

Тема 27. Организация и Packaging кода

Тема 28. Docker и REST-архитектура

Тема 29. MLFlow + DVC

Тема 30. Деплоймент моделей

Тема 31. Разбор ДЗ по 4 кейсу

Тема 32. Разбор ДЗ по 5 кейсу

Модуль 6. Выпускной проект

Тема 33. Выбор темы и организация проектной работы

Тема 34. Консультация

Тема 35. Защита

 

После обучения вы

Заберете с собой:

  • основные и дополнительные материалы, и видеозаписи занятий;
  • образцы кода;
  • собственный проект, который можно будет показывать при трудоустройстве;
  • сертификат о прохождении обучения.

В результате обучения вы:

  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;
  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;
  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;
Стоимость: 90 000 ₽
Подробнее о курсе →

Перейти к курсу ↑