• 15 ноября 2018, четверг
  • Санкт-Петербург, Свердловская набережная, 44Д БЦ Лето, офис Wrike

Data Engineering и не только

Регистрация на событие закрыта

Извините, регистрация закрыта. Возможно, на событие уже зарегистрировалось слишком много человек, либо истек срок регистрации. Подробности Вы можете узнать у организаторов события.

Другие события организатора

339 дней назад
15 ноября 2018 c 18:30 до 22:00
Санкт-Петербург
Свердловская набережная, 44Д БЦ Лето, офис Wrike

Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.

Работаешь с данными, которые не помещаются в оперативную память? Приходится использовать распределенные вычисления? Поздравляем, ты Data Engineer. Для многих в IT этот термин звучит как просто еще один из баззвордов между Lean Analytics и Artificial Intelligence. Мы хотим поговорить о инженерах данных как об отдельной специальности, а не в рамках small talk на очередном Big Data Meet Up. 

Программа:


1. Александр Елисеев, Wrike – Data Engineering: как пройти путь от Data к Engineering 
 

Мы поговорим о подходах к обработке Clicksteam’а и о том, как менялось наше представление от аналитического к дата-инженерному, какие инженерные принципы мы нарушали, и как перестать их нарушать в Data Engineering’е. Я расскажу о проблемах, с которыми мы сталкивались, на примере ошибок в проектировании источников данных (от ETL с витринами данных до более сложной схемы), пайплайнов на примере AirFlow, ограничений наших технологий (ORC, Tableau, нехватки ресурсов, пайплайнов на Jenkins’е). Вы узнаете, как мы изменили свой подход к проектированию пайплайнов и обработке данных.


2. Виталий Худобахшов, JetBrains – Тестирование приложений в Apache Spark

Цена ошибки в приложениях, связанных с анализом данных, часто очень высока. Но при этом роль данных в сбоях по сравнению с кодом так же много выше, чем обычно. Как же минимизировать ошибки в приложениях, которые сложно тестировать и отлаживать? Как правильно писать код и тесты в таком случае, чтобы несколько часов дорогого времени машинного не прошли впустую? Именно об этом мне хочется немного поговорить​.


3. Сергей Исаев, DataFabric – Как можно управлять данными и сохранять знания с помощью семантических технологий.


Расскажу про:

  • сбор, преобразование и управления данными; 
  • графы знаний;
  • онтологическое моделирование предметной области;
  • связанные данные;
  • применение семантических технологий для построения интеллектуальных информационных систем;
  • чем «данные» отличаются от «знаний». 

 

 

Регистрация

Рекомендуемые события

Организуете события? Обратите внимание на TimePad!

Профессиональная билетная система, статистика продаж 24/7, выгрузка списков участников, встроенные инструменты продвижения, личный кабинет для самостоятельного управления и еще много чего интересного.

Узнать больше