Потоковая обработка данных в реальном времени с помощью Spark Structured Streaming(Гонта Виталий)

XI международная конференция разработчиков программного обеспечения

доклад

AI, ML, BigData, #2.3, Инженерный зал

20 апреля 11:30

о докладчике

Scala разработчик з опытом в BigData, High Load и DevOps.
Разработал два больших проекта в сфере IoT (тачки и самолёты) и два в сфере Digital Marketing.
Сейчас работаю на проекте Tinkoff Bank.

Потоковая обработка данных в реальном времени с помощью Spark Structured Streaming

Хочу поделиться опытом разработки приложений на Spark в контексте Data Engineering.
Тема, которую я представлю на докладе - это реальный проект, разработкой которого я занимался.
Пример будет состоять из чтения данных из Kafka, обработки с помощью Spark Structured Streaming (включая stateful трансформации) и записи результатов в HDFS.
Также расскажу нюансы по деплою проекта (Yarn, HDFS, Apache Oozie).
Примеры будут на понятном для большинства слушателей подмножестве языка Scala (без монадных трансформеров и прочей живности).

Аудитория слушателей доклада

Java / Scala / Python разработчики уровня Middle и выше

Вопрос спикеру

Опишите тему встречи