ML Pipelines в Одноклассниках

13:30 /Зал 2 / RU / Для практикующих инженеров

В рамках доклада мы рассмотрим основную архитектуру библиотеки машинного обучения Spark ML, а также особенности её использования для решения реальных задач с обработкой больших объёмов данных. Особое внимание уделим ряду ограничений, усложняющих применение библиотеки, и расскажем о том, какие расширения для стандартных элементов пришлось разработать, чтобы эти ограничения обойти и полноценно раскрыть потенциал массивного распределённого машинного обучения. Работу стандартной библиотеки и её расширений продемонстрируем на примере задачи ранжирования новостной ленты в социальной сети Одноклассники. Доклад будет полезен разработчикам, инженерам данных и аналитикам, использующим методы машинного обучения и платформы распределенной обработки информации.


Дмитрий Бугайченко

Дмитрий Бугайченко

Закончил Санкт-Петербургский Государственный Университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой. Анализ больших данных в Одноклассниках стал для Дмитрия уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. И этим шансом он с радостью воспользовался, придя туда пять лет назад.