ML Pipelines в Одноклассниках
В рамках доклада мы рассмотрим основную архитектуру библиотеки машинного обучения Spark ML, а также особенности её использования для решения реальных задач с обработкой больших объёмов данных. Особое внимание уделим ряду ограничений, усложняющих применение библиотеки, и расскажем о том, какие расширения для стандартных элементов пришлось разработать, чтобы эти ограничения обойти и полноценно раскрыть потенциал массивного распределённого машинного обучения. Работу стандартной библиотеки и её расширений продемонстрируем на примере задачи ранжирования новостной ленты в социальной сети Одноклассники. Доклад будет полезен разработчикам, инженерам данных и аналитикам, использующим методы машинного обучения и платформы распределенной обработки информации.