Сейчас можно найти много материалов, посвящённых работе с данными в Hadoop – от традиционных SQL-движков до машинного обучения и потоковой обработки. Но, когда успешно пройден этап прототипирования решения и заказчику показаны преимущества, которые можно получить за счёт обработки данных на Hadoop, на первый план выходит простые инфраструктурные задачи – как загружать данные в Hadoop на регулярной основе, как обеспечить разграничение доступа, что делать при сбоях и так далее.
В этом докладе остановимся на одной задаче – загрузка в Hadoop данных для последующего анализа.
Вадим Сурпин
Работает над направлением Big Data в Сбербанк-Технологии с момента его появления, с нуля создал отдел, занимающийся разработкой платформы Big Data Сбербанка.
Активно принимает участие в проектировании архитектуры решений. В сферу деятельности, помимо разработки, входит также направление Data Science, пилотирование инициатив на основе больших данных.