RAPIDS: ускоряем Pandas и scikit-learn на GPU

Data Science
Air 5

Тезисы

Все мы знаем, что наш любимый Pandas исключительно однопоточный, а модели из scikit-learn часто учатся не очень быстро даже в несколько процессов. Поэтому в докладе я расскажу о проекте RAPIDS — наборе библиотек для анализа данных и построения предиктивных моделей с использованием NVIDIA GPU. В докладе я предложу подискутировать о том, что закон Мура больше не выполняется, рассмотрю принципы работы архитектуры CUDA. Разберу библиотеки cuDF и cuML, а также постараюсь предельно честно рассказать о том, ждать ли чуда от перехода на GPU и в каких случаях чудо неизбежно.

Аудитория и уровень

Data Scientists, data engineers, разработчики. Уровень подготовки любой.

Презентация (на Я.Диске)

Запись доклада

NVIDIA

Павел Клеменков

Окончил ВМК МГУ и аспирантуру там же. Занимаюсь машинным обучение и анализом данных 8 лет. Руководил отделом машинного обучения в Rambler Group, работал главным аналитиком данных в маркетинге Сбербанка. Сейчас Chief Data Scientist в команде Data Platform NVIDIA. Основатель и лидер сообщества Moscow Spark. Преподаю курс «Big Data & Data Engineering» в Ozon Masters.

Окончил ВМК МГУ и аспирантуру там же. Занимаюсь машинным обучение и анализом данных 8 лет. Руководил отделом машинного обучения в Rambler Group, работал главным аналитиком данных в маркетинге Сбербанка. Сейчас Chief Data Scientist в команде Data Platform NVIDIA. Основатель и лидер сообщества Moscow Spark. Преподаю курс «Big Data & Data Engineering» в Ozon Masters.