«Кто владеет информацией — владеет миром!»
Это было верно вчера. А сегодня в мире столько разнообразных данных и различной информации, что самым ценным становится умение это всё анализировать.
Подготовка данных
Каждый Data Science-проект начинается с данных ==> предобработка: устранение дубликатов и противоречий, заполнение пропусков
Исследования
изучение данных статистическими методами: определение характеристик, проверка гипотез, выявление связи между признаками, оценка параметров. Визуализация данных
Построение модели и оценка ее качества
Используем модели классификации, кластеризации, регрессии. Алгоритмы машинного обучения. Метрики
Технологии: что нужно знать и уметь
Python \ R
- основные программные инструменты. Используем библиотеки Numpy, Pandas, Scipy и другие.
SQL
- стандартный язык запросов для баз данных, используется для быстрого объединения, агрегирования, извлечения необходимой информации и позволяет удобно работать с наборами данных.
Визуализация
R - библиотека ggplot2;
Python - библиотеки Matplotlib, Seaborn, Plotly.
Web-аналитика
- основные инструменты: Яндекс.Метрика, Google Analytics; для мобильной аналитики дополнительно - Amplitude, MixPanel.

RapidMiner
- бесплатная открытая среда для прогнозной аналитики, поддерживает все этапы глубинного анализа данных, включая результирующую визуализацию, проверку и оптимизацию.
Математическая статистика
- оценивание параметров распределения, доверительные интервалы, проверка гипотез, поиск взаимосвязи признаков.
Алгоритмы машинного обучения
- обучение на размеченных данных и неразмеченных данных, градиентный бустинг, случайный лес, оценка качества модели.
A/B тестирование
- неотъемлемая часть процесса работы над продуктом. Эксперимент, который позволяет сравнить две версии чего-либо, чтобы проверить гипотезы и определить, какая версия лучше.