«Кто владеет информацией — владеет миром!»

Это было верно вчера. А сегодня в мире столько разнообразных данных и различной информации, что самым ценным становится умение это всё анализировать.

Подготовка данных

Каждый Data Science-проект начинается с данных ==> предобработка: устранение дубликатов и противоречий, заполнение пропусков

Исследования

изучение данных статистическими методами: определение характеристик, проверка гипотез, выявление связи между признаками, оценка параметров. Визуализация данных

Построение модели и оценка ее качества

Используем модели классификации, кластеризации, регрессии. Алгоритмы машинного обучения. Метрики

Исследовать — значит видеть то, что видели все, и думать так, как не думал никто
Ученье - свет, а неученых - тьма...

Технологии: что нужно знать и уметь

Python \ R

- основные программные инструменты. Используем библиотеки Numpy, Pandas, Scipy и другие.

SQL

- стандартный язык запросов для баз данных, используется для быстрого объединения, агрегирования, извлечения необходимой информации и позволяет удобно работать с наборами данных.

Визуализация

R - библиотека ggplot2;
Python - библиотеки Matplotlib, Seaborn, Plotly.

Web-аналитика

- основные инструменты: Яндекс.Метрика, Google Analytics; для мобильной аналитики дополнительно - Amplitude, MixPanel.

RapidMiner

- бесплатная открытая среда для прогнозной аналитики, поддерживает все этапы глубинного анализа данных, включая результирующую визуализацию, проверку и оптимизацию.

Математическая статистика

- оценивание параметров распределения, доверительные интервалы, проверка гипотез, поиск взаимосвязи признаков.

Алгоритмы машинного обучения

- обучение на размеченных данных и неразмеченных данных, градиентный бустинг, случайный лес, оценка качества модели.

A/B тестирование

- неотъемлемая часть процесса работы над продуктом. Эксперимент, который позволяет сравнить две версии чего-либо, чтобы проверить гипотезы и определить, какая версия лучше.