Конспект лекции

Анализ данных — процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

1. Сбор данных —> 2. Подготовка и очистка данных — эти первые два пункта обычно занимают в проекте до 70% времени.
3. Нахождение скрытых зависимостей —> 4. Разработка моделей —> 5. Прочее

Специалисты по анализу данных

  • BI-Аналитик
    Решает срочные задачи, работает с базой данных, готовит дашборды, отвечает за визуализацию данных.
  • Аналитик
    Отлично знает предметную область, анализирует метрики, проводит эксперименты, составляет прогнозы, глубоко закапывается в имеющиеся данные.
  • Data Scientist
    Структурирует и анализирует большие объемы данных, применяет машинное обучение для предсказания событий и обнаружения неочевидных закономерностей.

Как изучать Python для анализа данных

Python для анализа данных
1. Освоение основных принципов программирования.
В качестве настольной книги (справочника) используем классический двухтомник М. Лутц «Изучаем Python».
Для практической работы с данными — W. McKenney «Python for Data Analysis».

2. Изучение библиотек, необходимых для анализа данных.
NumPy и Pandas — основные, для вычислений (документация NumPy, документация Pandas).
Matplotlib и Seaborn — для визуализации данных (документация Matplotlib, документация Seaborn).
Scipy и StatsModels — для статистического анализа ( документация Scipy, ).
SciKit — для работы с методами машинного обучения.

3. Закрепление знаний на практике: kaggle.com, pythonchallenge.com.

Запуск программы на Python

  • Пакетный режим

1. Создать файл test.py с исходным кодом (например, в Блокноте)
2. Запустить файл через консоль с помощью команды: > python test.py

  • Интерактивный режим

1. В интерактивный режим можно войти, набрав в командной строке > python


IPython — мощный инструмент для работы с языком python. Jupiter notebook — графическая веб-оболочка для IPython, которая расширяет идею консольного подхода к интерактивным вычислениям, популярнейшая бесплатная интерактивная оболочка, позволяющая объединить код на python, текст и диаграммы и распространять их для других пользователей.

> ipython notebook

Интерфейс Jupiter notebook


История языка

Python был разработан в конце 1989 г. Гуидо ван Россумом (Guido van Rossum) во время рождественских каникул, когда его исследовательская лаборатория была закрыта и ему просто некуда было деваться. Он позаимствовал многие средства программирования, присущие другим языкам.

Работа в оболочке Jupiter Notebook

В Jupiter Notebook есть два режима: Command Mode (можно делать операции с ячейками ноутбука: добавлять, удалять, разделять, запускать и тд.) и Edit Mode (работа в самой ячейке, написание кода).

Esc — перейти в режим Command Mode;
Y \ M — быстро переключаться между типом ячеек (M — markdown, Y — code).
CTRL Enter — выполнить ячейку (на Windows);


Видео с 0:38 —> Начинаем программировать в python.

Блоки в python всегда выделяются отступом.