ipython notebook ames-housing— файл .ipynb к лекции


Используемые датасеты
ames dataset — данные о продаже домов в Айове;


Другие лекции этого курса:

Конспект лекции

Используем набор данных Ames dataset — данные о продаже домов в Айове: характеристики дома и цена.
Конечная цель — построить модель для определения цены дома.
Кому это может быть интересно? Оказывается, формула, которая определяет цену дома может лежать в основании бизнеса, который приносит 800 млн. долларов в год :-). Компания Zillow разработала такую формулу и на своем сайте предлагает возможность оценки домов. Их сайт популярен, формула авторитетна, поэтому они собрали всю американскую аудиторию, которая продает и покупает дома.

Задаем рабочую папку, в которой будут храниться все файлы проекта:

import os
os.chdir("c:/folder/") # указать путь к нужной папке

Объект, который создается, когда мы импортируем с помощью read_csv() данные, представляет собой экселевскую таблицу. Особенность: каждый столбец это элементы одного класса (если логические, то все логические, если текстовые, то все текстовые).

read_csv()

Теперь самое время посмотреть, нет ли в данных какого-то мусора, который может помешать проводить анализ.

describe(include=’all’)

Результат работы команды describe() делится на 2 части: одна часть описывает переменные, измеренные в номинальной шкале, в другая — переменные, описанные в количественной шкале.

Количественная шкала — это то, что измеряется числами (килограммы, метры, секунды, рубли и тд.).
Порядковая шкала — когда мы результаты измерений можем сравнивать, но разность или отношение уже не имеет смысла (например, места, полученные участниками соревнований по бегу).
Номинальная шкала — когда результатом эксперимента является какое-то значение или какой-то код и сравнивать эти значения (даже если там числа) нельзя.
Подробнее о типах переменных