Преподаватель курса: Вадим Леонардович Аббакумов
https://compscicenter.ru/

Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности

Лекция 2. Описательные статистики. Ящики с усами. Выбросы
Описательные статистики. Ящики с усами. Выбросы. Медиана и среднее арифметическое как типичные наблюдения. Диаграмма рассеивания. Матрица диаграмм рассеивания.
Столбиковая и круговая диаграмма.

Лекция 3. Иерархический кластерный анализ
Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы. Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.

Лекция 4. Метод к-средних
Метод к-средних. Примеры (теоретическая часть лекции пропущена).
Теоретический раздел можно посмотреть в предыдущем курсе, там то же самое

Лекция 5. Проверка статистических гипотез (теоретическое введение)
Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения.
Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов. Гипотеза о нормальности распределения. Критерии Шапиро-Уилка и Колмогорова-Смирнова. Несущественные отклонения от нормальности. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.
Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями. Визуальная проверка выводов.

Лекция 6. Проверка статистических гипотез (процедуры Python)
Критерий Шапиро-Уилка. Критерий Манна-Уитни-Вилкоксона. t-критерий Стъюдента. Критерий Флигнера-Килина.
Независимые и парные выборки. Критерий хи-квадрат. Критерий Пирсона.

Лекция 7. A/B тестирование. Тест для пропорций

Лекция 8. Линейная регрессия
Линейный регрессионный анализ. Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

Лекция 9. Прогнозирование на основе регрессионной модели
Прогнозирование на основе регрессионной модели с сезонными индикаторными (фиктивными, структурными) переменными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование – прием для преобразования мультипликативной сезонности в аддитивную. Индикаторные переменные. Переобучение.
Случай нескольких сезонных составляющих.

Лекция 10. Деревья классификации и регрессии
Распознавание образов/классификация. Параметры модели, внутренние и внешние.
Критерии качества. Обучающая и тестовая выборки.
Деревья классификации CART. Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Меры чистота узла (impurity measures): Джини, энтропия, ошибки классификации. Правила остановки обучения дерева. Информативность переменных.
Деревья классификации в задачах регрессии.

Лекция 11. Random forest
Случайные леса. Bagging. Ключевые параметры модели. Out-of-bag error. Информативность переменных. Анализ несбалансированных выборок. Определение числа деревьев.

Лекция 12. Boosting. Gradient boosting machine. Ключевые параметры модели