Язык R: обзор учебных материалов

Как нам говорит wikipedia, R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Действительно, R — язык, ориентированный на статистику.

Язык R специально разработан таким образом, чтобы отражать способы мышления и работы статистиков.

R logo Несмотря на то, что R несколько специфический язык, и в настоящее время ему уже наступил на пятки более универсальный python, тем не менее, этот язык актуален и будет еще оставаться таким, надеюсь, длительное время.
Почему же? — спросят некоторые.
Ответ — в использовании пакетов (подключаемых библиотек).
R-пакеты добавляют новую функциональность к языку R.
Одни библиотеки имеют ограниченную область применения, другие представляют целые области статистики, а некоторые отражают новейшие разработки. И действительно, многие новые разработки в области статистики сначала появляются как R-пакеты, и только потом реализуются в различных коммерческих программных продуктах.


Cran.R-project.org/ — основной сайт с информацией по языку R.
Здесь можно скачать дистрибутивы, почитать документацию, загрузить нужный пакет.

На данный момент доступно более 15 000 пакетов, поэтому поиск нужного превращается в весьма нетривиальную задачу. И даже сортировка по алфавиту или по дате добавления вряд ли поможет. А что поможет, так это ссылочка Task View — здесь все библиотеки сгруппированы по темам, поэтому найти нужный пакет уже становится почти реально.

Anaconda Navigator
Anaconda Navigator
Впрочем, прежде, чем искать библиотеки, необходимо установить R Studio — удобную графическую оболочку для работы с R, которая значительно облегчает жизнь разработчику. Программа бесплатна для персонального использования.

А лучше сразу Анаконду — там и R Studio есть и Jupiter Notebook для питона.
Anaconda — бесплатный и удобный в использовании менеджер языков программирования Python и R, включающий набор популярных свободных библиотек, объединённых проблематиками науки о данных и машинного обучения.
Скачайте установщик Anaconda и следуйте его указаниям.
Внимание! Устанавливайте Anaconda в папку, имя которой не содержит пробелов и символов unicode (например, кириллицу).


Итак, подготовительная работа проведена, программная среда установлена, теперь начинаем изучение языка R.
Disclaimer: естественно, и книг, и образовательных ресурсов по R в сети гораздо больше, чем представлено на этой странице. Здесь отобрано только то, что опробовано и используется лично автором сайта.

Курсы

Swirl

R Studio. Установка библиотеки swirl
Изучение R очень удобно начать с помощью специального пакета swirl, который предоставляет несколько интерактивных курсов, работающих прямо из R Studio, это очень удобно (но требуется знание английского).
Список курсов:
1: R Programming: The basics of programming in R;
2: Regression Models: The basics of regression modeling in R;
3: Statistical Inference: The basics of statistical inference in R;
4: Exploratory Data Analysis: The basics of exploring data in R1.
Более подробную информацию можно посмотреть на странице разработчиков.


Computer Science Center

Анализ данных на R в примерах и задачах Анализ данных на R в примерах и задачах (2016)
— курс по анализу данных от Computer Science Center
Must have для начинающих (и не только) аналитиков. Очень обширный курс: кластерный анализ, проверка статистических гипотез, А/В тестирование, линейная регрессия, факторный анализ, алгоритмы машинного обучения, нейронные сети и др. Читает Вадим Леонардович Аббакумов. Чудесный лектор, очень увлекательная подача материала. Рекомендую!


Stepik.org

На этой образовательной платформе можно найти бесплатные курсы и по языку R, и по статистике. Смотрим видеолекции, выполняем задания, общаемся с другими слушателями курса и с преподавателем. В некоторых случаях даже есть возможность получить сертификат.
Ниже список курсов, подготовленных на базе программы Института биоинформатики.

Образовательные курсы Stepik Основы статистики, часть 1 / часть 2 / часть 3 — отличный курс для начинающих, подойдет и для того, чтобы освежить знания по статистике. В рамках трехнедельного курса рассматриваются подходы к описанию получаемых в исследованиях данных, основные методы и принципы статистического анализа, интерпретация и визуализация получаемых результатов. Рассмотрены дисперсионный, регрессионный и кластерный анализ.

Анализ данных в R, часть 1 / часть 2 — в рамках трёхнедельного курса рассматриваются все основные этапы статистического анализа R, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов.
Лектор — Анатолий Карпов.

Основы программирования на R — в этом курсе R рассматривается, в первую очередь как, язык программирования, а не как инструмент для применения конкретных алгоритмов. В программе представлены основные типы данных и универсальные семантические правила, а также затронуты некоторые сложные темы, связанные с типичными задачами, возникающими в ходе обработки и анализа данных.
Лектор — Антон Антонов.

Книги, статьи

Книги бесплатные, находятся в свободном доступе.

Наглядная статистика. Используем RНаглядная статистика. Используем R, авторы А. Б. Шипунов, Е. М. Балдин, П. А. Волкова, А. И. Коробейников, С. А. Назарова, С. В. Петров, В. Г. Суфиянов
— книгу можно рекомендовать тем, кто хочет научиться практическому применению основных методов анализа данных с использованием языка R. В ней довольно просто объясняются основные вопросы статистики, плюс это хорошее и достаточно объемное руководство по языку R.
читать книгу (исправленный вариант с сайта автора, 13.07.2014)
Дополнительные материалы к этой книге: код и файлы данных, справочная карта по R.


Статистический анализ и визуализация данных с помощью R Статистический анализ и визуализация данных с помощью R, авторы Мастицкий С.Э., Шитиков В.К.
— в книге дано описание языка R и рассмотрены его базовые графические возможности, подробно описываются классические методы статистики, дисперсионный анализ и регрессионные модели, примеры пространственного анализа и создание картограмм.
читать книгу (вариант 2014 года)
В репозитории автора на github.com доступны приложения к книге: файлы скриптов на языке R и наборы данных.
В 2015 г. в издательстве «ДМК Пресс» вышла печатная версия этой книги, с исправлениями и новыми дополнениями.

R-analitics — постоянно обновляемый блог автора книги, посвященный языку R, анализу и визуализации данных.

Классификация, регрессия и другие алгоритмы Data Mining с использованием R, авторы Шитиков В.К., Мастицкий С.Э.
— дано краткое, но внятное описание сущности используемых статистических методов; показано, какие из статистических методов с высокой вероятностью хорошо сработают в большинстве ситуаций; предоставлен набор R-скриптов, позволяющих читателю воспроизвести представленные расчеты, либо использовать их на собственных примерах.
читать книгу


R в действииR в действии: анализ и визуализация данных, автор Роберт И. Кабаков
— руководство-путеводитель по R, позволяющее в общих чертах ознакомиться с самой программой и ее возможностями: описаны наиболее полезные функции базовой версии и более 90 наиболее часто используемых дополнительных пакетов. На всем протяжении книги акцент делается на практическое применение.
Бонусная глава к книге, в которой рассматривается продвинутая графика с использованием библиотеки lattice.
Quick R — на сайте автора книги много полезной информации по статистике и языку R.


Визуализация и анализ географических данных на языке R Визуализация и анализ географических данных на языке R, автор Т.Е. Самсонов
— подробный учебник по графике в R на русском языке, отличный путеводитель по очень многим общим и специфическим задачам, которые можно решить с помощью R.
читать книгу Дополнительные материалы к учебнику


Для тех, кто дружит с английским
R for Data ScienceR for Data Science, Garrett Grolemund, Hadley Wickham
This book will teach you how to do data science with R: You’ll learn how to get your data into R, get it into the most useful structure, transform it, visualise it and model it. In this book, you will find a practicum of skills for data science.
читать книгу


Анализ и визуализация реальных табличных данных в R — простой и наглядный пример работы с данными.
Действительно простая графика в R для науки и публицистики

Добавить комментарий