Типы данных в статистике

В самом общем виде данные можно разделить на 2 типа: количественные и качественные.

Типы данных в статистике

Количественные переменные

Количественные переменные отображают, как можно догадаться из названия, количество чего-то. Здесь цифры имеют математическое значение, они оценивают количество какой-то характеристики, например, сумма дохода — 15 000 рублей.

Количественные данные, в свою очередь, можно поделить на дискретные и непрерывные.

Данные дискретного типа не могут иметь дробной части, они принимают какие-то отдельные целые значения (их конечное число). Например, число детей в семье — их может быть 1, 2, 3 или 5, но не может быть два с половиной.

Примеры дискретных данных:
— число посетителей сайта за день / неделю / месяц;
— число больных, поступающих в больницы города ежедневно;
— численность учащихся каждого класса школы на начало учебного года;
— количество страховых компаний, получивших лицензию.

Непрерывные данные — это та шкала, которая занимает все пространство, может принимать любые значения, от −∞ до +∞ и может быть, конечно, дробной. Например, время можно измерять в днях, в часах, в секундах, в миллисекундах (т.е ограничения только на требуемую точность измерений), и это будут непрерывные данные, определенныеая на всем протяжении возможных значений. Рост и вес человека, концентрация вещества в растворе или сумма расходов компании — это непрерывные переменные.


Качественные переменные

Качественные переменные — это переменные, которые отражают свойство или качество наших объектов. И цифры здесь значат уже не сами себя, как в количественном случае, а они означают какие-то свойства объектов. То есть они служат маркерами каких-то категорий, которые нас интересуют. Например, почтовый индекс — это качественные данные (несмотря на то, что он записывается цифрами).

Качественные данные тоже можно поделить на 2 подтипа: номинальные и порядковые.

Номинальные переменные применяются для обозначения категорий или признаков, которые нельзя классифицировать по возрастанию или убыванию, т.е по сути они только содержат информацию о принадлежности объекта к какому-то классу.
Например, у человека могут быть такие признаки: цвет глаз (карие, зеленые, голубые, серые), пол (мужчина\женщина), город проживания — это все номинальные переменные.

Порядковые переменные отличаются от номинальных тем, что в них появляется отношения порядка. То есть здесь у нас значения не только разделяют объекты на классы, но и определенным образом упорядочивают их.

К примеру, мы изучаем уровень счастья в разных странах и задаем жителям вопрос «Насколько вы счастливы?», на который нужно ответить в десятибалльной шкале, где 10 — это максимальный уровень счастья (самый счастливый), а 1 — минимальный уровень (самый несчастный).
«Уровень счастья» в данном случае — порядковая переменная. Ведь мы совершенно точно можем сказать, что человек, выбравший 9, гораздо счастливей, чем человек, выбравший тройку. При этом мы не можем сказать насколько, потому что нельзя измерить счастье количественно, в каких-то точных единицах.

В статистике типы исследуемых переменных не просто важны сами по себе, они напрямую влияют на выбор статистического критерия.
Выделим три принципиально важных группы переменных:
— количественные переменные с нормальным распределением;
— количественные переменные с другим распределением и порядковые переменные;
— номинальные переменные.

Добавить комментарий