Научный журнал
Международный журнал прикладных и фундаментальных исследований
ISSN 1996-3955
ИФ РИНЦ = 0,593

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ В ЭЛЕКТРОННЫХ ТАБЛИЦАХ

Курзаева Л.В. 1
1 ФГБОУ ВО «Магнитогорский государственный технический университет им. Г.И. Носова»
Методы аналитической статистики – одни из самых сложных в плане изучения, однако, это одни из самых востребованных методов в арсенале аналитика. Анализ взаимосвязи признаков производится в рамках решения трех основных задач: описание и понимание взаимосвязи; прогнозирование и предсказание нового наблюдения; корректировка и управление процессом. Корреляционный анализ позволяет оценить степень взаимосвязи между переменными. В статье описывается простой способ проведения корреляционного анализа в MicrosoftExcel на примере реальных статистических данных. Материалы данной статьи представляют методическую и практическую ценность для преподавателей, занимающихся вопросами повышения эффективности обучения в области основ анализа данных с информационных технологий, и осуществляющие реализацию образовательного процесса в вузах и на курсах повышения квалификации.
Ключевыеслова: анализ данных
электронные таблицы
1. Овчинникова И.Г., Варфоломеева Т.Н., Гусева Е.Н. Учебно-методическое пособие для подготовки к вступительным экзаменам по информатике. -Магнитогорск, 2002. -С. 119
2. Овчинникова И.Г., Варфоломеева Т.Н., Корнещук Н.Г. Учебное пособие для подготовки к централизованному тестированию по информатике. -Магнитогорск, 2002. -С.205
3. Курзаева Л.В. Дистанционный курс «Основы математической обработки информации»: электронный учебно-методический комплекс // Хроники объединенного фонда электронных ресурсов Наука и образование. - 2014. -Т. 1. - № 12 (67). - С. 117
4. Курзаева Л.В. Введение в теорию систем и системный анализ: учеб. пособие/Л.В. Курзаева. -Магнитогорск: МаГУ, 2015. -211 с.
5. Курзаева Л.В. Введение в методы и средства получения и обработки информации для задач управления социальными и экономическими системами: учеб. пособие/Л.В. Курзаева, И.Г. Овчинникова, Г.Н. Чусавитина. -Магнитогорск: Магнитогорск. гос. техн. ун-та им. Г.И. Носова, 2016. -118 с.

Рассмотрим возможности использования пакета Анализ данных в MicrosoftExcel при проведении корреляционно анализа.

Корреляция – это взаимосвязь количественных или порядковых признаков.

Интерпретация корреляции проводится на основании:

1) коэффициента корреляции (r) и его квадрата – коэффициент детерминации (R2), которые свидетельствуют о силе связи; R2 представляет собой долю вариации, общую для двух переменных (иными словами, «степень» зависимости или связанности двух переменных);

2) уровня значимости, вычисленного для каждого коэффициента корреляции, позволяющего судить о надежности корреляции;

3) визуального анализа связи.

Необходимо проанализировать статистические данные по странам Восточной Европы (рис. 1).

Рис. 1. Окно «Корреляция»

Рис. 2. Корреляционная матрица

1_1.png
2_2.png

Рис. 3. Построение диаграммы рассеяния (точечной диаграммы)

Для проведения корреляционного анализа нужно в меню Данные выбрать опцию Анализ данных. В появившемся окне выбрать опцию. Корреляция.

В окне «Корреляция» введите Входной интервал – те данные, которые подлежат анализу. Группирование в нашем примере осуществляется по столбцам (столбцы содержат отдельные показатели по странам). Поле Метки в первой строке следует отметить в том случае, если входной интервал задан вместе с заголовками столбцов/строк.

В разделе окна Параметры вывода укажите, куда следует выводить корреляционную матрицу (квадратная (или прямоугольная) таблица, в которой на пересечении соответствующих строки и столбца находится коэффициент корреляции между соответствующими параметрами).

Прокомментируем полученную матрицу. Как видно из полученных результатов наибольшая корреляционная зависимость (очень сильная) наблюдается между показателями «Доля замужних женщин 15-49 лет, использующих все виды контрацептивов (%)» и «Доля замужних женщин 15-49 лет, использующих современные контрацептивы (%)», где r=0,921214 – скорее всего эти факторы являются следствием одной общей причины.

Наименьшая (очень слабая) между «Доля замужних женщин 15-49 лет, использующих все виды контрацептивов (%)» и «Коэффициент рождаемости (на 1000 жителей)», где r=-0,0193514. В то время как взаимосвязь признаков «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей» можно оценить как сильную, т.к. r=0,66587291, при этом, скорее всего второй признак является следствием первого, но, скорее всего, на «Число мобильных телефонов на 100 жителей» оказывают влияние еще какие-то факторы.

Для демонстрации возможностей графического метода построим точечную диаграмму (диаграмму рассеяния) по этим признакам.

Полученную диаграмму дополним линией регрессии и коэффициентом достоверности аппроксимации, щелкнув правой кнопкой мыши по точкам диаграммы и выбрав в контекстном меню пункт Линия тренда (рис. 4).

Рис. 4. Добавление линии тренда

3_1.png
4_1.png

Полученная точечная диаграмма позволяет судить не только о разбросе точек вокруг предполагаемой линии тренда, но и увидеть аномальные совместные проявления признаков (рис. 5).

Так, выделенная точка построена по значениям показателей «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей» Белоруссии. Анализ и интерпретация появления аномалий должны производиться исходя из знаний о социально-экономической природе рассматриваемого объекта.


Библиографическая ссылка

Курзаева Л.В. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ В ЭЛЕКТРОННЫХ ТАБЛИЦАХ // Международный журнал прикладных и фундаментальных исследований. – 2016. – № 12-7. – С. 1230-1233;
URL: https://applied-research.ru/ru/article/view?id=11018 (дата обращения: 29.03.2024).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674