Многофакторная модель корреляционно-регрессионного анализа. Корреляционно-регрессионный анализ в Excel: инструкция выполнения

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

В действительности на результативный признак влияет, как правило, не один фактор, а множество различных одновременно действующих факторных признаков. Так, себестоимость единицы продукции зависит от количества произведенной продукции, цены закупки сырья, заработной платы работников и производительности их труда, накладных расходов.

Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком у и факторными признаками x it х 2 , ...»х * можно, используя многофакторный регрессионный анализ , который сводится к решению следующих задач:

  • - построение уравнения множественной регрессии;
  • - определение степени влияния каждого фактора на результативный признак;
  • - количественная оценка тесноты связи между результативным признаком и факторами;
  • - оценка надежности построенной регрессионной модели;
  • - прогноз результативного признака.

Уравнение множественной регрессии характеризует среднее изменение у с изменением двух и более признаков-факторов: у = /(лг р x v x k).

При выборе признаков-факторов, включаемых в уравнение множественной регрессии, нужно прежде всего рассмотреть матрицы коэффициентов корреляции и выделить те переменные, для которых корреляция с результативной переменной превосходит корреляцию с другими факторами, т.е. для которых верно неравенство

объясняющие переменные, тесно связанные между собой: при г > 0,7

У" j

переменные и х } дублируют друг друга, и совместное включение их в уравнение регрессии не дает дополнительной информации для объяснения вариации у. Линейно связанные переменные называются коллинеар- ными.

Нс рекомендуется включать в круг объясняющих переменных признаки, представленные как абсолютные и как средние или относительные величины. Нельзя включать в регрессию признаки, функционально связанные с зависимой переменной у , например, те, которые являются составной частью у (скажем, суммарный доход и заработная плата).

Наиболее простым для построения и анализа является линейное уравнение множественной регрессии:

Интерпретация коэффициентов регрессии линейного уравнения множественной регрессии следующая: каждый из них показывает, на сколько единиц в среднем изменяется у при изменении.г, на свою единицу измерения и закреплении прочих введенных в уравнение объясняющих переменных на среднем уровне.

Так как все включенные переменные х х имеют свою размерность, то сравнивать коэффициенты регрессии Ь { нельзя, т.е. по величине Ъ х нельзя сделать вывод, что одна переменная влияет сильнее на г/, а другая слабее.

Параметры линейного уравнения множественной регрессии оцениваются методом наименьших квадратов (МНК). Условие МНК: или

Условие экстремума функции равенство нулю частных производных первого порядка данной функции:

Отсюда получаем систему нормальных уравнений, решение которой дает значения параметров уравнения множественной регрессии:


При записи системы уравнений можно руководствоваться следующим простым правилом: первое уравнение получается как сумма п уравнений регрессии; второе и последующее - как сумма п уравнений регрессии, все члены которой умножены на затем на х 2 и т.д.

Параметры уравнения множественной регрессии получаем через отношение частных определителей к определителю системы:

Рассмотрим построение уравнения множественной регрессии на примере линейной двухфакторной модели:

Представим все переменные как центрированные и нормированные, т.е. выраженные как отклонения от средних величин, деленные на стандартное отклонение. Обозначим преобразованные таким образом переменные буквой t

Тогда уравнение множественной регрессии примет следующий вид:

где p t и р 2 - стандартизированные коэффициенты регрессии (бс га-коэф- фициенты), определяющие, на какую часть своего среднеквадратического отклонения изменится у при изменении Xj на одно среднеквадратическое отклонение.

Уравнение регрессии (8.20) называется уравнением в стандартизованном масштабе (или стандартизированным уравнением регрессии). Оно не имеет свободного члена, поскольку все переменные выражены через отклонения от средних величин, а, как известно, а = у-Ь { х х -Ь 2 х 2 , или при k объясняющих переменных

В отличие от коэффициентов регрессии в натуральном масштабе Ьр которые нельзя сравнивать, стандартизированные коэффициенты регрессии Р; можно сравнивать, делая вывод, влияние какого фактора на у более значительно.

Стандартизированные коэффициенты регрессии находятся также с помощью МНК:

Приравняем первые частные производные нулю получим систему нормальных уравнений

Поскольку


систему можно записать иначе:


Отсюда находим p-коэффициенты и сравниваем их. Если Р,>Р 2 , то фактор Xj сильнее влияет на результат, чем фактор х 2 .

От стандартизированной регрессии можно перейти к уравнению регрессии в натуральном масштабе, т.е. получить регрессию

Коэффициенты регрессии в натуральном масштабе находятся на основе ^-коэффициентов:

После этого вычисляется совокупный коэффициент детерминации:

который показывает долю вариации результативного признака под воздействием изучаемых факторных признаков. Важно знать вклад каждой объясняющей переменной. Он измеряется коэффициентом раздельной детерминации:

Влияние отдельных факторов в уравнении множественной регрессии может быть охарактеризовано с помощью частных коэффициентов эластичности. В случае двухфакторной линейной регрессии коэффициенты эластичности рассчитываются по формулам и измеряются в процентах:

Мы разобрали технику построения уравнения множественной регрессии. Очевидно, что оценки параметров уравнения регрессии можно получить, используя только микрокалькулятор. В современных условиях построение регрессии и расчет показателей корреляции производят с помощью ПК и пакетов прикладных программ, таких как Excel либо более специализированных: Statgraphics или Statistica и др.

Чтобы выполнить построения уравнения множественной регрессии с помощью Microsoft Office Excel, надо воспользоваться инструментом анализа данных Регрессия. Выполняются действия, аналогичные расчету параметров парной линейной регрессии, рассмотренные выше, только в отличие от парной регрессии при заполнении параметра входной интервал X в диалоговом окне следует указать все столбцы, содержащие значения факторных признаков.

Рассмотрим построение множественного уравнения регрессии при двух объясняющих переменных (двухфакторная модель). Продолжая пример, введем второй фактор время, затраченное студентом в течение недели с целью получения заработка, в часах. Данные представлены в табл. 8.5.

Расчетная таблица

Таблица 8.5

Номер студента

(у -у) 2

- у) 2

Таблица 8.6

Регрессионный анализ, выполненный для двухфакторной модели с помощью Microsoft Office Excel

ВЫВОД итогов

Регрессионная статистика

Множественный R

Я-квадрат

Нормированный Я-квадрат

Стандартная ошибка

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

Коэффициент ы

Стандартная

ошибка

t-статистика

Р-значение

Нижние 95%

Верхние 95%

У-пересечение

  • 1. Введем исходные данные в таблицу Excel, как было описано в параграфе 8.3.
  • 2. Воспользуемся инструментом анализа данных Регрессия.

Полученные результаты представлены в табл. 8.6.

Как следует из итоговой табл. 8.6, уравнение регрессии имеет следующий вид:

F= 25; значимость F= 0,002, т.е. вероятность ошибки незначительна.

Согласно регрессии оценка на экзамене в среднем повысится на 0,058 балла при увеличении накопленных за семестр баллов на один балл при закреплении второй объясняющей переменной на среднем уровне; экзаменационная оценка снизится в среднем на 0,026 балла при увеличении времени, затраченного на заработок, на один час при закреплении фактора Х на среднем уровне.

3. Перейдем к уравнению в стандартизированном масштабе. Для этого определим 0-коэффициенты;

Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:

  • 1) выберем Данные -> Анализ данных -> Корреляция;
  • 2) заполним диалоговое окно ввода данных и параметров вывода.

Результаты вычислений показаны в табл. 8.7.

Таблица 8.7

Матрица коэффициентов парной корреляции


Получили стандартизированное уравнение регрессии

Так как |Р,|>|Р 2 1» т0 фактор x i (сумма накопленных баллов за семестр) сильнее влияет на результат (экзаменационная оценка), чем фактор х 2 (время, затраченное студентом в течение недели с целью получения заработка). Заметим, что связь между результатом у и фактором х 2 обратная: чем больше времени студент тратит для получения заработка, тем ниже экзаменационная оценка.

  • 4. Совокупный коэффициент детерминации определяется из Регрессионной статистики (табл. 8.6): R 2 = 0,911, т.е. вариация возможной оценки на экзамене на 91,1% зависит от вариации накопленных за семестр текущих баллов и вариации времени, которое студент тратит в течение недели на заработок.
  • 5. Найдем коэффициенты раздельной детерминации:


Таким образом, за счет вариации накопленных за семестр текущих баллов объясняется 72,3% вариации оценки на экзамене, а за счет времени, затраченного в течение недели на заработок, - 18,8%. Сумма коэффициентов раздельной детерминации равна R 2 .

6. Рассчитаем частные линейные коэффициенты эластичности:


Это означает, что при увеличении накопленных за семестр баллов на 1% их среднего уровня оценка за экзамен увеличивается на 10,97% своего среднего уровня, при увеличении времени на заработок на 1% его среднего значения результат снижается на 0,07%. Очевидно, что сила влияния фактора х х сильнее, чем фактора х 2 . Аналогичные выводы о силе связи мы получили, сравнивая Р-коэффициенты.

7. Расчитаем ожидаемую оценку, которую получит студент на экзамене, если сумма накопленных в течение семестра баллов (л,) равна 85, а время, затраченное студентом в течение недели для заработка (х 2), составляет 5 ч. Воспользуемся полученным уравнением регрессии в натуральном масштабе:

Следовательно, ожидаемая экзаменационная оценка составляет четыре балла.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://сайт

Многофакторная модель корреляционно-регрессионного ан а лиза

С помощью корреляционно-регрессионного анализа мы сможем определить динамику стоимости недвижимости, и влияние отдельных факторов на стоимость недвижимости, а так же установим, какие из этих факторов оказывают наибольшее влияние на стоимость недвижимости.

Система факторов всегда формируется на стадии логического анализа. Конкретное построение модели осуществляется на основе собранной исходной информации с количественными оценками факторов.

Показатели, включаемые в статистическую модель, должны быть качественно однородны, независимы друг от друга, достаточны по количеству измерителей для статистической обоснованности результатов регрессионного анализа. Количество измерений должно превосходить число факторов не менее чем в 2 раза.

Этапы выполнения работы:

1. Ввод исходных данных;

2. Расчет корреляционной матрицы;

3. Определить коллинеарность;

4. Определить параметры уравнения регрессии;

5. Анализ факторов по коэффициенту эластичности;

6. Оценка параметров уравнения регрессии;

7. Оценить значимость показателей тесноты связи r;

8. Оценка значимости коэффициента детерминации R 2 ;

9. Доверительные интервалы для коэффициентов уравнения регрессии;

10. Доверительные интервалы для средних значений факторных признаков;

11. Автокорреляция

Пример расчета

1. Ввод исходных данных

Систему функциональных показателей формируем на стадии логического анализа.

При построении многофакторной модели прогнозирования стоимости недвижимости, могут быть включены следующие факторы:

Результирующий признак: Y -стоимость недвижимости, $;

Факторные признаки:

Х 1 -стоимость одного квадратного метра объекта, $;

Х 2 - валютный курс;

Х 3 - уровень доходности населения, $;

Х 4 - социально-политическое положение, баллы;

Х 5 - инфраструктура, баллы;

Х 6 - состояние объекта, ремонт, баллы;

Х 7 - количество телефонов, штук;

Х 8 - количество телефонов

Так как для статистического анализа требуется ввести факторы за какой-то промежуток времени, то нами была составлена таблица данных факторов для нескольких наблюдений за 10 лет, которая представлена ниже:

2. Расчет корреляционной матрицы

Введем составленную матрицу в Excel. С помощью надстройки Анализ данных в меню Сервис рассчитаем корреляционную матрицу. Для этого в появившемся окне “Анализ данных” в поле “Инструменты анализа” активизируем строку “Корреляция”. В окне “Корреляция” введем входной интервал, выделяя с помощью мыши столбы и строки исходной таблицы, включая заголовки (за исключением столбца годы); установим флаг на “Метки в первой строке”; затем в поле “Выходной интервал” укажем левую верхнюю ячейку, начиная с которой должна появиться матрица результатов - корреляционная матрица.

Корреляционная матрица:

Корреляционная матрица - симметричная матрица, в которой относительно главной диагонали, на пересечении i-ой строки и j-го столбца, расположены коэффициенты парной корреляции между i-мы и j-ми факторами. По главной диагонали коэффициенты равны 1.

В последней строке корреляционной матрицы расположены коэффициенты парной корреляции между факторными и результирующим признаками.

Учитывая, что, при r < 0 связь обратная, при r > 0 - связь прямая.

Анализируя первый столбец корреляционной матрицы, отберем факторы, влияющие на результирующий признак.

Если коэффициент корреляции, то связь между i-ым фактором и результирующим признаком тесная, тогда этот фактор влияет на среднемесячную заработную плату и остается в модели. В соответствии с этим выпишем соответствующие коэффициенты корреляции:

Вывод: Анализ последней строчки корреляционной матрицы показывает, что факторы Х2 , Х4 , Х5 , Х6 , Х8 исключаются из модели, так как коэффициент корреляции, а для дальнейшего рассмотрения в данной модели остаются факторы Х1 , Х3 , Х7 .

3 . Определение колинеарности

Колинеарность - это зависимость факторных признаков между собой. Связь между факторными и результирующим признаками должна быть более тесная, чем связь между самими факторами, то есть для любой пары отобранных факторов должно выполнять отношение:

Если соотношения данной системы выполняются, то оба фактора остаются в модели. Если соотношения не выполняются, то один из факторов нужно исключить из модели. Обычно исключаются факторы с меньшим коэффициентом корреляции, зависимость которых с результирующим меньше. Но при удалении факторов в каждой конкретной задаче необходимо смотреть смысловое содержание факторов. Формальный подход не допустим.

Определяем колинеарность между факторами:

условие выполняется, оба фактора остаются в модели;

условие не выполняется, фактор Х 7 исключается, так как;

Вывод: Таким образом, в результате анализа, для составления прогнозируемой функции оставляем фактор Х 1 , Х 3 . Тогда уравнение регрессии приобретает следующий вид:

Y 0 + a 1 x 1 + a 2 x 3

4 . Определение параметров уравнения регрессии.

В рабочем поле Excel с помощью команды копирования создадим новую таблицу с исходными данными из оставшихся факторов и найдем средние значения по столбцам:

Для решения полученного уравнения регрессии после активизации сервисной программы Анализ данных в меню Сервис воспользуемся инструментом анализа - Регрессия. В данном диалоговом окне введем с помощью мыши входной интервал Y и X-ов; устанавим флаг на Метки; укажем начальную ячейку для выходного интервала и подтвердим начало расчета кнопкой ОК. В третьей из полученных таблиц ВЫВОДА ИТОГОВ найдем коэффициенты Y-пересечения и Х 1 , Х 3 и подставим полученные значения вместе со средними значениями Х-ов в уравнение регрессии:

Описательная статистика

Стандартная ошибка

Стандартное отклонение

Асимметричность

Интервал

Максимум

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

корреляционный регрессия матрица эластичность

Вывод:

1. Уравнение регресс имеет следующий вид:

2. Зависимость между стоимостью недвижимости (У) и стоимостью одного квадратного метра (Х 1), между стоимостью недвижимости (У) и уровнем доходности населения (Х 3), является более тесной, чем между стоимостью недвижимости и остальными факторами.

5 . Анализ факторов по коэффициенту эластичности

О значимости факторов нельзя судить по значению коэффициента регрессии. Анализ осуществляется по коэффициенту эластичности.

Коэффициент эластичности показывает, на сколько процентов изменяется резул ьтирующий признак при изменении факторного признака на 1%. Обычно берется 10%. Знак коэффициента эластичности всегда совпадает со знаком коэффициентов регрессии. Чем больше по модулю значение коэффициента эластичности, тем большее влияние оказывает этот фактор на результирующий признак.

.

Увеличим каждый фактор на 10%:

Подставляя средние значения факторов Х 1 , Х 3, а также их последовательно увеличенные на 10% значения в соответствующие уравнения регрессии, вычислим коэффициенты эластичности:

Коэффициент эластичности принято изображать графически.

Зависимость между Х 1 (стоимостью одного метра квадратного) и Y (стоимостью недвижимости объекта):

Вывод: при увеличении факторного признака Х 1 на 10 % результативный признак увеличивается на 11,91 %.

Зависимость между Х 3 (уровнем доходности населения) и Y (стоимостью недвижимости объекта)

Вывод: при увеличении факторного признака Х 3 на 10 % результативный признак сокращается на 3,42 %.

ВЫВОД: Анализ факторов по коэффициенту эластичности показал, что наибольшее влияние на стоимость недвижимости оказывает стоимость одного метра квадратного (фактор Х 1), затем уровень доходности населения (фактор Х 3).

6 . Оценка параметров уравнения регрессии

Для того, чтобы оценить параметры уравнения регрессии используется t- критерий Стьюдента. В таблице «дисперсионный анализ», в графе «t- статистика» содержатся рассчитанные на компьютере данные:

Эти значения сравниваются t - критическим, учитывая принятый уровень значимости б = 0,05 и k - число степеней свободы k = n-m-1; k=10-2-1=7, затем по таблице Стьюдента определяем, что: t кр = 2,365, либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку СТЮДРАСПОБР , с помощью которой компьютер возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, а в поле степень свободы -7

Параметры уравнения регрессии признаются типичными, если выполняются неравенства:

Подставим имеющие данные для сравнения:

Условие не выполняется

Условие не выполняется.

Вывод: Анализ параметров уравнения регрессии показал, что рассчитанные на компьютере данные не удовлетворяют условию сравнения. Поэтому математическая формула регрессии не может быть использована для прогнозирования стоимости недвижимости, а может быть использована только для практических расчетов.

7. Оценить значимость показателей тесноты связи r

Для этого применяется t- критерий Стьюдента. Расчетные значения t r для факторов Х 1 , Х 3 определяется по формуле:

где r - значения, рассчитанные в корреляционной матрице (столбец У) для объясняющих факторов

n - количество наблюдений.

Подставляя имеющиеся данные в формулу, получаем:

Рассчитанные значения надо сравнить с t- критическим равное 2,365. Показатели тесноты связи признаются типичными, если

Подставляя полученные данные, получим:

Условие выполняется

Условие выполняется

Вывод: все коэффициенты корреляции, соответствующие оставшимся факторам, признаются типичным, так как условие неравенства выполняется.

8 . Оценка значимости коэффициента детерминации R 2

Для этого используется F- критерий Фишера, величина которого берется из таблицы Фишера со степенями свободы:

к 1 = m = 2 - число объясняющих факторов.

к 2 = n-m-1= 10-2-1=7

Либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку F РАСПОБР , с помощью которой компьютер возвращает обратное значение для F-распределения вероятностей, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, в поле степень свободы1 ставим число объясняющих факторов, т.е. 2, а в поле степень свободы2 вводим к 2 = 7

Для определения статистической значимости коэффициента детерминации R 2 используется неравенство:

Значение F R рассчитывается по формуле:

Подставляя данные в неравенство получим: F расч =337,55 F крит. =4,737

Вывод:

Коэффициент детерминации R 2 является значимым, так как неравенство выполняется;

Величина R 2 =0,990- это означает, что 99 % общей вариации результативного признака объясняется изменением факторных признаков Х 1 ,Х 3 , а 1 % объясняется изменениями других факторов.

9. Доверительные интервалы для коэффициентов уравнения регрессии

Доверительные интервалы для коэффициентов множественной регрессии определяются:

а=499,986; Sa=29,254; tкрит.= 2,365

a 2 =-779,762; Sa 2 =644,425; tкрит.= 2,365

Вывод:

95% коэффициента регрессии а 1 лежит в интервале, а 5% вне этого интервала.

95% коэффициента регрессии а 2 лежит в интервале, а 5% вне этого интервала.

10 . Доверительные интервалы для средних значений факторных призн а ков

Доверительные интервалы для средних значений факторных признаков определяются:

где -стандартное отклонение (среднеквадратическое отклонение);

n - число наблюдений;

t находится по функции таблицы Лапласа

95% факторного признака (стоимость 1 м 2) лежит в интервале, а 5% вне этого интервала.

95% факторного признака (уровень доходности населения) лежит в интервале, а 5% вне этого интервала.

1 1 . Автокорреляция

А) Для определения величины коэффициента автокорреляции используются значения остатков, которые имеют следующий вид:

ВЫВОД ОСТАТКА

Дополнительные расчеты

Наблюдение

Предсказанное Y

Остатки i

Для определения величины коэффициента автокорреляции используется формула Дарвина - Оутсона:

использование, которой связано с дополнительными расчетами. Подставим данные в формулу и получим:

Коэффициент корреляции изменяется в пределах 0?dw?4.

Значит и размер автокорреляционного поля должен иметь эти же пределы.

Б) В автокорреляции содержатся (слева направо):

1. Зона положительной автокорреляции

2. Зона неопределенности

3. Зона отсутствия автокорреляции

4. Зона неопределенности

5. Зона отрицательной автокорреляции.

Размер зон неопределенности зависят от показателей таблицы Дарвина-Оутсона.

Для того чтобы найти в таблице нужные показатели надо знать номер столбца и строки.

Номер нужного столбца - это число объясняющих факторов уравнения регрессии: k=m=2;

Номер строки- это количество наблюдений: n=10.

В таблице находятся показатели d l и d u:

В левой половине автокорреляционного поля:

Нижняя граница зоны равна d l =0,697

Верхняя граница зоны равна d u = 1,641

Для правой половины автокорреляционного поля границы неопределенности надо рассчитать:

Верхняя граница зоны равна 4-d u = 4-1,641= 2,359

Нижняя граница зоны равна 4-d l =4-0,697= 3,303

Общая картина автокорреляционного поля может быть представлена в виде:

В) Коэффициент автокорреляции, его значение соответствует зоне отсутствия автокорреляции.

Размещено на сайт

Подобные документы

    Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа , добавлен 27.03.2009

    Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.

    задача , добавлен 20.01.2010

    Расчёт параметров линейного уравнения регрессии. Оценка регрессионного уравнения через среднюю ошибку аппроксимации, F-критерий Фишера, t-критерий Стьюдента. Анализ корреляционной матрицы. Расчёт коэффициентов множественной детерминации и корреляции.

    контрольная работа , добавлен 29.08.2013

    Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа , добавлен 27.07.2015

    Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат , добавлен 25.01.2009

    Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.

    курсовая работа , добавлен 22.05.2015

    Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция , добавлен 23.12.2014

    Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа , добавлен 22.07.2015

    Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа , добавлен 29.06.2013

    Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

Линейный многофакторный регрессионный анализ На практике при анализе результатов научных исследований часто имеет место ситуация, когда количественное изменение изучаемого явления (функции отклика) зависит не от одного, а от нескольких причин (факторов). При проведении экспериментов в такой множественной ситуации исследователь записывает показания приборов о состоянии функции отклика (y) и всех факторов, от которых она зависит (x). Результатами наблюдений являются уже не два вектор-столбца (x и y), как при проведении однофакторного регрессионного анализа, а матрица результатов наблюдений. где yi – значение функции отклика в i-ом эксперименте, Xij – значение j-го фактора на i-ом эксперименте, n – количество экспериментов, p – количество факторов Задача многофакторного линейного регрессионного анализа состоит в построении такого уравнении плоскости в (p+1)-мерном пространстве, отклонения результатов наблюдений yi от которой были бы минимальными.

Или, другими словами, следует вычислить значения коэффициентов b 0, bj в уравнении на которых достигается минимум Для отыскания минимума необходимо найти частные производные по всем неизвестным b 0, bj и приравнять их нулю. Полученные уравнения образуют систему нормальных уравнений, которая в матричной форме имеет вид где Из этого уравнения можем найти вектор-столбец коэффициентов регрессии: , каждый элемент которого можно найти по формуле: В которой cij – элементы обратной матрицы (XTX)-1.

Проверка значимости коэффициентов регрессии Проверка значимости уравнения регрессии мало отличается от соответствующей проверки однофакторной регрессии. Вычисляют остаточную дисперсию по формуле: которую сравнивают с дисперсией среднего Фишера: с помощью критерия с числом степеней свободы в числителе (n-1) и в знаменателе (n-р-1). Значимость коэффициентов регрессии b 0, bj проверяют по критерию Стьюдента: (, где - диагональные элементы матрицы).

Парные коэффициенты корреляции Корреляционный анализ начинают с вычисления парных коэффициентов корреляции, характеризующих тесноту связи между двумя величинами. В многофакторной ситуации вычисляют два типа парных коэффициентов корреляции: 1) - коэффициенты, определяющие тесноту связи между функцией отклика и одним из факторов; 2) - коэффициенты, показывающие тесноту связи между одним из факторов и фактором (). , где Значимость парных коэффициентов корреляции можно проверить по критерию Стьюдента: , где

Корреляционная матрица Значение парного коэффициента корреляции изменяется от - 1 до +1. Если, например, коэффициент - величина отрицательная, то это значит, что уменьшается с увеличением. Если положителен, то увеличивается с увеличением. Если один из коэффициентов окажется равным 1, то это означает, что факторы и функционально связаны между собой и тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент больше. После вычисления всех парных коэффициентов корреляции и исключения из рассмотрения того или иного фактора можно построить матрицу коэффициентов корреляции вида:

Частные коэффициенты корреляции Используя парных коэффициентов корреляции матрицу, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов на функцию отклика при условии, что остальные факторы закреплены на постоянном уровне. Частные коэффициенты корреляции вычисляются по формуле где - определитель матрицы, образованной из матрицы парных коэффициентов корреляции вычеркиванием 1 -й строки j-го столбца, определитель - j-ой строки j-го столбца. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1. Значимость и доверительный интервал для коэффициентов частной корреляции определяются так же, как для коэффициентов парной корреляции с числом степеней свободы v = n – k - 2, где k = р - 1 - порядок частного коэффициента парной корреляции.

Коэффициент множественной корреляции и его значимость Для изучения тесноты связи между функцией отклика и несколькими факторами используют коэффициент множественной корреляции R. Коэффициент множественной корреляции служит и для оценки качества предсказания; R всегда положителен и изменяется от 0 до 1. Чем больше R, тем лучше качество предсказаний данной моделью опытных данных. Коэффициент множественной корреляции вычисляется по формуле Значимость коэффициента множественной корреляции проверяют по критерию Стьюдента: , где - среднеквадратическая погрешность коэффициента множественной корреляции: Значимость R можно проверить также и по критерию Фишера: Полученное значение сравнивают с табличным при выбранном уровне значимости и числах степеней свободы v 1 = n - р - 1 и v 2 = p. Если расчетное значение превышает табличное, то гипотезу o равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой.

Многофакторный нелинейный регрессионный анализ Первый этап нелинейного многофакторного регрессионного анализа - получение полной квадратичной формы. Для этого определяют коэффициенты регрессии b 0, bk и bjk в полиноме Степень уравнения можно повышать до тех пор, пока уменьшается остаточная дисперсия. Задача нелинейной регрессии сводится к задаче линейной регрессии заменой переменных и т. д. Мерой тесноты связи в нелинейной зависимости служит множественное корреляционное отношение, но используя для вычисления у нелинейную форму уравнения. Сравнение множественного корреляционного отношения с коэффициентом множественной корреляции, вычисленным по линейной форме, дает некоторое представление о «кривизне» изучаемой зависимости.

Выбор оптимальной формы регрессии 1) метод полного перебора 2) метод отсеивания факторов При использовании метода исключения переменных уравнение регрессии расширяют сразу до полной квадратичной или, если возможно, до полной кубической формы. Исключение начинают с фактора, имеющего наименьший критерий Стьюдента. На каждом этапе после исключения каждого фактора для нового уравнения регрессии вычисляют множественный коэффициент корреляции, остаточную дисперсию и F-критерий Фишера. Наибольшую трудность представляет решение вопроса, на каком этапе прекратить исключение факторов. Здесь возможны следующие подходы: a) прекратить исключение факторов, когда остаточная дисперсия начнет увеличиваться; b) назначить уровень значимости (0. 05) при вычислении t-критерия Стьюдента для последнего оставляемого фактора. Во втором случае перед началом отсева факторов строят диаграмму ранжирования t-критериев Стьюдента для всех факторов расширенной модели.

3) метод включения факторов При использовании метода включения факторов в уравнение регрессии последовательно включаются факторы (наиболее значимые) пока остаточная дисперсия не увеличивается.

Пример регрессионного анализа Рассмотрим пример многофакторного регрессионного и корреляционного анализа с выбором оптимальной формы регрессии методом исключения эффектов (факторов и парных взаимодействий) на примере построения модели для вычисления ползучести бетона. В этой задаче строится зависимость удельных относительных деформаций ползучести бетона С(t, т) от десяти факторов: . В матрицу исходных данных включены результаты 367 опытов над бетонными образцами, в которых фиксировались значения у = С(t, т) , и следующих 10 факторов: -отношение массы цемента к массе заполнителя в 1 м 3 бетона (Ц/3); - расход цемента на 1 м 3 бетона (Ц); - влажность среды (W); - масштабный фактор (М); - водоцементное отношение (В/Ц); - возраст бетона в момент загружения (т); - время действия нагрузки (t - т); - нормальная густота цементного теста (НГ); - значение напряжений (); - модуль упругости заполнителя (E 3).

Решение Коэффициент корреляции близок к единице, поэтому фактор исключен из рассмотрения; На первом этапе была построена полная квадратичная модель с 54 эффектами. Критерий Фишера для этой модели получился: Затем был произведен 11 -ступенчатый отсев незначимых эффектов, в процессе которого было исключено 28 статистически незначимых по критерию Стьюдента эффектов, в результате была получена модель с 26 эффектами, для которой критерий Фишера возрос незначительно: а остальные параметры оказались хорошими Значимые, связи для наглядности удобно изображать в виде графа. Используя методы теории графов, можно построить таблицу, наглядно показывающую количество статистически значимых связей между функцией отклика и факторами. Такую таблицу называют еще матрицей смежности вершин.