Учебная работа. Построение модели множественной линейной регрессии

Построение модели множественной линейной регрессии

Задание

Имеются данные о деятель крупнейших компаний США — чистом доходе (Y, млрд. долл.), численности служащих (Х1, тыс. чел.) и использованном капитале (Х2, млрд. долл.):

Задание:

1.Оцените распределение переменной Х1:

  • определите вид переменной по типу измерения;
  • постройте статистический ряд и гистограмму, опишите закон
  • определите ожидаемое значение переменной и средний разброс ее значений;
  • сделайте вывод об ожидаемом значении данного показателя в генеральной совокупности с 95%-ной вероятностью;
  • определите, можно ли признать имеющийся набор данных нормально распределенным; укажите, как можно устранить существующие проблемы в наборе данных.

2.Исследуйте корреляционную зависимость между переменными У и Х1 (переменная Y подчиняется нормальному распределению):

  • выберите и рассчитайте числовой показатель взаимосвязи между переменными, сделайте вывод о силе и направлении связи между ними;
  • проверьте сделанные выводы с помощью поля корреляции;
  • предложите одну или несколько математических функций, наиболее соответствующих зависимости между переменными.

3.Произведите моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции:

  • постройте с помощью метода наименьших квадратов линейное уравнение регрессии Ŷ = b0 + b1 · X1;
  • приведите интерпретацию каждого из коэффициентов регрессии;
  • проверьте качество построенной модели при уровне значимости 0,05;
  • проверьте наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01;
  • проверьте наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1;
  • сделайте вывод, можно ли использовать линейную модель для прогнозирования. Совпадают ли ваши выводы с предположениями, сделанными в п. 2?

4.Произведите моделирование взаимосвязи между переменными с помощью множественной линейной регрессии Ŷ = b0 + b1 Х1 + b2 Х2.

5.Проверьте качество новой модели при том же уровне значимости, а также наличие автокорреляции остатков. Как можно объяснить изменения показателей?

.Если необходима дальнейшая корректировка модели, внесите предложения по изменению спецификации.

.Сравните качество построенных моделей. Какая из моделей, на ваш взгляд, предпочтительнее для выражения исследуемой зависимости и почему?

рассчитайте 99%-ные доверительные интервалы для теоретических коэффициентов наилучшей регрессии. Сделайте выводы.

8.По наилучшей регрессионной модели рассчитайте точечный прогноз среднего значения чистого дохода при значениях численности служащих 100 тыс. чел. и стоимости использованного капитала 30 млрд. долл.

Содержание

1. Оценка распределения переменной Х1

2. исследование корреляционной зависимости между переменными Х1 и У

. Моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции

. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии

. Проверка качества модели, построенной с помощью множественной регрессии

. сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии

7. Расчет точечного прогноза по заданным значениям

Список литературы

Приложение

1. Оценка распределения переменной Х1

переменная линейный регрессияВ набор данных в данной задаче входит две переменных Х1 (численность служащих, тыс. чел.) и Х2 (использованный Капитал, млрд.руб.), поэтому данный набор данных является двумерным массивом. Так как последовательность записи наблюдаемых значений не важна, то набор данных является перекрестным набором. Переменные в наборе принимают числовые показатели, поэтому являются количественными дискретными переменными.

Для того чтобы найти закон распределения случайной величины и построить гистограмму, произведем группировку значений случайной величины по интервалам, найдем частоту попадания величин с эти интервалы, а далее — определим середину каждого из интервалов и вероятность попадания в указанные нами интервалы. Данные действия необходимы, так как при построении гистограммы по оси абсцисс откладываются средние значения в интервалах, по оси ординат — вероятности попадания в интервал. Построив график, мы найдем законсамостоятельно таким образом, чтобы построенная на основе закона распределения гистограмма была наглядной.

исходные данные

Упорядочим значения численности служащих (Х1, тыс.чел.) по возрастанию.

Из данных видно, что минимальное значение численности служащих равно 4,1 тыс.чел., максимальное — 745 тыс.чел. Ширина равных интервалов группировки рассчитывается по формуле:

(1)

где: Xmax — максимальное значение переменной; Xmin — минимальное значение переменной; n — число групп.

количество интервалов примем равным 6. Границы интервалов определяются путем прибавления величины шага к значению предыдущей границы. Рассчитаем ширину равных интервалов группировки:

тыс.чел.

Частота попадания значений случайной величины в соответствующие интервалы определяется с помощью встроенной функции MS Excel ЧСТРОК, т.к. ее удобно использовать для подсчета частоты попадания значений в определенный интервал: ЧСТРОК (диапазон ячеек)

Построим закон распределения случайной величины Х1 (численность служащих). Рассчитаем вероятность попадания каждого значения в интервал.

Для наглядности расчеты сведем в таблицу 1.

Таблица 1. Расчет вероятности попадания каждого значения в интервал.

Строим гистограмму с помощью Мастера диаграмм MS Excel (законзначения в интервале, по оси ординат — вероятность попадания в интервал (рис.1).

рисунок 1 — Закон распределения случайной величины

Определим ожидаемое определения ожидаемого значения переменной найдем ее математическое ожидание.

Математическое ожидание некоторое число, которое характеризует типичное значение случайной величины. Оно рассчитывается по формуле:

(2)

Математическое ожидание можно рассчитать с помощью встроенной функции Excel — СРЗНАЧ (диапазон ячеек).

m= 115,4520 тыс.чел.

Для определения среднего разброса значения переменной найдем ее среднее квадратичное отклонение.

Среднее квадратичное отклонениенекоторое число, которое показывает, на сколько в среднем конкретные значения случайной величины отличаются от математического ожидания. Оно рассчитывается по формуле:

(3)

Среднее квадратичное отклонение можно рассчитать с помощью встроенной функции Excel — СТАНДОТКЛОН (диапазон ячеек).

σ= 148,7732 тыс.чел..

Сделаем вывод о наиболее типичном значении данного показателя в генеральной совокупности с 95%-ной уверенностью.

Имея информацию о выборке, можно приблизительно оценить, чему может быть равна ошибка оценивания — разность между выборочным средним и математическим ожиданием генеральной совокупности. Такой оценкой является стандартная ошибка, которая рассчитывается по формуле:

(4)

где: S — выборочное среднее квадратичное отклонение; n — объем выборки.

Рассчитаем стандартную ошибку:

тыс.чел.

По таблице распределения Стьюдента определим используется величина α = 1 — γ, которая называется уровнем значимости и показывает, каков процент ошибки, т.е. процент того, что В нашем случае уровень значимости α=1-0,95=0,05 при ν=n-1=25-1=24. встроенная формула Excel для нахождения критической точки: =СТЬЮДРАСПОБР(0,05;24)

tкр= 2,0639

Доверительный интервал — интервал вокруг математического ожидания случайной величины, имеющей нормальное распределение и ширину 4 средних квадратичных отклонения. Границы доверительного интервала находятся по формуле: от (m — tкр · Sх) до (m + tкр · Sх) (5)

Тогда нижняя граница доверительного интервала:

,4520 — 2,0639 . 29,7546 = 54,0414 тыс.чел.

верхняя граница доверительного интервала:

,4520 + 2,0639 . 29,7546 = 176,8626 тыс.чел.

Вывод: можно быть на 95% уверенными, что Определим, можно ли признать имеющийся набор данных нормально распределенным. Построенная гистограмма не соответствует нормальному распределению, т.к. по определению нормальное распределение — это непрерывное распределение, имеющее графическое нормального распределения зависит от значений числовых характеристик распределения — математического ожидания и среднего квадратичного отклонения.

. Исследование корреляционной зависимости между переменными Х1 и У

Так как переменная Х1 не подчиняется нормальному закону распределения, то для характеристики взаимосвязи будем использовать коэффициент ранговой корреляции. Построим поле корреляции.

рисунок 2 — Поле корреляции

На поле корреляции заметна положительная корреляционная зависимость (с увеличением Х увеличивается Y). Точки на поле корреляции сгруппированы вокруг линии, направленной вверх и вправо, но имеют значительный разброс, следовательно, можно сделать предварительный вывод: между переменными Х и Y наблюдается слабая линейная зависимость.

Определим вид переменных Х и Y по типу измерения:

численность служащих (Х) — количественная дискретная переменная;

чистый доход (Y) — количественная дискретная переменная.

Так как обе переменные являются количественными, но одна из переменных (Х) не подчиняется нормальному распределению исходя из выводов, сделанных выше, для оценки силы корреляционной зависимости используем коэффициент ранговой корреляции Спирмена:

(6)

гдеd — разность между рангами значений переменных Х и Y;

n — объем выборки (число наблюдаемых пар значений в наборе данных).

Рангом (R) называется порядковый номер, который присваивается каждому наблюдаемому значению переменной после упорядочивания. Расчеты сведем в таблицу 2.

Таблица 2. Расчет коэффициента ранговой корреляции

= 0,36538462

По таблице 3 дадим интерпретацию полученному коэффициенту ранговой корреляции.

Таблица 3 — Интерпретация коэффициента ранговой корреляции

Коэффициент корреляции равен 0,365, что по таблице 3 можно интерпретировать следующим образом: прямая связь средней силы. Точки на поле корреляции сгруппированы вокруг прямой или кривой линии, направленной вверх и вправо, но имеют некоторый разброс, что соответствует выводу, сделанному по полу корреляции.

Для проверки гипотезы о значимости коэффициента ранговой корреляции используется критерий:

(7)

который подчинен распределению Стьюдента с числом степеней свободы n = n-2.

По таблице распределения Стьюдента необходимо определим критическую точку для двустороннего уровня значимости α:

α = 0,05n = 10-2 = 23кр(α ; n) = tкр(0,05; 23)= 2,06866.

Так как Т=1,8825< tкр=2,06866, то критерий Т попадает область принятия гипотезы, значит, принимается нулевая гипотеза, т.е. коэффициент корреляции в генеральной совокупности незначим.

. Моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции

Произведем моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции.

Линейный регрессионный анализ позволяет предсказывать одну переменную на основании другой с использованием прямой линии, характеризующей взаимосвязь между этими переменными: Ŷ = b0 + b1 · X

Переменную, поведение которой прогнозируют, называют результирующей переменной (Y); переменную, которая используется для прогнозирования, — фактором (Х1). Коэффициенты b0 и b1 называются коэффициентами регрессии.

Угловой коэффициент b1 показывает наклон линии регрессии, или изменение результирующего показателя Y при изменении фактора Х на единицу. свободный член b0 показывает сдвиг линии регрессии по вертикальной оси, т.е. определяет значение результирующего показателя Y при нулевом значении фактора Х.

С помощью метода наименьших квадратов строится уравнение регрессии, которое характеризуется наименьшей суммой квадратов отклонений реальных точек наблюдений от линии регрессии.

Метод наименьших квадратов использует следующие формулы для расчета коэффициентов регрессии:

(6)

(7)

Все необходимые промежуточные расчеты сведем в таблицу 4.

Также для расчета коэффициентов уравнения линейной линейной регрессии и показателей его качества может использоваться режим работы «Регрессия». Результаты, полученные с помощью данного режима, представлены в приложении А.

Таблица 4. промежуточные расчеты для вычисления коэффициентов регрессии

№ п/пxyx*yх21430,938,71849264,71,7109,994186,093240,716,8576450,21,785,342520,0451062,6275,611236696,61,3125,589331,5673474,11422,7120409885,61,6136,967327,3697456,95140,5555025104,10,41,6416,811156,81,373,843226,241242,71,981,131823,291361,81,9117,423819,24142121,4296,844944151050,442110251633,50,826,81122,25171421,8255,62016418960,986,49216191401,1154196002059,31,9112,673516,4921131-0,9-117,9171612270,71,391,914998,492365,42130,84277,162423,10,613,86533,612580,80,756,566528,64Среднее

Тогда линейное уравнение регрессии будет иметь вид:

Ŷ = 0,6313 + 0,00804 · X1

Приведем интерпретацию каждого из коэффициентов уравнения регрессии. Угловой коэффициент регрессии (коэффициент наклона) показывает, что если Х1 увеличивается на одну единицу, то У возрастает на 0,00804 единицы, т.е. при возрастании численности служащих на 1 тыс.чел., чистый доход У увеличивается на 0,00804 млрд.долл.

свободный член уравнения регрессии показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Свободный член регрессии дает прогнозируемое чистый доход составит 0,6313 млрд.руб.

Проверим качество построенной модели при уровне значимости 0,05. Если существует значимая линейная взаимосвязь между фактором и результирующим показателем, построенное уравнение регрессии будет адекватно данным генеральной совокупности. Таким образом, проверка адекватности уравнения сводится к проверке значимости линейной взаимосвязи между переменными.

Проверить значимость линейной взаимосвязи можно несколькими способами:

1)проверить значимость углового коэффициента регрессии;

2)проверить значимость коэффициента детерминации.

Оба способа основаны на методе проверки статистических гипотез.

Для проверки углового коэффициента используется критерий Стьюдента:

(8)

гдеb1 — эмпирический угловой коэффициент регрессии;

Sb1 — стандартная ошибка углового коэффициента регрессии, которая

определяется по формуле:

(9)

гдеSе2 и Sе — остаточная дисперсия и стандартная ошибка регрессии соответственно;

Sх — среднее квадратичное отклонение переменной Х.

=0,00112

критерий tb1 имеет распределение Стьюдента с числом степеней свободы n = n — 2 = 25 — 2 =23

7,1774

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;23)

2,06866

= 7,1774 > 2,06866,

то есть 1)угловой коэффициент признается значимым;

2)существует значимая линейная связь между фактором и результирующим показателем;

)построенное уравнение адекватно данным генеральной совокупности.

Проверим значимость свободного члена регрессии.

где b0 — эмпирический свободный член регрессии;

Sb0 — стандартная ошибка свободного члена регрессии, которая определяется по формуле:

(11)

0,20841

= 3,02912 > 2,06866, то есть Определим коэффициент детерминации по формуле:

(12)

где Sy2 — дисперсия переменной Y. Sy2 = 2,071667

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. промежуточные расчеты сведем в таблицу 5.

Таблица 5. промежуточные расчеты для вычисления коэффициента детерминации

№xye=-yе21430,90,977010,077010,00593054264,71,71,151478-0,5485220,300876383240,70,824250,124250,01543806450,21,71,034898-0,6651020,4423606751062,61,48353-1,116471,24650526696,61,31,4079540,1079540,0116540773474,13,42117-0,678830,46081017885,61,61,319514-0,2804860,078672497456,96,62109-0,278910,07779079104,10,40,6642540,2642540,069830181156,81,31,087962-0,2120380,044960111242,71,90,974598-0,9254020,856368861361,81,91,128162-0,7718380,5957339142121,42,335770,935770,87566549151050,41,475491,075491,156678741633,50,80,900630,100630,0101264171421,81,77297-0,027030,0007306218960,91,403130,503130,2531398191401,11,756890,656890,431504472059,31,91,108062-0,7919380,627165821131-0,91,684532,584536,679795322270,71,31,199718-0,1002820,010056482365,421,157106-0,8428940,71047032423,10,60,8170140,2170140,047095082580,80,71,2809220,5809220,33747037Сумма15,3468302

вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% — случайностью.

Проверим статистическую значимость уравнения с помощью критерия Фишера.

(13)

Табличное значение критерия рассчитаем как =FРАСПОБР(0,05;1;23).

> , следующими:

1)коэффициент детерминации признается значимым;

2)существует значимая линейная связь между фактором и результирующим показателем;

)построенное уравнение адекватно данным генеральной совокупности.

Построим линию регрессии на поле корреляции (рис.4).

рисунок 4 — Линия регрессии на поле корреляции

Проверим наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01.

одной из предпосылок МНК является независимость между собой значений случайных отклонений. Если присутствует корреляция между ними, то говорят о наличии автокорреляции остатков. Автокорреляцией остатков называется зависимость между значениями случайных отклонений, упорядоченными по значениям фактора Х.

наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) еi и прогнозируемыми значениями результирующего показателя ŷi.значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя — по горизонтальной оси (рис.5).

При анализе диагностической диаграммы можно сделать следующий вывод: между точками на поле взаимосвязи не наблюдается, диаграмма представляет собой облако из точек, расположенных хаотично и неупорядоченно, следовательно, автокорреляция остатков отсутствует, значит, предпосылки МНК выполняются.

Рисунок 5 — Диагностическая диаграмма к определению автокорреляции.

Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу 6.

Таблица 6. промежуточные расчеты критерия Дарбина-Уотсона

xyy1eiei2ei-1ei- ei-1(ei — ei-1)24,10,40,664269-0,2642690,069838131 23,10,60,817108-0,2171080,047135748-0,2642690,04716140,00222419240,70,824347-0,1243470,015462279-0,21710770,09276030,0086044733,50,80,900767-0,1007670,010153934-0,12434740,02358070,0005560542,71,90,9747730,9252270,856045353-0,10076671,02599391,05266353430,90,977186-0,0771860,0059576870,9252272-1,0024131,0048323150,21,71,0351040,6648960,442086889-0,07718610,74208220,5506859956,81,31,0881950,2118050,0448612870,6648961-0,4530910,2052917459,31,91,1083060,7916940,6267801580,21180480,57988970,3362720161,81,91,1284160,7715840,5953420820,7916945-0,020110,0004044364,71,71,1517440,5482560,300584790,7715841-0,2233280,049875465,421,1573750,8426250,7100172920,54825610,29436910,0866531770,71,31,2000090,0999910,0099982610,8426252-0,7426340,5515051680,80,71,281255-0,5812550,3378567940,0999913-0,6812460,4640958485,61,61,3198660,2801340,078474852-0,58125450,86138810,74198952960,91,403525-0,5035250,2535378390,2801336-0,7836590,614121596,61,31,408352-0,1083520,011740133-0,50352540,39517350,156162111050,41,475923-1,0759231,157609572-0,1083519-0,9675710,936193191062,61,4839671,1160331,245530105-1,07592272,19195594,8046705131-0,91,68507-2,585076,6825883061,1160332-3,70110313,69816691401,11,757468-0,6574680,432263541-2,58507031,92760283,715652361421,81,7735560,0264440,000699296-0,65746750,68391170,467735242121,42,336646-0,9366460,8773048270,0264442-0,963090,927541813474,13,4226040,6773960,458864983-0,93664551,61404132,605129177456,96,6241720,2758280,0760813450,6773957-0,4015670,16125627 15,34681548 33,1422829

критерий Дарбина — Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости a = 0,01, одной независимой переменной m=1, и числе наблюдений n=25, dl = 1,033 и du = 1,211.

Так как du < DW < 4 - du (1,033 < 2,160 < 2,789), то можно сделать вывод, что автокорреляция отсутствует.

Проверим наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1 (рис.6).

На диагностической диаграмме заметно увеличение дисперсии при увеличении значений фактора, т. е. можно сделать вывод о наличии гетероскедастичности в построенной регрессионной модели.

рисунок 6 — Диагностическая диаграмма к определению гетероскедастичности.

Проверим наличие гетероскедастичности в регрессионной модели с помощью теста ранговой корреляции Спирмена. суть теста ранговой корреляции сводится к оценке коэффициента корреляции между рангами переменной Х и модуля случайных отклонений е.

Ранг — это место данного числового значения среди упорядоченных значений анализируемого показателя.

Коэффициент ранговой корреляции находится по формуле:

(15)

Вспомогательные расчеты оформим в виде таблицы 7.

Проверка правильности составления матрицы на основе исчисления контрольной суммы:

Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.

Рассчитаем коэффициент ранговой корреляции:

Вывод: между фактором Х и случайными отклонениями е имеется взаимосвязь слабой силы.

Таблица 7. Вспомогательные расчеты к тесту ранговой корреляции

xyR(xi)eiR(ei)didi2430,96-0,0771860,0771861241664,71,7110,54825610,548256113-24240,73-0,1243470,12434746-3950,21,770,66489610,664896116-9811062,6191,11603321,116033224-52596,61,317-0,1083520,10835195121443474,1240,67739570,67739571774985,61,6150,28013360,2801336114167456,9250,27582850,275828510152254,10,41-0,2642690,2642699-86456,81,380,21180480,211804871142,71,950,92522720,925227221-1625661,81,9100,77158410,771584118-8642121,423-0,9366460,936645522111050,418-1,0759231,075922723-52533,50,84-0,1007670,10076674001421,8220,02644420,0264442121441960,916-0,5035250,5035254124161401,121-0,6574680,65746751563659,31,990,79169450,791694519-10100131-0,920-2,585072,585070325-52570,71,3130,09999130,099991331010065,42120,84262520,842625220-86423,10,62-0,2171080,21710778-63680,80,714-0,5812550,58125451400 325 32501798

Проверим значимость коэффициента ранговой корреляции при уровне значимости 0,01:

Н0: rx,e = 0 — коэффициент ранговой корреляции незначим,

Н1: rx,e ≠ 0 — коэффициент ранговой корреляции значим.

Рассчитаем наблюдаемое

Критическое значение критерия Стьюдента при уровне значимости a = 0,1 и числе степеней свободы ν = n — 2 =25 — 2 =23, = 1,7139. Коэффициент ранговой корреляции признается незначимым, так как наблюдаемое = 1,7139. Зависимость между фактором Х и случайными отклонениями е отсутствует, т.е. наблюдается гомоскедастичность.

4. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии

Прогнозирование одной переменной Y на основании нескольких факторов Х1, Х2 и т.д. называется множественной регрессией. Уравнение множественной линейной регрессии для данной задачи выглядит следующим образом:

Ŷ = b0 + b1 · X1 + b2 · X2 (16)

Угловые коэффициенты b1, b2 для каждого фактора показывают изменение результирующего показателя Y при изменении данного фактора Х на единицу при условии, что все остальные факторы остаются неизменными. Свободный член b0 показывает значение результирующего показателя Y при нулевых значениях всех факторов.

Чаще всего для определения коэффициентов уравнения регрессии используется метод наименьших квадратов, который минимизирует сумму квадратов отклонений реальных точек наблюдений от линии регрессии. Вычисление коэффициентов множественной регрессии произведем с помощью функции ЛИНЕЙН, которая дает параметры линейного приближения по методу наименьших квадратов.

ЛИНЕЙН (известные_значения_у; известные_значения_х; константа; статистика)

Результат:

Аргументы:

известные_значения: диапазон значений результирующего показателя Y;

известные_значения: диапазон значений факторов (одновременно выделяются все столбцы, содержащие значения факторов);

константа: логическое значение: если оно равно 0, свободный член b0 равен 0;

если оно равно 1, то b0 вычисляется обычным образом.

статистика: логическое значение:

если оно равно 0, то функция рассчитывает только коэффициенты регрессии;

если оно равно 1, то функция рассчитывает дополнительную регрессионную статистику.

Полученный результат представлен в таблице 8.

Таблица 8. результат расчета с помощью функции ЛИНЕЙН

b00,51383517Sb00,1982011b10,00565112Sb10,0014665b20,02407261Sb20,0105045R20,75081808Se0,750434F33,1444541n22ssоб37,3306747ssост12,389325

Уравнение регрессии будет иметь вид:

Ŷ = 0,51384 + 0,00565 · X1 + 0,02407 · X2

Также для расчета коэффициентов уравнения множественной линейной регрессии и показателей его качества может использоваться режим работы «Регрессия». Результаты, полученные с помощью данного режима, представлены в приложении Б.

Дадим словесную интерпретацию коэффициентов уравнения регрессии. b0 — свободный член. Показывает, что при нулевых значениях X1 и X2 показывает, что при увеличении численности на 1 тыс.чел. чистый доход увеличится на 1 млрд.долл. при постоянном объеме использованного капитала, коэффициент b2 показывает, что при увеличении использованного капитала на 1 млрд.долл. чистый доход увеличится на 1 млрд.долл. при постоянной численности служащих.

5. Проверка качества модели, построенной с помощью множественной регрессии

Рассчитаем стандартную ошибку регрессии, которая для многомерных данных определяется следующим образом:

(17)

где m — число факторов Х.

Стандартная ошибка регрессии показывает величину, на которую в среднем отклоняются реальные наблюдаемые значения yi от прогнозируемых по уравнению регрессии ŷi. Чем меньше величина стандартной ошибки регрессии, тем более точными окажутся прогнозы, выполненные на основании уравнения регрессии.

= 0,75043

Рассчитаем коэффициент детерминации. В случае множественной регрессии коэффициент детерминации показывает, какую долю разброса результирующего показателя Y можно объяснить с помощью используемых в уравнении регрессии m факторов. С увеличением коэффициента детерминации, точность прогнозирования по уравнению регрессии возрастает.

(18)

Это означает, что 75% вариации результирующего показателя объясняется с помощью уравнения регрессии(действием факторов х1 и х2), а 25% — случайностью.

Выводы, сделанные на основе стандартной ошибки регрессии или коэффициента детерминации, относятся лишь к эмпирическим данным. Каким бы качественным не было построенное уравнение по отношению к эмпирическим данным, может оказаться, что в генеральной совокупности связь между переменными отсутствует вовсе, и выявленная сильная линейная связь — просто случайность, основанная на случайно отобранной выборке.

Проверка адекватности эмпирического уравнения регрессии данным генеральной совокупности осуществляется с помощью проверки значимости коэффициента детерминации. Цель этой проверки заключается в том, чтобы выяснить, объясняет ли совместное влияние всех m факторов значительную долю разброса переменной Y.

Нулевая и альтернативная гипотезы формулируются следующим образом:

Н0: R2 = 0 — m факторов объясняет незначительную долю разброса переменной Y.

Н1: R2 > 0 — m факторов объясняет значительную долю разброса переменной Y.

Для проверки используется критерий Фишера:

(19)

4

Критерий F имеет распределение Фишера с числами степеней свободы n1 = m=2 и n2 = n-m-1=22.

Найдем табличное Так как Fрасч = 33,1444 > Fтабл = 3,4433568, то гипотезы и принимаем альтернативную. Отсюда следуют выводы:

) коэффициент детерминации признается значимым;

) существует значимая линейная связь между факторами и результирующими показателями;

) построенное уравнение адекватно данным генеральной совокупности.

Поскольку регрессия оказалась значимой, то можно продолжить проверку качества уравнения регрессии, используя гипотезы о значимости коэффициентов регрессии.

Значимость коэффициента детерминации (значимость регрессии) показывает, что один или несколько (может быть и все) из используемых в уравнении m факторов вместе значимо влияют на результирующий показатель Y. При этом неизвестно, какие из факторов действительно влияют на результат, а какие нет.

Если выяснить, какие из используемых факторов не влияют на результат, их можно исключить из уравнения регрессии без снижения его качества. При этом уравнение может значительно упроститься, что существенно для его использования. Проверка значимости каждого из коэффициентов регрессии bj показывает, насколько значимым является влияние соответствующего фактора Хj на Y при условии, что все остальные факторы остаются неизменными.

Проверку значимости коэффициентов регрессии осуществим с помощью критерия Стьюдента. Проверка гипотезы о значимости любого из коэффициентов регрессии осуществляется следующим образом:

Н0: bj = 0 — значение теоретического коэффициента регрессии незначимо, фактор Xj не влияет на результирующий показатель.

Н1: bj ≠ 0 — Для проверки используется критерий Стьюдента:

(20)

Критерий tbj имеет распределение Стьюдента с числом степеней свободы n = n-m-1.

) свободный член регрессии b0 = 0,51383517. Стандартная ошибка регрессии Sb0 = 0,1982011. Фактическое

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;22)

2,07387

= 2,5925 > 2,07387, то есть свободный член регрессии признается значимым.

) коэффициент регрессии b1 = 0,00565. стандартная ошибка регрессии Sb1 = 0,00147. Фактическое значение критерия Стьюдента

= 3,85353 > 2,07387, то есть значение критерия попадает в одну из критических областей. Отсюда делаем вывод, что коэффициент регрессии b1 признается значимым.

) коэффициент регрессии b2 = 0,024073. Стандартная ошибка регрессии Sb2 = 0,010504. Фактическое

= 2,29165 > 2,07387, то есть значимым.

Чтобы сравнить влияние различных факторов на результирующий показатель, следует сравнить коэффициенты корреляции между каждым из этих факторов и результирующим показателем rXj,Y. Для этого воспользуемся функцией =КОРРЕЛ(массив1;массив2).

влияние фактора 1: коэффициент корреляции rX1,Y = 0,8314657

Влияние фактора 2: коэффициент корреляции rX2,Y = 0,7695045.

Для фактора Х1 коэффициент корреляции больше rX1,Y = 0,8314657 > rX2,Y = 0,7695045, поэтому фактор 1 (численность служащих) сильнее влияет на результирующий показатель (чистый Доход).

Статистические выводы о качестве уравнения регрессии будут обоснованными только в том случае, если выполняются определенные условия относительно свойств случайного отклонения, называемые предпосылками метода наименьших квадратов (МНК). Если предпосылки МНК не выполняются, могут быть существенные проблемы с интерпретацией полученных выводов. Поэтому, построив уравнение регрессии, необходимо проверить выполнение этих условий.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) еi и прогнозируемыми значениями результирующего показателя ŷi. значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя — по горизонтальной оси (рис.7).

возможные варианты интерпретации структуры диагностической диаграммы приведены в таблице 9.

Таблица 9. Интерпретация диагностической диаграммы

структура диагностической диаграммыИнтерпретацияЯвная взаимосвязь отсутствуетНикаких проблем не обнаруженоЗаметна линейная или нелинейная взаимосвязь — присутствует автокорреляция остатков, при этом одно или несколько значений могут резко отклонятьсяПо-видимому, данные связаны нелинейной связью. Качество уравнения можно повысить, воспользовавшись нелинейной регрессией или добавив в уравнение новую переменнуюДисперсия случайных отклонений различается для разных значений ŷi — присутствует гетероскедастичностьПрогнозы, сделанные на основании этого уравнения, недостаточно точны. Для улучшения качества уравнения необходимо устранить гетероскедастичность

Рисунок 7. Диагностическая диаграмма.

Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу (табл.10).

критерий Дарбина — Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости a = 0,01, двух независимых переменных m=2, и числе наблюдений n=25, dl = 0,981 и du = 1,303.

Так как du < DW < 4 - du (0,981 < 1,253 < 2,697), то можно сделать вывод, что автокорреляция отсутствует.

Таблица 10. Вспомогательные расчеты к вычислению критерия Дарбина-Уотсона

x1х2уeiei2ei-1ei- ei-1(ei — ei-1)24,11,40,90,57070640,329293580,10843426 23,11,91,70,6901141,0098859771,019869690,329293580,68059240,4632062418,50,71,0948054-0,394805360,155871271,00988598-1,4046911,97315833,53,21,70,78018010,9198199250,8460687-0,39480541,31462531,7282442,718,92,61,21011041,3898896331,931793190,919819930,47006970,2209664318,91,31,21180570,0881942970,007778231,38988963-1,3016951,69441150,24,84,10,913073,18693002910,1565230,08819433,09873579,60216356,881,61,02739970,5726002780,327871083,18693003-2,614336,8347259,311,96,91,13541075,76458929633,23048980,572600285,19198926,9567561,813,20,41,1808329-0,78083290,609700025,7645893-6,54542242,8425564,713,71,31,20925750,0907425440,00823421-0,78083290,87157540,75964465,411,51,91,16025350,7397465020,547224890,090742540,6490040,42120670,78,61,91,12039390,779606130,607785720,73974650,03985960,00158980,85,81,41,11006690,2899331170,084061210,77960613-0,4896730,2397885,620,10,41,4814306-1,0814305891,169492120,28993312-1,3713641,880638966,90,81,2224438-0,4224437930,17845876-1,08143060,65898680,43426496,65,81,81,19935460,6006454050,3607749-0,42244381,02308921,04671210512,20,91,4008887-0,5008887160,250889510,60064541-1,1015341,21337710621,81,11,6376369-0,5376368940,28905343-0,5008887-0,0367480,001351311,61,91,29264820,6073518060,36887622-0,53763691,14498871,31099914015-0,91,6660813-2,5660812586,584773020,60735181-3,17343310,07068142131,31,6292383-0,329238280,10839785-2,56608132,2368435,00346721212,622,0151877-0,0151877050,00023067-0,32923830,31405060,098628347990,64,8579626-4,25796255318,1302451-0,0151877-4,24277518,0011474560,60,76,1827205-5,48272047330,0602238-4,2579626-1,2247581,500032 107,143121 134,2997

6. Сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии

Линейное уравнение регрессии имеет вид: Ŷ = 0,6313 + 0,00804 · X1. здесь не учитывается влияние на результирующий показатель фактора Х2. путем проверки качества построенной модели можно сделать следующие выводы:

) оба коэффициента уравнения регрессии значимы;

) существует значимая линейная связь между фактором и результирующим показателем;

) ) построенное уравнение адекватно данным генеральной совокупности;

) в модели отсутствует автокорреляция остатков и присутствует гомоскедастичность.

6) Значение коэффициента детерминации R2 = 0,69134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% — случайностью.

Уравнение множественной регрессии имеет вид:

Ŷ = 0,51384 + 0,00565 · X1 +0,02407 · X2

В данной модели учитывается влияние на результат обеих факторов.

Путем проверки качества построенной модели можно сделать следующие выводы:

) все коэффициенты уравнения регрессии значимы;

) ) построенное уравнение адекватно данным генеральной совокупности;

) в модели отсутствует автокорреляция остатков.

5) Для фактора Х1 коэффициент корреляции больше rX1,Y = 0,8314657 > rX2,Y = 0,7695045, поэтому фактор 1 (численность служащих) сильнее влияет на результирующий показатель (чистый Доход).

Значение коэффициента детерминации R2 = 0,75082 показывает, что 75% вариации результирующего показателя объясняется с помощью уравнения регрессии(действием факторов х1 и х2), а 25% — случайностью.

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. Если сравнивать коэффициенты детерминации построенных моделей, то для модели множественной регрессии коэффициент детерминации больше.

2 множ= 0,75082 > R2 лин= 0,69134,

поэтому точнее осуществляется предсказание результирующего показателя по уравнению множественной регрессии.

Рассчитаем 99%-ные доверительные интервалы для теоретических коэффициентов множественной регрессии.

Для любого из коэффициентов доверительный интервал строится следующим образом:

(b — tкр · Sb; b + tкр · Sb) (15)

гдеb — эмпирический коэффициент регрессии

Sb — стандартная ошибка соответствующего коэффициента;

tкр — критическое (табличное) 1) свободный член регрессии b0 = 0,5138. Стандартная ошибка регрессии Sb0 = 0,1982. Найдем табличный критерий Стьюдента для уровня значимости 0,01. Для этого используем функцию =СТЬЮДРАСПОБР(0,01;22)

2,8073. Доверительный интервал

нижняя граница 0,5138 — 2,8073 · 0,1982=-0,04258

верхняя граница 0,5138 + 2,8073 · 0,1982=1,070252

) коэффициент регрессии b1 = 0,00565. стандартная ошибка регрессии Sb1 = 0,00147. Доверительный интервал

нижняя граница 0,00565 — 2,8073 · 0,00147=0,001534

верхняя граница 0,00565 + 2,8073 · 0,00147=0,009768

) коэффициент регрессии b2 = 0,02407. стандартная ошибка регрессии Sb2 = 0,0105. Доверительный интервал

нижняя граница 0,02407 — 2,8073 · 0,0105= -0,00542

верхняя граница 0,02407 + 2,8073 · 0,0105= 0,053562

7. Расчет точечного прогноза по заданным значениям

По уравнению множественной регрессии

Ŷ = 0,51384 + 0,00565 · X1 +0,02407 · X2

как наилучшей модели, рассчитаем точечный прогноз среднего значения чистого дохода при значениях численности служащих 100 тыс. чел. и стоимости использованного капитала 30 млрд. долл.

Ŷ = 0,51384 + 0,00565 · 100 +0,02407 · 30

Ŷ = 1,8011 млрд.долл.

Список литературы

1. Е.Д.Саяпина. Задания и методические указания по выполнению курсовой работы по курсу «Эконометрика», Новомосковск, 2013

. Эконометрика. книги 1 и 2. (Учебник) Носко В.П. (2011, 672с. и 576с.)

. Эконометрика. (Учебник) Под ред. Уткина В.Б. (2012, 564с.)

4. Эконометрика. (Учебно-метод. пособие) Шалабанов А.К., Роганов Д.А. (КазГУ; 2008, 198с.) <#"justify">приложение А

Коэффициенты уравнения линейной регрессии и показателей его качества полученные с помощью режим работы «регрессия

Приложение Б

Коэффициенты уравнения множественной регрессии и показателей его качества полученные с помощью режим работы «Регрессия»

Учебная работа. Построение модели множественной линейной регрессии