Учебная работа. Построение и анализ модели множественной регрессии

Построение и анализ модели множественной регрессии

Построение и анализ модели множественной регрессии

По исходным данным требуется:

. Построить классическую линейную модель множественной регрессии, выполнить экономический анализ основных показателей модели: коэффициентов "чистой" регрессии, индекса корреляции, индекса детерминации, оценить значимость модели в целом (F-критерий Фишера) и отдельных ее параметров (t-статистика Стьюдента).

. Проанализировать матрицу парных коэффициентов корреляции на наличие мультиколлинеарности. Если мультиколлинеарность присутствует — устранить (или ослабить) ее методом пошагового отбора переменных.

. построить линейную модель регрессии только со значимыми факторами (на основании выводов, сделанных в п.п. 1 и 2). дать экономическую интерпретацию коэффициентов модели. Оценить качество построенной модели (индексы корреляции и детерминации, F-критерий Фишера, средняя относительная ошибка аппроксимации). Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, β- и Δ- коэффициентов.

. построить и проанализировать линейную модель парной регрессии с наиболее значимым фактором. Сравнить качество моделей, построенных в п.п. 3 и 4.

. осуществить прогнозирование (точечный прогноз и доверительный интервал прогноза) среднего значения показателя Y при уровне значимости a = 0,1 при условии, что прогнозное значения фактора X составит 80% от его максимального значения (для однофакторной модели).

. Представить графически: фактические и модельные значения, точечный прогноз и доверительный интервал прогноза (для однофакторной модели).

Изучите зависимость стоимости квартиры от ряда основных факторов.

Таблица 1 — исходные данные

№ п/пХ1 — общая площадь квартиры (м2)X2 — жилая площадь квартиры (м2)X3 — тип дома (1 — кирпичный, 0 — другой)X4 — наличие балкона (1 — есть, 0 — нет)Y — цена квартиры, тыс. долл.139,020,00115,9268,440,50127,0334,816,00113,5439,020,00115,1554,728,00121,1674,746,30128,7771,145,90027,2874,547,50028,39137,787,20152,31040,017,71122,01153,031,11128,01286,048,71145,01398,065,81151,01462,621,41134,41545,320,61124,71656,429,71130,81737,017,80115,91867,543,50129,01937,017,80115,42069,042,40128,62140,020,00015,62269,141,30127,72368,135,41134,12475,341,41137,72583,748,51141,92648,722,31124,42739,918,01021,32868,635,51136,72939,020,01021,53048,631,01026,4регрессия корреляция интервал прогноз

Решение

Линейная модель множественной регрессии имеет вид:

,

где — расчётные значения исследуемой переменной,

— факторные переменные.

— коэффициенты уравнения, каждый из которых показывает, насколько изменится неизменных прочих факторных переменных.

Рассмотрим факторные признаки для построения регрессионной модели.

Цена квартиры — это зависимая переменная Y;

независимые объясняющие переменные:

-общая площадь квартиры Х1;

-жилая площадь квартиры Х2;

-тип дома Х3;

-наличие балкона Х4

. Построим классическую модель множественной регрессии

классическая линейная модель множественной регрессии можно представить в виде:

Проведем регрессивный анализ, используя инструмент Excel "Регрессия" (Сервис — анализ данных — Регрессия).

Таблица 2 — Протокол выполнения регрессивного анализа многофакторной модели

ВЫВОД ИТОГОВРегрессионная статистикаМножественный R0,9899R-квадрат0,9800Нормированный R-квадрат0,9768стандартная ошибка1,5612Наблюдения30Дисперсионный анализ dfSSMSFЗначимость FРегрессия42979,3358744,8339305,57927,88E-21Остаток2560,93622,4374Итого293040,2720 КоэффициентыСтандартная ошибкаt-статистикаP-ЗначениеНижние 95%Верхние 95%Нижние 95,0%Верхние 95,0%Y-пересечение-1,42741,0985-1,29940,2057-3,68970,8350-3,68970,8350Переменная X 10,35410,06635,33870,00000,21750,49070,21750,4907Переменная X 20,07430,09050,82070,4196-0,11210,2607-0,11210,2607Переменная X 38,14700,636412,80100,00006,83639,45786,83639,4578Переменная X 41,62860,78452,07590,04830,01293,24430,01293,2443

Из анализа получаем коэффициенты уравнения.

Уравнение регрессии зависимости цены квартиры от независимых объясняющих переменных принимает вид:

y = -1,4274 + 0,3541 x1 + 0,0743 x2 + 8,1470 x3 + 1,6286 x4

Оценим качество модели.

Определим коэффициент детерминации.

R2 =

Коэффициент детерминации показывает, что около 98% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов.

Коэффициент множественной корреляции R = 0,9899

Он показывает высокую тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.

Оценим значимость модели в целом на основе вычисления F-критерия Фишера.

По данным дисперсионного анализа F = 305,5792

Табличное υ 1= k и υ2 = (n — k — 1),

где n = 30 (количество наблюдений), k = 4 (количество факторов, включенных в модель) найдем при помощи функции FРАСПОБР()табл = 2,7587

поскольку F > Fтабл, уравнение регрессии следует признать адекватным.

С помощью t-статистики Стьюдента оценим статистическую значимость отдельных параметров.

По данным дисперсионного анализа:= -1,2994, tb1 = 5,3387, tb2 = 0,8207, tb3 = 12,8010, tb4 = 2,0759

Табличное среди всех коэффициентов значимыми (tb > tтабл) являются коэффициенты b1, b3 и b4.

По такой модели прогноз сделать не представляется возможным, поскольку большинство коэффициентов регрессии при переменных не значимы.

. Проведем корреляционный анализ для исключения незначимых факторов и устранения мультиколлинеарности.

Используем инструмент Excel "Корреляция" (Сервис — анализ данных — Корреляция).

Таблица 3 — Матрица коэффициентов парной корреляции

y — цена квартиры, тыс. долл.x1 — общая площадь квартиры (м2)x2 — жилая площадь квартиры (м2)x3 — тип дома (1- кирпичный, 0 — другой)x4 — наличие балкона (1- есть, 0 — нет)y — цена квартиры, тыс. долл.1×1 — общая площадь квартиры (м2)0,90661×2 — жилая площадь квартиры (м2)0,84380,97251×3 — тип дома (1- кирпичный, 0 — другой)0,3927-0,0005-0,09761×4 — наличие балкона (1- есть, 0 — нет)0,23130,19670,113301

анализ матрицы показывает, что цена квартиры имеет тесную связь с индексами:- общая площадь квартиры (0,9066)- жилая площадь квартиры (0,8438)

факторы х1 и х2 тесно связаны между собой (0,9725 > 0,8438), т. е. наблюдается мультиколлинеарность, поэтому оставляем в модели фактор х1.

После исключения незначимых факторов n = 30, k = 1

. Построим линейную модель регрессии только со значимыми факторами.

Таблица 3 — протокол выполнения регрессионного анализа только со значимыми факторами

ВЫВОД ИТОГОВРегрессионная статистикаМножественный R0,9066R-квадрат0,8220Нормированный R-квадрат0,8156стандартная ошибка4,3968Наблюдения30Дисперсионный анализ dfSSMSFЗначимость FРегрессия12498,98312498,9831129,26845,26E-12Остаток28541,288919,3317Итого293040,2720 КоэффициентыСтандартная ошибкаt-статистикаP-ЗначениеНижние 95%Верхние 95%Нижние 95,0%Верхние 95,0%Y-пересечение2,93422,34951,24880,2221-1,87867,7470-1,87867,7470Переменная X 10,41230,036311,36960,00000,33800,48660,33800,4866

Из анализа получаем коэффициенты уравнения регрессии а0, а1.

Уравнение регрессии зависимости цены квартиры только от общей площади квартиры принимает вид:

= 2,9342 + 0,4123×1

Это означает, что величина стоимости квартиры в среднем по совокупности возрастала на 412,3 долларов при увеличении общей площади квартиры на 1 м2.

Оценим качество построенной модели, определив коэффициент детерминации.

= 1 —

Коэффициент детерминации показывает, что около 82,2% вариации зависимой переменной учтено в модели и обусловлено влиянием наиболее значимого фактора.

Коэффициент множественной корреляции R = 0,9066

Он показывает высокую тесноту связи зависимой переменной у с объясняющим фактором.

Оценим значимость модели в целом на основе вычисления F-критерия Фишера.

По данным дисперсионного анализа F = 129,2684

Табличное

υ1= k и υ2 = (n — k — 1),

где n = 30 (количество наблюдений), k = 1 (количество факторов, включенных в модель) найдем при помощи функции FРАСПОБР()табл = 4,19597

поскольку F > Fтабл, уравнение регрессии следует признать адекватным.

Определим среднюю относительную ошибку аппроксимации:

Еотн.ср. 14,85

поскольку Eотн.ср. меньше 15%, следовательно точность считается удовлетворительной.

. Осуществим прогнозирование среднего значения показателя Y при условии, что прогнозное значения фактора X составит 80% от его максимального значения.

Точечный прогноз вычисляем путём подстановки в уравнение прогнозного значения факторной переменной:

Для однофакторной модели максимальное значение

Х = 137,7 × 80% = 110,16

= 48,3547

Доверительный интервал прогноза зависит от стандартной ошибки, удаления xпрогн от своего среднего значения в ряде наблюдений xср, количества наблюдений n и уровня значимости прогноза α:

стандартная ошибка Sст = 4,3968 (по данным таблицы 3).,1 = СТЬЮДРАСПОБР(0,1; 28) = 1,7011

Доверительный интервал L = 1,3204

Фактические значения исследуемого признака с вероятностью (1 — α) попадут в интервал

.

. Представим графически: фактические и модельные значения, точечный прогноз и доверительный интервал прогноза (для однофакторной модели).

Таблица 4 — Прогнозирование цены

№ п/пФактическое y — цена квартиры, тыс. долл.x1 — общая площадь квартиры, (м2)Предсказанное y — цена квартиры, тыс. долл.115,93919,014422768,431,1365313,534,817,2827415,13919,0144521,154,725,4878628,774,733,7341727,271,132,2497828,374,533,6516952,3137,759,709810224019,426811285324,786812458638,393213519843,34101434,462,628,74511524,745,321,61201630,856,426,18871715,93718,1898182967,530,76541915,43718,18982028,66931,38392115,64019,42682227,769,131,42512334,168,131,01282437,775,333,98142541,983,737,44492624,448,723,01392721,339,919,38552836,768,631,21892921,53919,01443026,448,622,972731110,1648,3547

Таблица 5 — Результаты прогнозных оценок

Прогнозируемое выборки30Число степеней свободы28Табличное t-статистики Стьюдента 1,7011Доверительный интервал1,3204Нижняя граница Y47,0343Верхняя граница Y49,6751


Учебная работа. Построение и анализ модели множественной регрессии