Учебная работа. Построение и анализ модели множественной регрессии
Построение и анализ модели множественной регрессии
Построение и анализ модели множественной регрессии
По исходным данным требуется:
. Построить классическую линейную модель множественной регрессии, выполнить экономический анализ основных показателей модели: коэффициентов "чистой" регрессии, индекса корреляции, индекса детерминации, оценить значимость модели в целом (F-критерий Фишера) и отдельных ее параметров (t-статистика Стьюдента).
. Проанализировать матрицу парных коэффициентов корреляции на наличие мультиколлинеарности. Если мультиколлинеарность присутствует — устранить (или ослабить) ее методом пошагового отбора переменных.
. построить линейную модель регрессии только со значимыми факторами (на основании выводов, сделанных в п.п. 1 и 2). дать экономическую интерпретацию коэффициентов модели. Оценить качество построенной модели (индексы корреляции и детерминации, F-критерий Фишера, средняя относительная ошибка аппроксимации). Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, β- и Δ- коэффициентов.
. построить и проанализировать линейную модель парной регрессии с наиболее значимым фактором. Сравнить качество моделей, построенных в п.п. 3 и 4.
. осуществить прогнозирование (точечный прогноз и доверительный интервал прогноза) среднего значения показателя Y при уровне значимости a = 0,1 при условии, что прогнозное значения фактора X составит 80% от его максимального значения (для однофакторной модели).
. Представить графически: фактические и модельные значения, точечный прогноз и доверительный интервал прогноза (для однофакторной модели).
Изучите зависимость стоимости квартиры от ряда основных факторов.
Таблица 1 — исходные данные
№ п/пХ1 — общая площадь квартиры (м2)X2 — жилая площадь квартиры (м2)X3 — тип дома (1 — кирпичный, 0 — другой)X4 — наличие балкона (1 — есть, 0 — нет)Y — цена квартиры, тыс. долл.139,020,00115,9268,440,50127,0334,816,00113,5439,020,00115,1554,728,00121,1674,746,30128,7771,145,90027,2874,547,50028,39137,787,20152,31040,017,71122,01153,031,11128,01286,048,71145,01398,065,81151,01462,621,41134,41545,320,61124,71656,429,71130,81737,017,80115,91867,543,50129,01937,017,80115,42069,042,40128,62140,020,00015,62269,141,30127,72368,135,41134,12475,341,41137,72583,748,51141,92648,722,31124,42739,918,01021,32868,635,51136,72939,020,01021,53048,631,01026,4регрессия корреляция интервал прогноз
Решение
Линейная модель множественной регрессии имеет вид:
,
где — расчётные значения исследуемой переменной,
— факторные переменные.
— коэффициенты уравнения, каждый из которых показывает, насколько изменится неизменных прочих факторных переменных.
Рассмотрим факторные признаки для построения регрессионной модели.
Цена квартиры — это зависимая переменная Y;
независимые объясняющие переменные:
-общая площадь квартиры Х1;
-жилая площадь квартиры Х2;
-тип дома Х3;
-наличие балкона Х4
. Построим классическую модель множественной регрессии
классическая линейная модель множественной регрессии можно представить в виде:
Проведем регрессивный анализ, используя инструмент Excel "Регрессия" (Сервис — анализ данных — Регрессия).
Таблица 2 — Протокол выполнения регрессивного анализа многофакторной модели
ВЫВОД ИТОГОВРегрессионная статистикаМножественный R0,9899R-квадрат0,9800Нормированный R-квадрат0,9768стандартная ошибка1,5612Наблюдения30Дисперсионный анализ dfSSMSFЗначимость FРегрессия42979,3358744,8339305,57927,88E-21Остаток2560,93622,4374Итого293040,2720 КоэффициентыСтандартная ошибкаt-статистикаP-ЗначениеНижние 95%Верхние 95%Нижние 95,0%Верхние 95,0%Y-пересечение-1,42741,0985-1,29940,2057-3,68970,8350-3,68970,8350Переменная X 10,35410,06635,33870,00000,21750,49070,21750,4907Переменная X 20,07430,09050,82070,4196-0,11210,2607-0,11210,2607Переменная X 38,14700,636412,80100,00006,83639,45786,83639,4578Переменная X 41,62860,78452,07590,04830,01293,24430,01293,2443
Из анализа получаем коэффициенты уравнения.
Уравнение регрессии зависимости цены квартиры от независимых объясняющих переменных принимает вид:
y = -1,4274 + 0,3541 x1 + 0,0743 x2 + 8,1470 x3 + 1,6286 x4
Оценим качество модели.
Определим коэффициент детерминации.
R2 =
Коэффициент детерминации показывает, что около 98% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов.
Коэффициент множественной корреляции R = 0,9899
Он показывает высокую тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.
Оценим значимость модели в целом на основе вычисления F-критерия Фишера.
По данным дисперсионного анализа F = 305,5792
Табличное υ 1= k и υ2 = (n — k — 1),
где n = 30 (количество наблюдений), k = 4 (количество факторов, включенных в модель) найдем при помощи функции FРАСПОБР()табл = 2,7587
поскольку F > Fтабл, уравнение регрессии следует признать адекватным.
С помощью t-статистики Стьюдента оценим статистическую значимость отдельных параметров.
По данным дисперсионного анализа:= -1,2994, tb1 = 5,3387, tb2 = 0,8207, tb3 = 12,8010, tb4 = 2,0759
Табличное среди всех коэффициентов значимыми (tb > tтабл) являются коэффициенты b1, b3 и b4.
По такой модели прогноз сделать не представляется возможным, поскольку большинство коэффициентов регрессии при переменных не значимы.
. Проведем корреляционный анализ для исключения незначимых факторов и устранения мультиколлинеарности.
Используем инструмент Excel "Корреляция" (Сервис — анализ данных — Корреляция).
Таблица 3 — Матрица коэффициентов парной корреляции
y — цена квартиры, тыс. долл.x1 — общая площадь квартиры (м2)x2 — жилая площадь квартиры (м2)x3 — тип дома (1- кирпичный, 0 — другой)x4 — наличие балкона (1- есть, 0 — нет)y — цена квартиры, тыс. долл.1×1 — общая площадь квартиры (м2)0,90661×2 — жилая площадь квартиры (м2)0,84380,97251×3 — тип дома (1- кирпичный, 0 — другой)0,3927-0,0005-0,09761×4 — наличие балкона (1- есть, 0 — нет)0,23130,19670,113301
анализ матрицы показывает, что цена квартиры имеет тесную связь с индексами:- общая площадь квартиры (0,9066)- жилая площадь квартиры (0,8438)
факторы х1 и х2 тесно связаны между собой (0,9725 > 0,8438), т. е. наблюдается мультиколлинеарность, поэтому оставляем в модели фактор х1.
После исключения незначимых факторов n = 30, k = 1
. Построим линейную модель регрессии только со значимыми факторами.
Таблица 3 — протокол выполнения регрессионного анализа только со значимыми факторами
ВЫВОД ИТОГОВРегрессионная статистикаМножественный R0,9066R-квадрат0,8220Нормированный R-квадрат0,8156стандартная ошибка4,3968Наблюдения30Дисперсионный анализ dfSSMSFЗначимость FРегрессия12498,98312498,9831129,26845,26E-12Остаток28541,288919,3317Итого293040,2720 КоэффициентыСтандартная ошибкаt-статистикаP-ЗначениеНижние 95%Верхние 95%Нижние 95,0%Верхние 95,0%Y-пересечение2,93422,34951,24880,2221-1,87867,7470-1,87867,7470Переменная X 10,41230,036311,36960,00000,33800,48660,33800,4866
Из анализа получаем коэффициенты уравнения регрессии а0, а1.
Уравнение регрессии зависимости цены квартиры только от общей площади квартиры принимает вид:
= 2,9342 + 0,4123×1
Это означает, что величина стоимости квартиры в среднем по совокупности возрастала на 412,3 долларов при увеличении общей площади квартиры на 1 м2.
Оценим качество построенной модели, определив коэффициент детерминации.
= 1 —
Коэффициент детерминации показывает, что около 82,2% вариации зависимой переменной учтено в модели и обусловлено влиянием наиболее значимого фактора.
Коэффициент множественной корреляции R = 0,9066
Он показывает высокую тесноту связи зависимой переменной у с объясняющим фактором.
Оценим значимость модели в целом на основе вычисления F-критерия Фишера.
По данным дисперсионного анализа F = 129,2684
Табличное
υ1= k и υ2 = (n — k — 1), где n = 30 (количество наблюдений), k = 1 (количество факторов, включенных в модель) найдем при помощи функции FРАСПОБР()табл = 4,19597 поскольку F > Fтабл, уравнение регрессии следует признать адекватным. Определим среднюю относительную ошибку аппроксимации: Еотн.ср. 14,85 поскольку Eотн.ср. меньше 15%, следовательно точность считается удовлетворительной. . Осуществим прогнозирование среднего значения показателя Y при условии, что прогнозное значения фактора X составит 80% от его максимального значения. Точечный прогноз вычисляем путём подстановки в уравнение прогнозного значения факторной переменной:
Для однофакторной модели максимальное значение Х = 137,7 × 80% = 110,16 = 48,3547 Доверительный интервал прогноза зависит от стандартной ошибки, удаления xпрогн от своего среднего значения в ряде наблюдений xср, количества наблюдений n и уровня значимости прогноза α:
стандартная ошибка Sст = 4,3968 (по данным таблицы 3).,1 = СТЬЮДРАСПОБР(0,1; 28) = 1,7011 Доверительный интервал L = 1,3204 Фактические значения исследуемого признака с вероятностью (1 — α) попадут в интервал
. . Представим графически: фактические и модельные значения, точечный прогноз и доверительный интервал прогноза (для однофакторной модели). Таблица 4 — Прогнозирование цены № п/пФактическое y — цена квартиры, тыс. долл.x1 — общая площадь квартиры, (м2)Предсказанное y — цена квартиры, тыс. долл.115,93919,014422768,431,1365313,534,817,2827415,13919,0144521,154,725,4878628,774,733,7341727,271,132,2497828,374,533,6516952,3137,759,709810224019,426811285324,786812458638,393213519843,34101434,462,628,74511524,745,321,61201630,856,426,18871715,93718,1898182967,530,76541915,43718,18982028,66931,38392115,64019,42682227,769,131,42512334,168,131,01282437,775,333,98142541,983,737,44492624,448,723,01392721,339,919,38552836,768,631,21892921,53919,01443026,448,622,972731110,1648,3547 Таблица 5 — Результаты прогнозных оценок Прогнозируемое выборки30Число степеней свободы28Табличное t-статистики Стьюдента 1,7011Доверительный интервал1,3204Нижняя граница Y47,0343Верхняя граница Y49,6751
Учебная работа. Построение и анализ модели множественной регрессии