Стандартные ошибки параметров линейной регрессии - IT Справочник
Llscompany.ru

IT Справочник
8 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Стандартные ошибки параметров линейной регрессии

Стандартные ошибки корреляции, стандартные ошибки параметров линейной регрессии.

Стандартная ошибка коэффициента корреляции рассчитывается следующим образом:

Стандартная ошибка коэффициента регрессии определяется по

Величина стандартной ошибки совместно с t -распределением

Стьюдента при n — 2 степенях свободы применяется для проверки

существенности коэффициента регрессии и для расчета его доверительного

Для оценки существенности коэффициента регрессии его величина

сравнивается с его стандартной ошибкой, т.е. определяется фактическое

значение t -критерия Стьюдента.

Прогнозное значение ур определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения хр. Вычисляется средняя стандартная ошибка прогноза где

и строится доверительный интервал прогноза

Стандартная ошибка коэффициента регрессии

Для оценки существенности коэффициента регрессии его величина сравнивается с

его стандартной ошибкой, т. е. определяется фактическое значение t-критерия

Стьюдентa: которое

затем сравнивается с табличным значением при определенном уровне значимости

и числе степеней свободы (n- 2).

Стандартная ошибка параметра а:

Значимость линейного коэффициента корреляции проверяется на основе величины

ошибки коэффициента корреляции тr:

Общая дисперсия признака х:

Коэф. регрессии Его

величина показывает ср. изменение результата с изменением фактора на 1 ед.

Ошибка аппроксимации:

Проверка истинности моделей множественной регрессии:

Расчет параметров

— Выбор фактора, оказывающего большее влияние

— Построение парных моделей регрессии

— Определение лучшей модели

-Проверка предпосылок МНК (1.Первую предпосылку проверим путём вычисления суммы значений остатков

2.Случайный характер остатков. Проверим графически)

Построение и анализ регрессионной модели

Стандартная ошибка линейной модели регрессии:

=

Стандартные ошибки параметров b0, b1 уравнения регрессии:

.

Используя вычисленные стандартные ошибки параметров уравнения регрессии, проверим значимость каждого коэффициента линейной модели путем расчета t-статистик и их сравнения с критическим значением при уровне значимости a = 0,05 и числе степеней свободы n — 2 = 39 — 2 = 37.

; .

Критическое значение критерия Стьюдента при уровне значимости a = 0,05 и числе степеней свободы n — 2 = 37: tкр = t0,025; 37 = 2,026.

Рассчитанные t-статистики обоих коэффициентов регрессии (b1 и b0) превышает критическое значение (8,078 > 2,026 и 2,429 > 2,026). Это говорит о том, что оба коэффициента модели статистически значимы.

Оценим общее качество модели с помощью критерия Фишера.

Вычислим коэффициент детерминации:

.

Наблюдаемое значение F-критерия:

.

По таблице распределения Фишера определяем критическое значение критерия для уровня значимости a = 0,05:

.

Так как наблюдаемое значение F-критерия значительно превосходит критическое (65,246 > 4,105), то полученная линейная модель регрессии адекватна исходным данным (качество модели хорошее).

Таким образом, полученная линейная модель регрессии

хорошо объясняет зависимость объема денежной массы в иностранной валюте (Y) от объема экспорта товаров (Х).

При этом, вычисленное значение коэффициента детерминации свидетельствует, что построенное линейное уравнение регрессии объясняет 63,8 % разброса зависимой переменной Y разбросом факторной переменной Х.

Аналогичным образом построим и проанализируем показательную (экспоненциальную) модель зависимости между исследуемыми показателями.

Рассчитаем параметры b0, b1 предполагаемой показательной модели вида (2.1). Чтобы воспользоваться методом наименьших квадратов, приведем модель к линейному виду. Для этого прологарифмируем левую и правую часть уравнения (2.1). Получим:

. (2.4)

Теперь обозначим y* = ln y и составляем расчетную таблицу 2.4, где в качестве значений yi* проставляем значения ln yi (значения ln yi найдены в программе Excel).

Таблица 0. 2 — Расчет параметров показательной модели

Стандартные ошибки параметров линейной регрессии

Стандартная ошибка оценки, также известная как стандартная ошибка уравнения регрессии, определяется следующим образом (см. (6.23)) [c.280]

Стандартная ошибка уравнения регрессии, Эта статистика SEE представляет собой стандартное отклонение фактических значений теоретических значений У. [c.650]

Что такое стандартная ошибка уравнения регрессии ).Какие допущения лежат в основе парной регрессии 10. Что такое множественная регрессия [c.679]

Следующий этап корреляционного анализа — расчет уравнения связи (регрессии). Решение проводится обычно шаговым способом. Сначала в расчет принимается один фактор, который оказывает наиболее значимое влияние на результативный показатель, потом второй, третий и т.д. И на каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции и детерминации, /»»-отношение (критерий Фишера), стандартная ошибка и другие показатели, с помощью которых оценивается надежность уравнения связи. Величина их на каждом шаге сравнивается с предыдущей. Чем выше величина коэффициентов множественной корреляции, детерминации и критерия Фишера и чем ниже величина стандартной ошибки, тем точнее уравнение связи описывает зависимости, сложившиеся между исследуемыми показателями. Если добавление следующих факторов не улучшает оценочных показателей связи, то надо их отбросить, т.е. остановиться на том уравнении, где эти показатели наиболее оптимальны. [c.149]

Прогнозное значение ур определяется путем подстановки в уравнение регрессии ух =а + Ьх соответствующего (прогнозного) значения хр. Вычисляется средняя стандартная ошибка прогноза [c.9]

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка ть и та. [c.53]

В прогнозных расчетах по уравнению регрессии определяется предсказываемое (ур) значение как точечный прогноз ух при хр =хь т. е. путем подстановки в уравнение регрессии 5 = а + b х соответствующего значения х. Однако точечный прогноз явно не реален. Поэтому он дополняется расчетом стандартной ошибки ух, т. е. Шух, и соответственно интервальной оценкой прогнозного значения (у ) [c.57]

Читать еще:  Что делать если вылетает ошибка

Чтобы понять, как строится формула для определения величин стандартной ошибки ух, обратимся к уравнению линейной регрессии ух = а + b х. Подставим в это уравнение выражение параметра а [c.57]

При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения у, но и от точности прогноза значения фактора х. Его величина может задаваться на основе анализа других моделей исходя из конкретной ситуации, а также из анализа динамики данного фактора. [c.61]

В скобках указаны стандартные ошибки параметров уравнения регрессии. [c.327]

В скобках указаны стандартные ошибки параметров уравнения регрессии. Определим по этому уравнению расчетные значения >>, ,, а затем параметры уравнения регрессии (7.44). Получим следующие результаты [c.328]

На каждом шаге рассматриваются уравнение регрессии, коэффициенты корреляции и детерминации, F-критерий, стандартная ошибка оценки и другие оценочные показатели. После каждого шага перечисленные оценочные показатели сравниваются с [c.39]

Проблемы с методологией регрессии. Методология регрессии — это традиционный способ уплотнения больших массивов данных и их сведения в одно уравнение, отражающее связь между мультипликаторами РЕ и финансовыми фундаментальными переменными. Но данный подход имеет свои ограничения. Во-первых, независимые переменные коррелируют друг с другом . Например, как видно из таблицы 18,2, обобщающей корреляцию между коэффициентами бета, ростом и коэффициентами выплат для всех американских фирм, быстрорастущие фирмы обычно имеют большой риск и низкие коэффициенты выплат. Обратите внимание на отрицательную корреляцию между коэффициентами выплат и ростом, а также на положительную корреляцию между коэффициентами бета и ростом. Эта мультиколлинеарность делает мультипликаторы регрессии ненадежными (увеличивает стандартную ошибку) и, возможно, объясняет ошибочные знаки при коэффициентах и крупные изменения этих мультипликаторов в разные периоды. Во-вторых, регрессия основывается на линейной связи между мультипликаторами РЕ и фундаментальными переменными, и данное свойство, по всей вероятности, неадекватно. Анализ остаточных явлений, связанных с корреляцией, может привести к трансформациям независимых переменных (их квадратов или натуральных логарифмов), которые в большей степени подходят для объяснения мультипликаторов РЕ. В-третьих, базовая связь между мультипликаторами РЕ и финансовыми переменными сама по себе не является стабильной. Если же эта связь смещается из года в год, то прогнозы, полученные из регрессионного уравнения, могут оказаться ненадежными для более длительных периодов времени. По всем этим причинам, несмотря на полезность регрессионного анализа, его следует рассматривать только как еще один инструмент поиска подлинного значения ценности. [c.649]

На рисунке 16.6 явно просматривается четкая линейная зависимость объема частного потребления от величины располагаемого дохода. Уравнение парной линейной регрессии, оцененное по этим данным, имеет вид С= -217,6 + 1,007 Yf Стандартные ошибки для свободного члена и коэффициента парной регрессии равны, соответственно, 28,4 и 0,012, а -статистики — -7,7 и 81 9. Обе они по модулю существенно превышают 3, следовательно, их статистическая значимость весьма высока. Впрочем, несмотря на то, что здесь удалось оценить статистически значимую линейную функцию потребления, в ней нарушены сразу две предпосылки Кейнса — уровень автономного потребления С0 оказался отрицательным, а предель- [c.304]

Стандартные ошибки свободного члена и коэффициента регрессии равны, соответственно, 84,7 и 0,46 их /-статистики — (-21,4 и 36,8). По абсолютной величине /-статистики намного превышают 3, и это свидетельствует о высокой надежности оцененных коэффициентов. Коэффициент детерминации /Р уравнения равен 0,96, то есть объяснено 96% дисперсии объема потребления. И в то же время уже по рисунку видно, что оцененная рефессия не очень хоро- [c.320]

Эта стандартная ошибка S у, равная 0,65, указывает отклонение фактических данных от прогнозируемых на основании использования воздействующих факторов j i и Х2 (влияние среди покупателей бабушек с внучками и высокопрофессионального вклада Шарика). В то же время мы располагаем обычным стандартным отклонением Sn, равным 1,06 (см. табл.8), которое было рассчитано для одной переменной, а именно сами текущие значения уги величина среднего арифметического у, которое равно 6,01. Легко видеть, что S у tTa6n. В противном случае доверять полученной оценке параметра нет оснований. [c.139]

Для определения профиля посетителей магазинов местного торгового центра, не имеющих определенной цели (browsers), маркетологи использовали три набора независимых переменных демографические, покупательское поведение психологические. Зависимая переменная представляет собой индекс посещения магазина без определенной цели, индекс (browsing index). Методом ступенчатой включающей все три набора переменных, выявлено, что демографические факторы — наиболее сильные предикторы, определяющие поведение покупателей, не преследующих конкретных целей. Окончательное уравнение регрессии, 20 из 36 возможных переменных, включало все демографические переменные. В следующей таблице приведены коэффициенты регрессии, стандартные ошибки коэффициентов, а также их уровни значимости. [c.668]

Смотреть страницы где упоминается термин Стандартная ошибка уравнения регрессии

Маркетинговые исследования Издание 3 (2002) — [ c.650 ]

Оценка неопределенности в отношении параметров линейной регрессии

В предыдущем сообщении был приведен пример оценки параметров простой линейной регрессии при помощи стандартной R-функции lm() . Как и в случае с любыми другими выборочными оценками, всегда существует неопределенность в отношении того, насколько выборочные оценки параметров регрессионной модели близки к соответствующим истинным значениям (т.е. в генеральной совокупности). В данном сообщении будут рассмотрены несколько способов, позволяющих охарактеризовать эту неопределенность.

Читать еще:  Как исправить ошибку setup uninstall

Согласно Центральной Предельной Теореме, выборочные оценки того или иного параметра линейной модели имеют приближенно нормальное распределение (при условии, что объем выборки «достаточно велик» и выполняются определенные условия в отношении свойств остатков модели; рассмотрению этих свойств будет посвящено отдельное сообщение). Помимо оценки значения самого параметра модели, функция lm() рассчитывает также и соответствующую стандартную ошибку. По определению, стандартная ошибка параметра — это стандартное отклонение [нормального] распределения значений этого параметра, рассчитанных по выборкам одинакового размера из той же генеральной совокупности. Соответственно, чем меньше значение стандартной ошибки параметра, тем более он точен.

В предыдущем сообщении была рассмотрена простая регрессионная модель вида (y_i = beta x_i + epsilon_i) для данных о скорости движения галактик, где (beta) — подлежавшая оценке постоянная Хаббла. Подгонка этой модели к соответствующим данным дала следующие результаты:

Как видно из представленных результатов, постоянная Хаббла была оценена ( Estimate ) в 76.581 км/с на мегапарсек. Стандартная ошибка ( Std. Error ) этого значения составила 3.965 км/с на мегапарсек. Другими словами, мы можем сказать, что истинное значение постоянной Хаббла принадлежит нормально распределенной совокупности, математическое ожидание и стандартное отклонение которой составляют около 76.581 и 3.965 км/с на мегапарсек соответственно. Заметьте, однако, следующее обстоятельство: хотя наиболее вероятное истинное значение постоянной Хаббла составляет около 77 км/с на мегапарсек (после округления значения 76.581), возможны также и другие значения. Чтобы охарактеризовать эту неопределенность, мы можем рассчитать доверительный интервал — непротиворечащий имеющимся данным диапазон значений, в котором истинное значение постоянной Хаббла находится с определенной вероятностью (например, 95%).

Поскольку, как уже было отмечено выше, выборочная оценка постоянной Хаббла в лимите имеет нормальное распределение, мы могли бы рассчитать 95%-ный доверительный интервал, вспомнив, что примерно 95% всех значений нормального распределения лежат в диапазоне +/- 2 стандартных отклонения относительно среднего значения. Для нашего примера получаем: (76.581 — 2 times 3.965 = 68.651) и (76.581 + 2 times 3.965 = 84.511) км/с на мегапарсек. Однако неопределенность имеется в отношении не только оценки постоянной Хаббла, но и оценки стандартного отклонения соответствующего нормального распределения. Не углубляясь в детали, отметим, что в связи с эти обстоятельством более точные значения границ доверительного интервала дадут вычисления, основанные на свойствах не нормального, а t-распределения Стьюдента. Так, границы 95%-го доверительного интервала для параметра (beta) составят:

где (t_<0.975>) — 0.975-квантиль t-распределения с (n — p) числом степеней свободы (где (n) — объем выборки, а (p) — число параметров модели), (SE_) — стандартная ошибка параметра (beta).

Используя эти оценки нижней и верхней границ 95%-ного доверительного интервала, мы можем рассчитать диапазон значений, в котором с вероятностью 95% находится истинный возраст Вселенной:

Стандартные ошибки и доверительные интервалы параметров модели, рассчитанные бутстреп-методом

Насколько мне известно, устоявшегося перевода термина «bootstrap» с английского языка на русский не существует. Используются разные варианты: «бутстреп», «бутстрэп», «бутстрап», «размножение выборок», «метод псевдовыборок» и даже «ресамплинг» (от англ. «resampling«). Несмотря на сложности с русскоязычным названием, суть метода, тем менее, весьма проста (подробнее см. оригинальную работу Efron 1979). Предположим, что у нас есть выборка некоторого ограниченного объема и мы имеем основания полагать, что эта выборка является репрезентативной (т.е. хорошо отражает свойства генеральной совокупности, из которой она была взята). Идея бутстреп-метода заключается в том, что мы можем рассматривать саму эту выборку в качестве «генеральной совокупности» и, соответственно, можем извлечь большое число случайных выборок из этой исходной совокупности для расчета интересующего нас параметра (или параметров). Очевидно, что благодаря случайному формированию этих новых выборок, будет наблюдаться определенная вариация значений оцениваемого параметра. Другими словами, мы получим некоторое распределение значений этого параметра. Рассчитав стандартное отклонение этого распределения, мы получим оценку стандартной ошибки параметра, которая при большом числе наблюдений будет асимптотически приближаться к истинной стандартной ошибке. Аналогично, найдя, например, 0.025- и 0.975-квантили этого распределения, мы получим оценки нижней и верхней границ 95%-ного доверительного интервала.

Применим бутстреп-метод для оценки стандартной ошибки и 95%-ного доверительного интервала для постоянной Хаббла из рассмотренной выше задачи. На рисунке ниже приведены примеры 6 случайных выборок объемом 24 наблюдения каждая, извлеченных из исходной совокупности данных. Эти выборки формируются «с возвратом» — это значит, что однажды попав в новую выборку, то или иное наблюдение «возвращают» в исходную совокупность и оно может быть выбрано снова (следовательно, определенные наблюдения могут повторяться в новой выборке несколько раз).

Обратите внимание: на представленном рисунке общий тренд сохраняется («чем больше x, тем больше y»), однако входящие в состав каждой выборки (A — F) наблюдения несколько различаются, что в итоге приведет и к несколько различающимся оценкам постоянной Хаббла при подгонке линейной модели при помощи функции lm() .

Как отмечено выше, при выполнении бутстреп-анализа формируется «большое» число повторных выборок из исходной совокупности. То, насколько «большим» должно быть это число, зависит от объема исходной совокупности и ее свойств (подробнее см. Efron and Tibshirani 1994). Для нашего примера мы сформируем 1000 случайных повторных выборок. Хотя бутстреп-регрессию можно реализовать в R, «вручную» прописав необходимые команды, проще будет воспользоваться специально предназначенной для этого функцией boot() из одноименного стандартного пакета. Эта функция имеет следующие обязательные аргументы:

  • data : таблица с исходными данными;
  • statistic : функция, выполняющая вычисление интересующего нас параметра(-ов);
  • R : число повторных выборок, по которым рассчитывается этот параметр.
Читать еще:  Ошибка 1719 при установке касперского

Напишем небольшую функцию, которая будет подгонять регрессионную модель и возвращать значения постоянной Хаббла:

Теперь подадим regr() на функцию boot() :

При выводе содержимого объекта results на экран получим:

В представленных результатах original — это значение постоянной Хаббла, оцененное по исходным данным (см. выше); bias (смещение) — разница между средним значением 1000 бутстреп-оценок постоянной Хаббла и исходной оценкой; std. error — бутстреп-оценка стандартной ошибки постоянной Хаббла. Обратите внимание на то, что полученная бутстреп-оценка стандартной ошибки выше, чем рассчитанная по исходным данным.

Для объектов класса boot (к которому принадлежит results ) имеется метод plot , который позволит изобразить графически полученное распределение бутстреп-оценок постоянной Хаббла и одновременно проверить нормальность их распределения при помощи графика квантилей.

Как отмечено выше, мы можем оценить нижнюю и верхнюю границы 95%-ного доверительного интервала постоянной Хаббла, найдя 0.025- и 0.975-квантили изображенного выше распределения:

Используя эти значения, рассчитаем соответствующие границы значений возраста Вселенной:

Следует отметить, что рассчитанные таким образом границы доверительного интервала могут оказаться смещенными. В состав пакета boot входит функция boot.ci() , которая позволяет рассчитать несколько других типов доверительных интервалов, включая интервалы с поправкой на смещение (аргумент type = «bca» ; подробнее см. ?boot.ci ):

Подробнее о реализации бутстреп-регрессии средствами R можно прочитать в работе Fox (2012).

Стандартные ошибки и доверительные интервалы параметров модели, рассчитанные путем симуляций

Как было показано ранее в сообщении, посвященном понятию «статистические модели», мы можем также использовать принципы байесовской статистики и оценить неопределенность в отношении параметров той или иной модели путем симуляций. В общем виде эта процедура включает следующие шаги:

  1. Подгонка определенной модели к имеющимся данным;
  2. Использование полученных оценок параметров модели для симуляции большого количества альтернативных, но в то же время правдоподобных (т.е. непротиворечащих данным) реализаций этих параметров.
  1. При помощи обычного регрессионного анализа оцениваются вектор регрессионных коэффициентов (hat), ковариационная матрица (V_>) и стандартное отклонение остатков (hat).
  2. Создается большое число реализаций вектора (beta) и стандартного отклонения остатков (sigma). Для каждой реализации:
    • симулируется значение (sigma = hatsqrt<(n-k)/X>), где (X) — это значение статистики хи-квадрат, случайным образом извлеченное из соответствующего распределения с (n-k) степенями свободы.
    • с учетом полученного значения (sigma), симулируется вектор (beta) путем случайного извлечения значений из многомерного нормального распределения со средним значением (hat) и ковариационной матрицей (V_>).

На представленном выше рисунке изображено распределение 1000 симулированных значений постоянной Хаббла. Мы можем оценить стандартную ошибку постоянной Хаббла, рассчитав стандартное отклонение этого распределения:

Как видим, эта стандартная ошибка (как и в случае с бутстреп-анализом) также оказалась выше исходной оценки (см. summary(M) ).

95%-ный доверительный интервал легко нахойти уже известным нам способом:

Расчет стандартных ошибок коэффициентов регрессии

Полученные теоретические дисперсии D(a), D(b) зависят от дисперсии s 2 случайного члена.

По данным выборки отклонения ei, а, следовательно, и их дисперсии s 2 неизвестны, поэтому они заменяются наблюдаемыми остатками ei и их выборочной дисперсией var(e).

Но оценка var(e) является смещенной, т.е.

.

Несмещенной оценкой дисперсии s 2 является величина (остаточная дисперсия):

,

которая служит мерой разброса зависимой переменной вокруг линии регрессии.

Отметим, что в знаменателе остаточной дисперсии стоит число степеней свободы (n – 2), а не n, так как две степени свободы теряются при определении двух параметров (a; b).

Величина S называется стандартной ошибкой регрессии.

Заменив в теоретических дисперсиях неизвестную s 2 на оценку S 2 , получим оценки дисперсий:

.

Величины Sa, Sb называется стандартными ошибками коэффициентов регрессии.

Пример 3.1.По полученным в примере 2.5 результатам при определении зависимости расходов на питание от личного дохода рассчитать стандартные ошибки коэффициентов регрессии.

Исходные данные: n = 5, var(x) = 32, = 132, var(e) = 1,98.

Остаточная дисперсия S 2 и стандартная ошибка регрессии S есть:

, .

Для расчета стандартной ошибки можно также воспользоваться функцией Excel:

S = СТОШYX(массив Y; массив X).

Стандартные ошибки коэффициентов регрессии:

Пример 3.2. Покажем, что в выборочной регрессии без свободного члена стандартная ошибка оценки b есть:

,где .

Подставим в оценку для b выражение , получим:

.

Оценка b является несмещенной, т.к. .

Дисперсия оценки b есть:

.

В исходной модели оценивается один параметр, поэтому оценкой является , следовательно, .

Пример 3.3. Покажем, что в выборочной регрессии стандартная ошибка оценки a есть

,где.

Подставим в оценку для a выражение , получим:

.

Оценка aявляется несмещенной, т.к. .

Дисперсия оценки a есть:

.

В исходной модели оценивается один параметр, поэтому оценка :

, следовательно, .

Пример 3.4.По данным примера 2.5. построим зависимость расходов на питание y от личного дохода x для модели регрессии без свободного члена и рассчитаем стандартную ошибку коэффициента регрессии.

Исходные данные и расчетные показатели представим в таблице.

Ссылка на основную публикацию
ВсеИнструменты 220 Вольт
Adblock
detector