Главная Диагностика и болезни Методы математической статистики. Регрессионный анализ

Методы математической статистики. Регрессионный анализ

Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.

Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

* для объяснения;
* для предсказания;
* для управления.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений.

Постановка задачи регрессионного анализа формулируется следующим образом.

Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.

Допущения:

количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;

обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;

матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:

предварительная обработка данных;

выбор вида уравнений регрессии;

вычисление коэффициентов уравнения регрессии;

проверка адекватности построенной функции результатам наблюдений.

Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров.

Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде

y = f (x1, x2, …, xm) + e

где f - заранее не известная функция, подлежащая определению;

e - ошибка аппроксимации данных.

Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;

по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;

после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;

если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии

Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии - метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

выборочная оценка дисперсии ошибки должна быть минимальна.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии .

Лекция 3.

Регрессионный анализ.

1) Числовые характеристики регрессии

2) Линейная регрессия

3) Нелинейная регрессия

4) Множественная регрессия

5) Использование MS EXCEL для выполнения регрессионного анализа

Контрольно-оценочное средство - тестовые задания

1. Числовые характеристики регрессии

Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.

Цели регрессионного анализа

Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными).
Предсказание значения зависимой переменной с помощью независимой(-ых).
Определение вклада отдельных независимых переменных в вариацию зависимой.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Для проведения регрессионного анализа первоначально необходимо познакомиться с базовыми понятиями статистики и теории вероятности.

Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение.

Случайные величине делят на две разновидности:

· дискретные, которые могут принимать только конкретные, заранее оговоренные значения (например, - значения чисел на верхней грани брошенной игральной кости или порядковые значения текущего месяца);
· непрерывные (чаще всего - значения некоторых физических величин: веса, расстояния, температуры и т.п.), которые по законам природы могут принимать любые значения, хотя бы и в некотором интервале.

Закон распределения случайной величины - это соответствие между возможными значениями дискретной случайной величины и ее вероятностями, обычно записывается в таблицу:

Статистическое определение вероятности выражается через относительную частоту случайного события, то есть находится как отношение количества случайных величин к общему числу случайных величин.

Математическим ожиданием дискретной случайной величины X называется сумма произведений значений величины X на вероятности этих значений. Математическое ожидание обозначают или M (X ) .

= M (X ) = x 1 p 1 + x 2 p 2 +… + x n p n = S x i p i

i =1

Рассеяние случайной величины относительно её математического ожидания определяется с помощью числовой характеристики, называемой дисперсией. Проще говоря, дисперсия - это разброс случайной величины относительно среднего значения. Для понятия сущности дисперсии рассмотрим пример. Средняя заработная плата по стране составляет около 25 тысяч рублей. Откуда берется эта цифра? Скорее всего, складываются все зарплаты и делятся на количество работников. В данном случае очень большая дисперсия (минимальная зарплата около 4 тыс. руб., а максимальная - около 100 тыс. руб.). Если бы зарплата у всех была одинаковой, то дисперсия была бы равна нулю, и разброса бы не было.

Дисперсией дискретной случайной величины X называют математическое ожидание квадрата разности случайной величины и её математического ожидания:

D = M [ ((X - M (X)) 2 ]

Используя определение математического ожидания для вычисления дисперсии, получаем формулу:

D = S (x i - M (X)) 2 · p i

Дисперсия имеет размерность квадрата случайной величины. В тех случаях, когда нужно иметь числовую характеристику рассеяния возможных значений в той же размерности, что и сама случайная величина, используют среднее квадратичное отклонение.

Средним квадратичным отклонением случайной величины называют корень квадратный из её дисперсии.

Среднее квадратичное отклонение есть мера рассеяния значений случайной величины около ее математического ожидания.

Пример.

Закон распределения случайной величины Х задан следующей таблицей:

Найти её математическое ожидание, дисперсию и среднее квадратичное отклонение.

Используем приведенные выше формулы:

М (Х) = 1 · 0,1 + 2 · 0,4 + 4 · 0,4 + 5 · 0,1 = 3

D = (1-3) 2 · 0,1 + (2 - 3) 2 · 0,4 + (4 - 3) 2 · 0,4 + (5 - 3) 2 · 0,1 = 1,6

Пример.

В денежной лотерее разыгрывается 1 выигрыш в 1000 рублей, 10 выигрышей по 100 рублей и 100 выигрышей по 1 рублю при общем числе билетов 10000. Составьте закон распределения случайного выигрыша Х для владельца одного лотерейного билета и определите математическое ожидание, дисперсию и среднее квадратичное отклонение случайной величины.

X 1 = 1000, Х 2 = 100, Х 3 = 1, Х 4 = 0,

Р 1 = 1/10000 = 0,0001, Р 2 = 10/10000 = 0,001, Р 3 = 100/10000 = 0,01, Р 4 = 1 - (Р 1 + Р 2 + Р 3) = 0,9889.

Результаты поместим в таблицу:

Математическое ожидание - сумма парных произведений значения случайной величины на их вероятность. Для данной задачи его целесообразно вычислить по формуле

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 рубля.

Получили настоящую «справедливую» цену билета.

D = S (x i - M (X)) 2 · p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функция распределения непрерывных случайных величин

Величину, которая в результате испытания примет одно возможное значение (при этом заранее неизвестно какое), называется случайной величиной. Как говорилось выше, случайные величины бывают дискретные (прерывные) и непрерывные.

Дискретной называют случайную величину, принимающую отдельные друг от друга возможные значения с определенными вероятностями, которые можно пронумеровать.

Непрерывной называют случайную величину, которая может принимать все значения из некоторого конечного или бесконечного интервала.

До этого момента мы ограничивались только одной “разновидностью” случайных величин - дискретных, т.е. принимающих конечные значения.

Но теория и практика статистики требуют использовать понятие непрерывной случайной величины - допускающей любые числовые значения, из какого - либо интервала.

Закон распределения непрерывной случайной величины удобно задавать с помощью так называемой функции плотности вероятности. f (х). Вероятность Р (a < X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

Р (a < X < b) = ∫ f (x ) dx

График функции f (х) называется кривой распределения. Геометрически вероятность попадания случайной величины в промежуток (a; b), равна площади соответствующей криволинейной трапеции, ограниченной кривой распределения, осью Ох и прямыми х = а, х = b.

P(a£X

Если от сложного события вычесть конечное либо счетное множество, вероятность наступления нового события останется неизменной.

Функция f(x) - числовая скалярная функция действительного аргумента x называется плотностью вероятности, и существует в точке x, если в этой точке существует предел:

Свойства плотности вероятности:

Плотность вероятности является неотрицательной функцией, т. е. f(x) ≥ 0

(если все значения случайной величины Х заключены в промежутке (a;b), то последнее

равенство можно записать в виде ∫ f (x) dx = 1).

Рассмотрим теперь функцию F(х) = Р (Х < х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

непрерывной случайной величины Х, то F (х) = ∫ f(x) dx = 1).

Из последнего равенства следует, что f (x) = F" (x)

Иногда функцию f(x) называют дифференциальной функцией распределения вероятности, а функцию F(x) - интегральной функцией распределения вероятности.

Отметим важнейшие свойства функции распределения вероятности:

F (х) - неубывающая функция.
F (- ∞) = 0.
F (+ ∞) = 1.

Понятие функции распределения является центральным в теории вероятностей. Используя это понятие, можно дать другое определение непрерывной случайной величины. Случайная величина называется непрерывной, если ее интегральная функция распределения F(х) непрерывна.

Числовые характеристики непрерывных случайных величин

Математическое ожидание, дисперсия и другие параметры любых случайных величин практически всегда вычисляются по формулам, вытекающим из закона распределения.

Для непрерывной случайной величины математическое ожидание вычисляется по формуле:

М (Х) = ∫ x · f(x ) dx

Дисперсия:

D (X) = ∫ (x - М (Х)) 2 f (x ) dx или D (X) = ∫ x 2 f(x ) dx - (М (Х)) 2

2. Линейная регрессия

Пусть составляющие Х и Y двумерной случайной величины (Х, Y) зависимы. Будем считать, что одну из них можно приближенно представить как линейную функцию другой, например

Y ≈ g(Х) = α + βХ, и определим параметры α и β с помощью метода наименьших квадратов.

Определение. Функция g(Х) = α + βХ называется наилучшим приближением Y в смысле метода наименьших квадратов, если математическое ожидание М(Y - g(Х)) 2 принимает наименьшее возможное значение; функцию g(Х) называют среднеквадратической регрессией Y на Х.

Теорема Линейная средняя квадратическая регрессия Y на Х имеет вид:

где - коэффициент корреляции Х иY.

Коэффициенты уравнения.

Можно проверить, что при этих значениях функция функция F(α, β)

F (α, β ) = M (Y - α - βX )² имеет минимум, что доказывает утверждение теоремы.

Определение. Коэффициент называется коэффициентом регрессии Y на Х , а прямая - - прямой среднеквадратической регрессии Y на Х .

Подставив координаты стационарной точки в равенство, можно найти минимальное значение функции F(α, β), равное Эта величина называется остаточной дисперсией Y относительно Х и характеризует величину ошибки, допускаемой при замене Y на

g(Х) = α+βХ. При остаточная дисперсия равна 0, то есть равенство является не приближенным, а точным. Следовательно, при Y и Х связаны линейной функциональной зависимостью. Аналогично можно получить прямую среднеквадратической регрессии Х на Y:

и остаточную дисперсию Х относительно Y. При обе прямые регрессии совпадают. Сопоставив уравнения регрессии У на Х и Х на У и решив систему из уравнений, можно найти точку пересечения прямых регрессии - точку с координатами (т х, т у), называемую центром совместного распределения величин Х и Y.

Алгоритм составления уравнений регрессии рассмотрим из учебника В. Е. Гмурмана «Теория вероятности и математическая статистика» стр. 256.

1) Составить расчетную таблицу, в которой будут записаны номера элементов выборки, варианты выборки, их квадраты и произведение.

2) Вычислить сумму по всем столбцам, кроме номера.

3) Вычислить средние значения для каждой величины, дисперсии и средне квадратические отклонения.

5) Проверить гипотезу о существовании связи между Х и У.

6) Составить уравнения обеих линий регрессии и изобразить графики этих уравнений.

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии

Коэффициент b=

Получим искомое уравнение линии регрессии У на Х:

У = 0,202 Х + 1,024

Аналогично уравнение регрессии Х на У:

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии pxy:

Коэффициент b=

Х = 4,119У - 3,714

3. Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например:

Полиномы разных степеней

Равносторонняя гипербола - ;

Полулогарифмическая функция - .

2. Регрессии, нелинейные по оцениваемым параметрам, например:

Степенная - ;

Показательная - ;

Экспоненциальная - .

Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.

Парабола второй степени приводится к линейному виду с помощью замены: . В результате приходим к двухфакторному уравнению, оценка параметров которого при помощи Метода наименьших квадратов приводит к системе уравнений:

Парабола второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.

Равносторонняя гипербола может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота. Классическим ее примером является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y .

Гипербола приводится к линейному уравнению простой заменой: . Также можно использовать Метод наименьших квадратов для составления системы линейных уравнений.

Аналогичным образом приводятся к линейному виду зависимости: , и другие.

Равносторонняя гипербола и полулогарифмическая кривая используют для описания кривой Энгеля (математическое описание взаимосвязи доли расходов на товары длительного пользования и общих сумм расходов (или доходов)). Уравнения, в которых входят, применяются в исследованиях урожайности, трудоемкости сельскохозяйственного производства.

4. Множественная регрессия

Множественная регрессия - уравнение связи с несколькими независимыми переменными:

где - зависимая переменная (результативный признак);

Независимые переменные (факторы).

Для построения уравнения множественной регрессии чаще используются следующие функции:

линейная -

степенная -

экспонента -

гипербола - .

Можно использовать и другие функции, приводимые к линейному виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

Для ее решения может быть применен метод определителей:

где - определитель системы;

Частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Другой вид уравнения множественной регрессии - уравнение регрессии в стандартизированном масштабе, к уравнению множественной регрессии в стандартизированном масштабе применим МНК.

5. Использование MS EXCEL для выполнения регрессионного анализа

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в парной линейной регрессионной модели имеются две переменные Х и Y. И требуется по n парам наблюдений (X1, Y1), (X2, Y2), ..., (Xn, Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая «наилучшим образом» приближает наблюдаемые значения. Уравнение этой линии y=аx+b является регрессионным уравнением. С помощью регрессионного уравнения можно предсказать ожидаемое значение зависимой величины y, соответствующее заданному значению независимой переменной x. В случае, когда рассматривается зависимость между одной зависимой переменной Y и несколькими независимыми X1, X2, ..., Xm, говорят о множественной линейной регрессии.

В этом случае регрессионное уравнение имеет вид

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

где a0, a1, a2, …, am - требующие определения коэффициенты регрессии.

Коэффициенты уравнения регрессии определяются при помощи метода наименьших квадратов, добиваясь минимально возможной суммы квадратов расхождений реальных значений переменной Y и вычисленных по регрессионному уравнению. Таким образом, например, уравнение линейной регрессии может быть построено даже в том случае, когда линейная корреляционная связь отсутствует.

Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Коэффициент детерминации может принимать значения между 0 и 1 определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные. Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера) и достоверность отличия коэффициентов a0, a1, a2, …, am от нуля проверяется с помощью критерия Стьюдента.

В Excel экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:

y = a0+a1x1+a2x2+…+a16x16

Для получения коэффициентов линейной регрессии может быть использована процедура «Регрессия» из пакета анализа. Также полную информацию об уравнении линейной регрессии дает функция ЛИНЕЙН. Кроме того, могут быть использованы функции НАКЛОН и ОТРЕЗОК для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ и ПРЕДСКАЗ для получения предсказанных значений Y в требуемых точках (для парной регрессии).

Рассмотрим подробно применение функции ЛИНЕЙН (известные_y, [известные_x], [константа], [статистика]): известные_у - диапазон известных значений зависимого параметра Y. В парном регрессионном анализе может иметь любую форму; в множественном должен быть строкой либо столбцом; известные_х - диапазон известных значений одного или нескольких независимых параметров. Должен иметь ту же форму, что и диапазон Y (для нескольких параметров - соответственно несколько столбцов или строк); константа - логический аргумент. Если исходя из практического смысла задачи регрессионного анализа необходимо, чтобы линия регрессии проходила через начало координат, то есть свободный коэффициент был равен 0, значение этого аргумента следует положить равным 0 (или «ложь»). Если значение положено 1 (или «истина») или опущено, то свободный коэффициент вычисляется обычным образом; статистика - логический аргумент. Если значение положено 1 (или «истина»), то дополнительно возвращается регрессионная статистика (см таблицу), используемая для оценки эффективности и значимости модели. В общем случае для парной регрессии y=аx+b результат применения функции ЛИНЕЙН имеет вид:

Таблица. Выводной диапазон функции ЛИНЕЙН для парного регрессионного анализа

В случае множественного регрессионного анализа для уравнения y=a0+a1x1+a2x2+…+amxm в первой строке выводятся коэффициенты am,…,a1,а0, во второй - стандартные ошибки для этих коэффициентов. В 3-5 строках за исключением первых двух столбцов, заполненных регрессионной статистикой, будет получено значение #Н/Д.

Вводить функцию ЛИНЕЙН следует как формулу массива, выделив вначале массив нужного размера для результата (m+1 столбец и 5 строк, если требуется регрессионная статистика) и завершив ввод формулы нажатием CTRL+SHIFT+ENTER.

Результат для нашего примера:

Кроме этого в программе имеется встроенная функция - Анализ данных на вкладке Данные.

С помощью нее можно также выполнять регрессионный анализ:

На слайде - результат регрессионного анализа, выполненного с помощью Анализа данных.

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R
R-квадрат
Нормированный R-квадрат
Стандартная ошибка
Наблюдения

Дисперсионный анализ
					Значимость F
Регрессия



	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%	Нижние 95,0%	Верхние 95,0%
Y-пересечение
Переменная X 1

Уравнения регрессии, которые мы смотрели ранее также построены в MS Excel. Для их выполнения сначала строится Точечная диаграмма, затем через контекстное меню выбираем - Добавить линию тренда. В новом окне ставим галочки - Показывать уравнение на диаграмме и поместить на диаграмму величину достоверности апроксимации (R^2).

Литература:

Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. - Изд. 10-е, стер. - М.: Высш. шк., 2010. - 479с.
Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. - Изд. 6-е, стер. - М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. - 416 с.
1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F - некоторые сведения о регрессионном анализе

Регрессионный анализ лежит в основе создания большинства эконометрических моделей, к числу которых следует отнести и модели оценки стоимости. Для построения моделей оценки этот метод можно использовать, если количество аналогов (сопоставимых объектов) и количество факторов стоимости (элементов сравнения) соотносятся между собой следующим образом: п > (5 -г-10) х к, т.е. аналогов должно быть в 5-10 раз больше, чем факторов стоимости. Это же требование к соотношению количества данных и количества факторов распространяется и на другие задачи: установление связи между стоимостью и потребительскими параметрами объекта; обоснование порядка расчета корректирующих индексов; выяснение трендов цен; установление связи между износом и изменениями влияющих факторов; получение зависимостей для расчета нормативов затрат и т.п. Выполнение данного требования необходимо для того, чтобы уменьшить вероятность работы с выборкой данных, которая не удовлетворяет требованию нормальности распределения случайных величин.

Регрессионная связь отражает лишь усредненную тенденцию изменения результирующей переменной, например, стоимости, от изменения одной или нескольких факторных переменных, например, местоположения, количества комнат, площади, этажа и т.п. В этом заключается отличие регрессионной связи от функциональной, при которой значение результирующей переменной строго определено при заданном значении факторных переменных.

Наличие регрессионной связи / между результирующей у и факторными переменными х р ..., х к (факторами) свидетельствует о том, что эта связь определяется не только влиянием отобранных факторных переменных, но и влиянием переменных, одни из которых вообще неизвестны, другие не поддаются оценке и учету:

Влияние неучтенных переменных обозначается вторым слагаемым данного уравнения ?, которое называют ошибкой аппроксимации.

Различают следующие типы регрессионных зависимостей:

? парная регрессия - связь между двумя переменными (результирующей и факторной);
? множественная регрессия - зависимость одной результирующей переменной и двух или более факторных переменных, включенных в исследование.

Основная задача регрессионного анализа - количественное определение тесноты связи между переменными (при парной регрессии) и множеством переменных (при множественной регрессии). Теснота связи количественно выражается коэффициентом корреляции.

Применение регрессионного анализа позволяет установить закономерность влияния основных факторов (гедонистических характеристик ) на изучаемый показатель как в их совокупности, так и каждого из них в отдельности. С помощью регрессионного анализа, как метода математической статистики, удается, во-первых, найти и описать форму аналитической зависимости результирующей (искомой) переменной от факторных и, во-вторых, оценить тесноту этой зависимости.

Благодаря решению первой задачи получают математическую регрессионную модель, с помощью которой затем рассчитывают искомый показатель при заданных значениях факторов. Решение второй задачи позволяет установить надежность рассчитанного результата.

Таким образом, регрессионный анализ можно определить как совокупность формальных (математических) процедур, предназначенных для измерения тесноты, направления и аналитического выражения формы связи между результирующей и факторными переменными, т.е. на выходе такого анализа должна быть структурно и количественно определенная статистическая модель вида:

где у - среднее значение результирующей переменной (искомого показателя, например, стоимости, аренды, ставки капитализации) по п ее наблюдениям; х - значение факторной переменной (/-й фактор стоимости); к - количество факторных переменных.

Функция f(x l ,...,x lc), описывающая зависимость результирующей переменной от факторных, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода, и в настоящее время не отражает всей сущности метода, но продолжает применяться.

Регрессионный анализ в общем случае включает следующие этапы:

? формирование выборки однородных объектов и сбор исходной информации об этих объектах;
? отбор основных факторов, влияющих на результирующую переменную;
? проверка выборки на нормальность с использованием х 2 или биноминального критерия;
? принятие гипотезы о форме связи;
? математическую обработку данных;
? получение регрессионной модели;
? оценку ее статистических показателей;
? поверочные расчеты с помощью регрессионной модели;
? анализ результатов.

Указанная последовательность операций имеет место при исследовании как парной связи между факторной переменной и одной результирующей, так и множественной связи между результирующей переменной и несколькими факторными.

Применение регрессионного анализа предъявляет к исходной информации определенные требования:

? статистическая выборка объектов должна быть однородной в функциональном и конструктивно-технологическом отношениях;
? достаточно многочисленной;
? исследуемый стоимостной показатель - результирующая переменная (цена, себестоимость, затраты) - должен быть приведен к одним условиям его исчисления у всех объектов в выборке;
? факторные переменные должны быть измерены достаточно точно;
? факторные переменные должны быть независимы либо минимально зависимы.

Требования однородности и полноты выборки находятся в противоречии: чем жестче ведут отбор объектов по их однородности, тем меньше получают выборку, и, наоборот, для укрупнения выборки приходится включать в нее не очень схожие между собой объекты.

После того как собраны данные по группе однородных объектов, проводят их анализ для установления формы связи между результирующей и факторными переменными в виде теоретической линии регрессии. Процесс нахождения теоретической линии регрессии заключается в обоснованном выборе аппроксимирующей кривой и расчете коэффициентов ее уравнения. Линия регрессии представляет собой плавную кривую (в частном случае прямую), описывающую с помощью математической функции общую тенденцию исследуемой зависимости и сглаживающую незакономерные, случайные выбросы от влияния побочных факторов.

Для отображения парных регрессионных зависимостей в задачах по оценке чаще всего используют следующие функции: линейную - у - а 0 + арс + с степенную - у - aj&i + с показательную - у - линейно-показательную - у - а 0 + ар* + с. Здесь - е ошибка аппроксимации, обусловленная действием неучтенных случайных факторов.

В этих функциях у - результирующая переменная; х - факторная переменная (фактор); а 0 , а р а 2 - параметры регрессионной модели, коэффициенты регрессии.

Линейно-показательная модель относится к классу так называемых гибридных моделей вида:

где

где х (i = 1, /) - значения факторов;

b t (i = 0, /) - коэффициенты регрессионного уравнения.

В данном уравнении составляющие А, В и Z соответствуют стоимости отдельных составляющих оцениваемого актива, например, стоимости земельного участка и стоимости улучшений, а параметр Q является общим. Он предназначен для корректировки стоимости всех составляющих оцениваемого актива на общий фактор влияния, например, местоположение.

Значения факторов, находящихся в степени соответствующих коэффициентов, представляют собой бинарные переменные (0 или 1). Факторы, находящиеся в основании степени, - дискретные или непрерывные переменные.

Факторы, связанные с коэффициентами знаком умножения, также являются непрерывными или дискретными.

Спецификация осуществляется, как правило, с использованием эмпирического подхода и включает два этапа:

? нанесение на график точек регрессионного поля;
? графический (визуальный) анализ вида возможной аппроксимирующей кривой.

Тип кривой регрессии не всегда можно выбрать сразу. Для его определения сначала наносят на график точки регрессионного поля по исходным данным. Затем визуально проводят линию по положению точек, стремясь выяснить качественную закономерность связи: равномерный рост или равномерное снижение, рост (снижение) с возрастанием (убыванием) темпа динамики, плавное приближение к некоторому уровню.

Этот эмпирический подход дополняют логическим анализом, отталкиваясь от уже известных представлений об экономической и физической природе исследуемых факторов и их взаимовлияния.

Например, известно, что зависимости результирующих переменных - экономических показателей (цены, аренды) от ряда факторных переменных - ценообразующих факторов (расстояния от центра поселения, площади и др.) имеют нелинейный характер, и достаточно строго их можно описать степенной, экспоненциальной или квадратичной функциями. Но при небольших диапазонах изменения факторов приемлемые результаты можно получить и с помощью линейной функции.

Если все же невозможно сразу сделать уверенный выбор какой- либо одной функции, то отбирают две-три функции, рассчитывают их параметры и далее, используя соответствующие критерии тесноты связи, окончательно выбирают функцию.

В теории регрессионный процесс нахождения формы кривой называется спецификацией модели, а ее коэффициентов - калибровкой модели.

Если обнаружено, что результирующая переменная у зависит от нескольких факторных переменных (факторов) х { , х 2 , ..., х к, то прибегают к построению множественной регрессионной модели. Обычно при этом используют три формы множественной связи: линейную - у - а 0 + а х х х + а^х 2 + ... + а к х к, показательную - у - а 0 a *i а х т- а х ь, степенную - у - а 0 х х ix 2 a 2. .х^или их комбинации.

Показательная и степенная функции более универсальны, так как аппроксимируют нелинейные связи, каковыми и является большинство исследуемых в оценке зависимостей. Кроме того, они могут быть применены при оценке объектов и в методе статистического моделирования при массовой оценке, и в методе прямого сравнения в индивидуальной оценке при установлении корректирующих коэффициентов.

На этапе калибровки параметры регрессионной модели рассчитывают методом наименьших квадратов, суть которого состоит в том, что сумма квадратов отклонений вычисленных значений результирующей переменной у ., т.е. рассчитанных по выбранному уравнению связи, от фактических значений должна быть минимальной:

Значения j) (. и у. известны, поэтому Q является функцией только коэффициентов уравнения. Для отыскания минимума S нужно взять частные производные Q по коэффициентам уравнения и приравнять их к нулю:

В результате получаем систему нормальных уравнений, число которых равно числу определяемых коэффициентов искомого уравнения регрессии.

Положим, нужно найти коэффициенты линейного уравнения у - а 0 + арс. Сумма квадратов отклонений имеет вид:

/=1

Дифференцируют функцию Q по неизвестным коэффициентам а 0 и и приравнивают частные производные к нулю:

После преобразований получают:

где п - количество исходных фактических значений у их (количество аналогов).

Приведенный порядок расчета коэффициентов регрессионного уравнения применим и для нелинейных зависимостей, если эти зависимости можно линеаризовать, т.е. привести к линейной форме с помощью замены переменных. Степенная и показательная функции после логарифмирования и соответствующей замены переменных приобретают линейную форму. Например, степенная функция после логарифмирования приобретает вид: In у = 1пя 0 +а х 1пх. После замены переменных Y- In у, Л 0 - In а № X- In х получаем линейную функцию

Y=A 0 + cijX, коэффициенты которой находят описанным выше способом.

Метод наименьших квадратов применяют и для расчета коэффициентов множественной регрессионной модели. Так, система нормальных уравнений для расчета линейной функции с двумя переменными Xj и х 2 после ряда преобразований имеет следующий вид:

Обычно данную систему уравнений решают, используя методы линейной алгебры. Множественную степенную функцию приводят к линейной форме путем логарифмирования и замены переменных таким же образом, как и парную степенную функцию.

При использовании гибридных моделей коэффициенты множественной регрессии находятся с использованием численных процедур метода последовательных приближений.

Чтобы сделать окончательный выбор из нескольких регрессионных уравнений, необходимо проверить каждое уравнение на тесноту связи, которая измеряется коэффициентом корреляции, дисперсией и коэффициентом вариации. Для оценки можно использовать также критерии Стьюдента и Фишера. Чем большую тесноту связи обнаруживает кривая, тем она более предпочтительна при прочих равных условиях.

Если решается задача такого класса, когда надо установить зависимость стоимостного показателя от факторов стоимости, то понятно стремление учесть как можно больше влияющих факторов и построить тем самым более точную множественную регрессионную модель. Однако расширению числа факторов препятствуют два объективных ограничения. Во-первых, для построения множественной регрессионной модели требуется значительно более объемная выборка объектов, чем для построения парной модели. Принято считать, что количество объектов в выборке должно превышать количество п факторов, по крайней мере, в 5-10 раз. Отсюда следует, что для построения модели с тремя влияющими факторами надо собрать выборку примерно из 20 объектов с разным набором значений факторов. Во-вторых, отбираемые для модели факторы в своем влиянии на стоимостный показатель должны быть достаточно независимы друг от друга. Это обеспечить непросто, поскольку выборка обычно объединяет объекты, относящиеся к одному семейству, у которых имеет место закономерное изменение многих факторов от объекта к объекту.

Качество регрессионных моделей, как правило, проверяют с использованием следующих статистических показателей.

Стандартное отклонение ошибки уравнения регрессии (ошибка оценки):

где п - объем выборки (количество аналогов);

к - количество факторов (факторов стоимости);

Ошибка, необъясняемая регрессионным уравнением (рис. 3.2);

у. - фактическое значение результирующей переменной (например, стоимости); y t - расчетное значение результирующей переменной.

Этот показатель также называют стандартной ошибкой оценки {СКО ошибки ). На рисунке точками обозначены конкретные значения выборки, символом обозначена линия среднего значений выборки, наклонная штрихпунктирная линия - это линия регрессии.

Рис. 3.2.

Стандартное отклонение ошибки оценки измеряет величину отклонения фактических значений у от соответствующих расчетных значений у { , полученных с помощью регрессионной модели. Если выборка, на которой построена модель, подчинена нормальному закону распределения, то можно утверждать, что 68% реальных значений у находятся в диапазоне у ± & е от линии регрессии, а 95% - в диапазоне у ± 2d e . Этот показатель удобен тем, что единицы измерения сг? совпадают с единицами измерения у ,. В этой связи его можно использовать для указания точности получаемого в процессе оценки результата. Например, в сертификате стоимости можно указать, что полученное с использованием регрессионной модели значение рыночной стоимости V с вероятностью 95% находится в диапазоне от (V -2d,.) до (у + 2d s).

Коэффициент вариации результирующей переменной:

где у - среднее значение результирующей переменной (рис. 3.2).

В регрессионном анализе коэффициент вариации var представляет собой стандартное отклонение результата, выраженное в виде процентного отношения к среднему значению результирующей переменной. Коэффициент вариации может служить критерием прогнозных качеств полученной регрессионной модели: чем меньше величина var , тем более высокими являются прогнозные качества модели. Использование коэффициента вариации предпочтительнее показателя & е, так как он является относительным показателем. При практическом использовании данного показателя можно порекомендовать не применять модель, коэффициент вариации которой превышает 33%, так как в этом случае нельзя говорить о том, что данные выборки подчинены нормальному закону распределения.

Коэффициент детерминации (квадрат коэффициента множественной корреляции):

Данный показатель используется для анализа общего качества полученной регрессионной модели. Он указывает, какой процент вариации результирующей переменной объясняется влиянием всех включенных в модель факторных переменных. Коэффициент детерминации всегда лежит в интервале от нуля до единицы. Чем ближе значение коэффициента детерминации к единице, тем лучше модель описывает исходный ряд данных. Коэффициент детерминации можно представить иначе:

Здесь- ошибка, объясняемая регрессионной моделью,

а - ошибка, необъясняемая

регрессионной моделью. С экономической точки зрения данный критерий позволяет судить о том, какой процент вариации цен объясняется регрессионным уравнением.

Точную границу приемлемости показателя R 2 для всех случаев указать невозможно. Нужно принимать во внимание и объем выборки, и содержательную интерпретацию уравнения. Как правило, при исследовании данных об однотипных объектах, полученных примерно в один и тот же момент времени величина R 2 не превышает уровня 0,6-0,7. Если все ошибки прогнозирования равны нулю, т.е. когда связь между результирующей и факторными переменными является функциональной, то R 2 =1.

Скорректированный коэффициент детерминации:

Необходимость введения скорректированного коэффициента детерминации объясняется тем, что при увеличении числа факторов к обычный коэффициент детерминации практически всегда увеличивается, но уменьшается число степеней свободы (п - к - 1). Введенная корректировка всегда уменьшает значение R 2 , поскольку (п - 1) > {п- к - 1). В результате величина R 2 CKOf) даже может стать отрицательной. Это означает, что величина R 2 была близка к нулю до корректировки и объясняемая с помощью уравнения регрессии доля дисперсии переменной у очень мала.

Из двух вариантов регрессионных моделей, которые различаются величиной скорректированного коэффициента детерминации, но имеют одинаково хорошие другие критерии качества, предпочтительнее вариант с большим значением скорректированного коэффициента детерминации. Корректировка коэффициента детерминации не производится, если (п - к): к> 20.

Коэффициент Фишера:

Данный критерий используется для оценки значимости коэффициента детерминации. Остаточная сумма квадратов представляет собой показатель ошибки предсказания с помощью регрессии известных значений стоимости у.. Ее сравнение с регрессионной суммой квадратов показывает, во сколько раз регрессионная зависимость предсказывает результат лучше, чем среднее у . Существует таблица критических значений F R коэффициента Фишера, зависящих от числа степеней свободы числителя - к , знаменателя v 2 = п - к - 1 и уровня значимости а. Если вычисленное значение критерия Фишера F R больше табличного значения, то гипотеза о незначимости коэффициента детерминации, т.е. о несоответствии заложенных в уравнении регрессии связей реально существующим, с вероятностью р = 1 - а отвергается.

Средняя ошибка аппроксимации (среднее процентное отклонение) вычисляется как средняя относительная разность, выраженная в процентах, между фактическими и расчетными значениями результирующей переменной:

Чем меньше значение данного показателя, тем лучше прогнозные качества модели. При значении данного показателя не выше 7% говорят о высокой точности модели. Если 8 > 15%, говорят о неудовлетворительной точности модели.

Стандартная ошибка коэффициента регрессии:

где (/I) -1 .- диагональный элемент матрицы {Х Г Х)~ 1 к - количество факторов;

X - матрица значений факторных переменных:

X 7 - транспонированная матрица значений факторных переменных;

(ЖЛ) _| - матрица, обратная матрице.

Чем меньше эти показатели для каждого коэффициента регрессии, тем надежнее оценка соответствующего коэффициента регрессии.

Критерий Стьюдента (t-статистика):

Этот критерий позволяет измерить степень надежности (существенности) связи, обусловленной данным коэффициентом регрессии. Если вычисленное значение t . больше табличного значения

t av , где v - п - к - 1 - число степеней свободы, то гипотеза о том, что данный коэффициент является статистически незначимым, отвергается с вероятностью (100 - а)%. Существуют специальные таблицы /-распределения, позволяющие по заданному уровню значимости а и числу степеней свободы v определять критическое значение критерия. Наиболее часто употребляемое значение а равно 5%.

Мультиколлинеарность , т.е. эффект взаимных связей между факторными переменными, приводит к необходимости довольствоваться ограниченным их числом. Если это не учесть, то можно в итоге получить нелогичную регрессионную модель. Чтобы избежать негативного эффекта мультиколлинеарности, до построения множественной регрессионной модели рассчитываются коэффициенты парной корреляции r xjxj между отобранными переменными х. и х

Здесь XjX; - среднее значение произведения двух факторных переменных;

XjXj - произведение средних значений двух факторных переменных;

Оценка дисперсии факторной переменной х..

Считается, что две переменные регрессионно связаны между собой (т.е. коллинеарные), если коэффициент их парной корреляции по абсолютной величине строго больше 0,8. В этом случае какую-либо из этих переменных надо исключить из рассмотрения.

С целью расширения возможностей экономического анализа получаемых регрессионных моделей используются средние коэффициенты эластичности, определяемые по формуле:

где Xj - среднее значение соответствующей факторной переменной;

у - среднее значение результирующей переменной; a i - коэффициент регрессии при соответствующей факторной переменной.

Коэффициент эластичности показывает, на сколько процентов в среднем изменится значение результирующей переменной при изменении факторной переменной на 1 %, т.е. как реагирует результирующая переменная на изменение факторной переменной. Например, как реагирует цена кв. м площади квартиры на удаление от центра города.

Полезным с точки зрения анализа значимости того или иного коэффициента регрессии является оценка частного коэффициента детерминации:

Здесь - оценка дисперсии результирующей

переменной. Данный коэффициент показывает, на сколько процентов вариация результирующей переменной объясняется вариацией /-й факторной переменной, входящей в уравнение регрессии.

Под гедонистическими характеристиками понимаются характеристики объекта, отражающие его полезные (ценные) с точки зрения покупателей и продавцов свойства.

А) Графический анализ простой линейной регрессии.

Простое линейное уравнение регрессии y=a+bx. Если между случайными величинами У и X существует корреляционная связь, то значение у = ý + ,

где ý – теоретическое значение у, полученное из уравнения ý = f(x),

 – погрешность отклонения теоретического уравнения ý от фактических (экспериментальных) данных.

Уравнение зависимости средней величины ý от х, то есть ý = f(x) называют уравнением регрессии. Регрессионный анализ состоит из четырёх зтапов:

1) постановка задачи и установление причин связи.

2) ограничение объекта исследований, сбор статастической информации.

3) выбор уравнения связи на основе анализа и характера собранных данных.

4) расчёт числовых значений, характеристик корреляционной связи.

Если две переменные связаны таким образом, что изменение одной переменной соответствует систематическому изменению другой переменной, то для оценки и выбора уравнения связи между ними применяют регрессионный анализ в том случае, если эти переменные известны. В отличие от регрессионного анализа, корреляционный анализ применяют для анализа тесноты связи между X и У.

Рассмотрим нахождение прямой при регрессионном анализе:

Теоретическое уравнение регрессии.

Термин «простая регрессия» указывает на то, что величина одной переменной оценивается на основе знаний о другой переменной. В отличие от простой многофакторная регрессия применяется для оценки переменной на основе знания двух, трёх и более переменных. Рассмотрим графический анализ простой линейной регрессии.

Предположим, имеются результаты отборочных испытании по предварительному найму на работу и производительности труда.

	Результаты отбора (100 баллов), x	Производительность (20 баллов), y

Нанеся точки на график, получим диаграмму (поле) рассеяния. Используем её для анализа результатов отборочных испытаний и производительности труда.

По диаграмме рассеяния проанализируем линию регрессии. В регрессионном анализе всегда указываются хотя бы две переменные. Систематическое изменение одной переменной связано с изменением другой. Основная цель регрессионного анализа заключается в оценке величины одной переменной, если величина другой переменной известна. Для полной задачи важна оценка производительности труда.

Независимой переменной в регрессионном анализе называется величина, которая используется в качестве основы для анализа другой переменной. В данном случае – это результаты отборочных испытаний (по оси X).

Зависимой переменной называется оцениваемая величина (по оси У). В регрессионном анализе может быть только одна зависимая переменная и несколько независимых переменных.

Для простого регрессионного анализа зависимость можно представить в двухкоординатной системе (х и у), по оси X – независимая переменная, по оси У – зависимая. Наносим точки пересечения таким образом, чтобы на графике была представлена пара величин. График называют диаграммой рассеяния . Ее построение – это второй этап регрессионного анализа, поскольку первый – это выбор анализируемых величин и сбор данных выборки. Таким образом, регрессионный анализ применяется для статистического анализа. Связь между выборочными данными диаграммы линейная.

Для оценки величины переменной у на основе переменной х необходимо определить положение линии, которая наилучшим образом представляет связь между х и у на основе расположения точек диаграммы рассеяния. В нашем примере это анализ производительности. Линия, проведенная через точки рассеяния – линия регрессии . Одним из способов построения линии регрессии, основанном на визуальном опыте, является способ построения от руки. По нашей линии регрессии можно определить производительность труда. При нахождении уравнения линии регрессии

часто применяют критерий наименьших квадратов. Наиболее подходящей является та линия, где сумма квадратов отклонений минимальна

Математическое уравнение линии роста представляет закон роста в арифметической прогрессии:

у = а – b х .

Y = а + b х – приведённое уравнение с одним параметром является простейшим видом уравнения связи. Оно приемлемо для средних величин. Чтобы точнее выразить связь между х и у , вводится дополнительный коэффициент пропорциональности b , который указывает наклон линии регрессии.

Б) Построение теоретической линии регрессии.

Процесс её нахождения заключается в выборе и обосновании типа кривой и расчётов параметров а , b , с и т.д. Процесс построения называют выравниванием, и запас кривых, предлагаемых мат. анализом, разнообразен. Чаще всего в экономических задачах используют семейство кривых, уравнения которые выражаются многочленами целых положительных степеней.

1)
– уравнение прямой,

2)
– уравнение гиперболы,

3)
– уравнение параболы,

где ý – ординаты теоретической линии регрессии.

Выбрав тип уравнения, необходимо найти параметры, от которых зависит это уравнение. Например, характер расположения точек в поле рассеяния показал, что теоретическая линия регрессии является прямой.

Диаграмма рассеяния позволяет представить производительность труда с помощью регрессионного анализа. В экономике с помощью регрессионного анализа предсказываются многие характеристики, влияющие на конечный продукт (с учётом ценообразования).

В) Критерий наименьших кадратов для нахождения прямой линии.

Один из критериев, которые мы могли бы применить для подходящей линии регрессии на диаграмме рассеяния, основан на выборе линии, для которой сумма квадратов погрешностей будет минимальна.

Близость точек рассеяния к прямой измеряется ординатами отрезков. Отклонения этих точек могут быть положительными и отрицательными, но сумма квадратов отклонений теоретической прямой от экспериментальной всегда положительна и должна быть минимальна. Факт несовпадения всех точек рассеяния с положением линии регрессии указывает на существование расхождения между экспериментальными и теоретическими данными. Таким образом, можно сказать, что никакая другая линия регрессии, кроме той, которую нашли, не может дать меньшую сумму отклонений между экспериментальными и опытными данными. Следовательно, найдя теоретическое уравнение ý и линию регрессии, мы удовлетворяем требованию наименьших квадратов.

Это делается с помощью уравнения связи
, используя формулы для нахождения параметров а и b . Взяв теоретическое значение
и обозначив левую часть уравнения черезf , получим функцию
от неизвестных параметрова и b . Значения а и b будут удовлетворять минимуму функции f и находятся из уравнений частных производных
и
. Этонеобходимое условие , однако для положительной квадратической функции это является и достаточным условием для нахождения а и b .

Выведем из уравнений частных производных формулы параметров а и b :

получим систему уравнений:

где
– среднеарифметические погрешности.

Подставив числовые значения, найдем параметры а и b .

Существует понятие
. Это коэффициент аппроксимации.

Если е < 33%, то модель приемлема для дальнейшего анализа;

Если е > 33%, то берём гиперболу, параболу и т.д. Это даёт право для анализа в различных ситуациях.

Вывод: по критерию коэффициента аппроксимации наиболее подходящей является та линия, для которых

, и никакая другая линия регрессии для нашей задачи не даёт минимум отклонений.

Г) Квадратическая ошибка оценки, проверка их типичности.

Применительно к совокупности, у которой число параметров исследования меньше 30 (n < 30), для проверки типичности параметров уравнения регрессии используется t -критерий Стьюдента. При этом вычисляется фактическое значение t -критерия:

Отсюда

где – остаточная среднеквадратическая погрешность. Полученныеt a и t b сравнивают с критическим t k из таблицы Стьюдента с учётом принятого уровня значимости ( = 0,01 = 99% или  = 0,05 = 95%). P = f = k 1 = m – число параметров исследуемого уравнения (степень свободы). Например, если y = a + bx ; m = 2, k 2 = f 2 = p 2 = n – (m + 1), где n – количество исследуемых признаков.

t a < t k < t b .

Вывод : по проверенным на типичность параметрам уравнения регрессии производится построение математической модели связи
. При этом параметры примененной в анализе математической функции (линейная, гипербола, парабола) получают соответствующие количественные значения. Смысловое содержание полученных таким образом моделей состоит в том, что они характеризуют среднюю величину результативного признака
от факторного признака X .

Д) Криволинейная регрессия.

Довольно часто встречается криволинейная зависимость, когда между переменными устанавливается меняющееся соотношение. Интенсивность возрастания (убывания) зависит от уровня нахождения X. Криволинейная зависимость бывает разных видов. Например, рассмотрим зависимость между урожаем и осадками. С увеличением осадков при равных природных условиях интенсивное увеличение урожая, но до определенного предела. После критической точки осадки оказываются излишними, и урожайность катастрофически падает. Из примера видно, что вначале связь была положительной, а потом отрицательной. Критическая точка - оптимальный уровень признака X, которому соответствует максимальное или минимальное значение признака У.

В экономике такая связь наблюдается между ценой и потреблением, производительностью и стажем.

Параболическая зависимость.

Если данные показывают, что увеличение факторного признака приводит к росту результативного признака, то в качестве уравнения регрессии берется уравнение второго порядка (парабола).

. Коэффициенты a,b,c находятся из уравнений частных производных:

Получаем систему уравнений:

Виды криволинейных уравнений:

Вправе предполагать, что между производительностью труда и баллами отборочных испытаний существует криволинейная зависимость. Это означает, что с ростом бальной системы производительность начнёт на каком-то уровне уменьшаться, поэтому прямая модель может оказаться криволинейной.

Третьей моделью будет гипербола, и во всех уравнениях вместо переменной х будет стоять выражение .

Что такое регрессия?

Рассмотрим две непрерывные переменные x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Разместим точки на двумерном графике рассеяния и скажем, что мы имеем линейное соотношение , если данные аппроксимируются прямой линией.

Если мы полагаем, что y зависит от x , причём изменения в y вызываются именно изменениями в x , мы можем определить линию регрессии (регрессия y на x ), которая лучше всего описывает прямолинейное соотношение между этими двумя переменными.

Статистическое использование слова "регрессия" исходит из явления, известного как регрессия к среднему, приписываемого сэру Френсису Гальтону (1889).

Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей "регрессировал" и "двигался вспять" к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Линия регрессии

Математическое уравнение, которое оценивает линию простой (парной) линейной регрессии:

x называется независимой переменной или предиктором.

Y - зависимая переменная или переменная отклика. Это значение, которое мы ожидаем для y (в среднем), если мы знаем величину x , т.е. это «предсказанное значение y »

a - свободный член (пересечение) линии оценки; это значение Y , когда x=0 (Рис.1).
b - угловой коэффициент или градиент оценённой линии; она представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем x на одну единицу.
a и b называют коэффициентами регрессии оценённой линии, хотя этот термин часто используют только для b .

Парную линейную регрессию можно расширить, включив в нее более одной независимой переменной; в этом случае она известна как множественная регрессия .

Рис.1. Линия линейной регрессии, показывающая пересечение a и угловой коэффициент b (величину возрастания Y при увеличении x на одну единицу)

Метод наименьших квадратов

Мы выполняем регрессионный анализ, используя выборку наблюдений, где a и b - выборочные оценки истинных (генеральных) параметров, α и β , которые определяют линию линейной регрессии в популяции (генеральной совокупности).

Наиболее простым методом определения коэффициентов a и b является метод наименьших квадратов (МНК).

Подгонка оценивается, рассматривая остатки (вертикальное расстояние каждой точки от линии, например, остаток = наблюдаемому y - предсказанный y , Рис. 2).

Линию лучшей подгонки выбирают так, чтобы сумма квадратов остатков была минимальной.

Рис. 2. Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.

Предположения линейной регрессии

Итак, для каждой наблюдаемой величины остаток равен разнице и соответствующего предсказанного Каждый остаток может быть положительным или отрицательным.

Можно использовать остатки для проверки следующих предположений, лежащих в основе линейной регрессии:

Остатки нормально распределены с нулевым средним значением;

Если допущения линейности, нормальности и/или постоянной дисперсии сомнительны, мы можем преобразовать или и рассчитать новую линию регрессии, для которой эти допущения удовлетворяются (например, использовать логарифмическое преобразование или др.).

Аномальные значения (выбросы) и точки влияния

"Влиятельное" наблюдение, если оно опущено, изменяет одну или больше оценок параметров модели (т.е. угловой коэффициент или свободный член).

Выброс (наблюдение, которое противоречит большинству значений в наборе данных) может быть "влиятельным" наблюдением и может хорошо обнаруживаться визуально, при осмотре двумерной диаграммы рассеяния или графика остатков.

И для выбросов, и для "влиятельных" наблюдений (точек) используют модели, как с их включением, так и без них, обращают внимание на изменение оценки (коэффициентов регрессии).

При проведении анализа не стоит отбрасывать выбросы или точки влияния автоматически, поскольку простое игнорирование может повлиять на полученные результаты. Всегда изучайте причины появления этих выбросов и анализируйте их.

Гипотеза линейной регрессии

При построении линейной регрессии проверяется нулевая гипотеза о том, что генеральный угловой коэффициент линии регрессии β равен нулю.

Если угловой коэффициент линии равен нулю, между и нет линейного соотношения: изменение не влияет на

Для тестирования нулевой гипотезы о том, что истинный угловой коэффициент равен нулю можно воспользоваться следующим алгоритмом:

Вычислить статистику критерия, равную отношению , которая подчиняется распределению с степенями свободы, где стандартная ошибка коэффициента

- оценка дисперсии остатков.

Обычно если достигнутый уровень значимости нулевая гипотеза отклоняется.

где процентная точка распределения со степенями свободы что дает вероятность двустороннего критерия

Это тот интервал, который содержит генеральный угловой коэффициент с вероятностью 95%.

Для больших выборок, скажем, мы можем аппроксимировать значением 1,96 (то есть статистика критерия будет стремиться к нормальному распределению)

Оценка качества линейной регрессии: коэффициент детерминации R 2

Из-за линейного соотношения и мы ожидаем, что изменяется, по мере того как изменяется , и называем это вариацией, которая обусловлена или объясняется регрессией. Остаточная вариация должна быть как можно меньше.

Если это так, то большая часть вариации будет объясняться регрессией, а точки будут лежать близко к линии регрессии, т.е. линия хорошо соответствует данным.

Долю общей дисперсии , которая объясняется регрессией называют коэффициентом детерминации , обычно выражают через процентное соотношение и обозначают R 2 (в парной линейной регрессии это величина r 2 , квадрат коэффициента корреляции), позволяет субъективно оценить качество уравнения регрессии.

Разность представляет собой процент дисперсии который нельзя объяснить регрессией.

Нет формального теста для оценки мы вынуждены положиться на субъективное суждение, чтобы определить качество подгонки линии регрессии.

Применение линии регрессии для прогноза

Можно применять регрессионную линию для прогнозирования значения по значению в пределе наблюдаемого диапазона (никогда не экстраполируйте вне этих пределов).

Мы предсказываем среднюю величину для наблюдаемых, которые имеют определенное значение путем подстановки этого значения в уравнение линии регрессии.

Итак, если прогнозируем как Используем эту предсказанную величину и ее стандартную ошибку, чтобы оценить доверительный интервал для истинной средней величины в популяции.

Повторение этой процедуры для различных величин позволяет построить доверительные границы для этой линии. Это полоса или область, которая содержит истинную линию, например, с 95% доверительной вероятностью.

Простые регрессионные планы

Простые регрессионные планы содержат один непрерывный предиктор. Если существует 3 наблюдения со значениями предиктора P , например, 7, 4 и 9, а план включает эффект первого порядка P , то матрица плана X будет иметь вид

а регрессионное уравнение с использованием P для X1 выглядит как

Y = b0 + b1 P

Если простой регрессионный план содержит эффект высшего порядка для P , например квадратичный эффект, то значения в столбце X1 в матрице плана будут возведены во вторую степень:

а уравнение примет вид

Y = b0 + b1 P2

Сигма -ограниченные и сверхпараметризованные методы кодирования не применяются по отношению к простым регрессионным планам и другим планам, содержащим только непрерывные предикторы (поскольку, просто не существует категориальных предикторов). Независимо от выбранного метода кодирования, значения непрерывных переменных увеличиваются в соответствующей степени и используются как значения для переменных X . При этом перекодировка не выполняется. Кроме того, при описании регрессионных планов можно опустить рассмотрение матрицы плана X , а работать только с регрессионным уравнением.

Пример: простой регрессионный анализ

Этот пример использует данные, представленные в таблице:

Рис. 3. Таблица исходных данных.

Данные составлены на основе сравнения переписей 1960 и 1970 в произвольно выбранных 30 округах. Названия округов представлены в виде имен наблюдений. Информация относительно каждой переменной представлена ниже:

Рис. 4. Таблица спецификаций переменных.

Задача исследования

Для этого примера будут анализироваться корреляция уровня бедности и степень, которая предсказывает процент семей, которые находятся за чертой бедности. Следовательно мы будем трактовать переменную 3 (Pt_Poor ) как зависимую переменную.

Можно выдвинуть гипотезу: изменение численности населения и процент семей, которые находятся за чертой бедности, связаны между собой. Кажется разумным ожидать, что бедность ведет к оттоку населения, следовательно, здесь будет отрицательная корреляция между процентом людей за чертой бедности и изменением численности населения. Следовательно мы будем трактовать переменную 1 (Pop_Chng ) как переменную-предиктор.

Просмотр результатов

Коэффициенты регрессии

Рис. 5. Коэффициенты регрессии Pt_Poor на Pop_Chng.

На пересечении строки Pop_Chng и столбца Парам. не стандартизованный коэффициент для регрессии Pt_Poor на Pop_Chng равен -0.40374 . Это означает, что для каждого уменьшения численности населения на единицу, имеется увеличение уровня бедности на.40374. Верхний и нижний (по умолчанию) 95% доверительные пределы для этого не стандартизованного коэффициента не включают ноль, так что коэффициент регрессии значим на уровне p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Распределение переменных

Коэффициенты корреляции могут стать существенно завышены или занижены, если в данных присутствуют большие выбросы. Изучим распределение зависимой переменной Pt_Poor по округам. Для этого построим гистограмму переменной Pt_Poor .

Рис. 6. Гистограмма переменной Pt_Poor.

Как вы можете заметить, распределение этой переменной заметно отличается от нормального распределения. Тем не менее, хотя даже два округа (два правых столбца) имеют высокий процент семей, которые находятся за чертой бедности, чем ожидалось в случае нормального распределения, кажется, что они находятся "внутри диапазона."

Рис. 7. Гистограмма переменной Pt_Poor.

Это суждение в некоторой степени субъективно. Эмпирическое правило гласит, что выбросы необходимо учитывать, если наблюдение (или наблюдения) не попадают в интервал (среднее ± 3 умноженное на стандартное отклонение). В этом случае стоит повторить анализ с выбросами и без, чтобы убедиться, что они не оказывают серьезного эффекта на корреляцию между членами совокупности.

Диаграмма рассеяния

Если одна из гипотез априори о взаимосвязи между заданными переменными, то ее полезно проверить на графике соответствующей диаграммы рассеяния.

Рис. 8. Диаграмма рассеяния.

Диаграмма рассеяния показывает явную отрицательную корреляцию (-.65 ) между двумя переменными. На ней также показан 95% доверительный интервал для линии регрессии, т.е., с 95% вероятностью линия регрессии проходит между двумя пунктирными кривыми.

Критерии значимости

Рис. 9. Таблица, содержащая критерии значимости.

Критерий для коэффициента регрессии Pop_Chng подтверждает, что Pop_Chng сильно связано с Pt_Poor , p<.001 .

Итог

На этом примере было показано, как проанализировать простой регрессионный план. Была также представлена интерпретация не стандартизованных и стандартизованных коэффициентов регрессии. Обсуждена важность изучения распределения откликов зависимой переменной, продемонстрирована техника определения направления и силы взаимосвязи между предиктором и зависимой переменной.

Диагностика и болезни. Лекарства от А до Я