Регрессионный анализ в STATISTICA -модуль Множественная регрессия
Типичной задачей, возникающей на практике, является определение зависимостей или связей между переменными. В реальной жизни переменные связаны друг с другом. Например, в маркетинге количество денег, вложенных в рекламу, влияет на объемы продаж; в медицинских исследованиях доза лекарственного препарата влияет на эффект; в текстильном производстве качество окрашивания ткани зависит от температуры, влажности и др. параметров; в металлургии качество стали зависит от специальных добавок и т. д. Найти зависимости в данных и использовать их в своих целях - задача анализа данных.
Предположим, вы наблюдаете значения пары переменных X и Y и хотите найти зависимость между ними. Например:
X - количество посетителей интернет магазина, Y - объем продаж;
X - диагональ плазменной панели, Y - цена;
X - цена покупки акции, Y - цена продажи;
X - стоимость алюминия на Лондонской бирже, Y - объемы продаж;
X - количеством прорывов на нефтепроводах, Y - величина потерь;
X - «возраст» самолета, Y - расходы на его ремонт;
X - торговая площадь, Y - оборот магазина;
X - доход, Y - потребление и т. д.
Конечно, этот список можно продолжить.
Общая концепция исследования зависимости состоит в разделении переменных на зависимые и независимые.
Переменная X обычно носит название независимой переменной (англ, independent variable), переменная Y называется зависимой переменной (англ, dependent variable). Иногда переменную X называют предиктором, переменную Y - откликом.
Данная терминология связана с тем, что мы хотим определить именно зависимость Y от X или предсказать, какими будут значения Y при данных значениях X.
Структура данных. В данном случае мы наблюдаем значения X и соответствующие им значения Y. Задача состоит в том, чтобы построить модель, позволяющую по значениям X, отличным от наблюдаемых, определить Y.
Значения переменной X в i-м опыте будем обозначать через \(Х_j\), соответствующую величину Y обозначим через \(Y_j, 0<i < n\). Например, \(Х_1\) - торговая площадь первого магазина, \(Y_1\) - оборот в месяц, \(Х_2\) - площадь второго магазина и т. д.
Можно представить, что мы имеем несколько значений независимой переменной X и соответствующие им значения Y.
Итак, наблюдая значения независимой переменной \(Х_j\) и соответствующие им значения зависимой переменной $Y_j, 0<j< n $, мы хотим оценить зависимость Y от X.
В статистике подобные задачи решаются в рамках регрессионной модели. Мы будем рассматривать самую простую регрессионную модель - линейную. Однако и в рамках этой модели могут быть решены интересные практические задачи.
После того как вы освоите линейную регрессионную модель, можете перейти к более сложным - нелинейным - моделям и исследовать их в STATISTICA.
Регрессионный анализ в системе STATISTICA проводится в модуле Множественная регрессия. Конечно, более точным термином является многомерная регрессия, но мы придерживаемся устоявшейся терминологии.
Описание модели
Дадим точное описание линейной регрессионной модели, в рамках которой будем исследовать зависимость Y от X.
Мы предполагаем, что наблюдаемые величины связаны между собой линейной зависимостью вида:
\(X =В_0+В_1Х_1+...+Е_j; 0<j<n\),
где X - зависимая переменная; \(Х_j\) - независимая переменная; \(В_j, В_0\) - неизвестные константы; \(Е_j\) - ненаблюдаемые случайные величины (наблюдаются только \(Х_j\)) со средним 0 (как говорят, являются несмещенными) и неизвестной дисперсией, не меняющейся от опыта к опыту.
Иногда случайные величины \(Е_j, 0<j < n\) называют ошибками наблюдения. Относительно E предполагается, что они не коррелированы между собой. Кроме того, часто предполагается, что ошибки имеют нормальное распределение. В этом случае некоррелированность влечет независимость.
Эта модель называется парной регрессией, потому что имеется пара переменных. Модель называется линейной, потому что уравнение \(у = b_0+b_jX\) определяет прямую линию в декартовой системе координат.
Можно рассматривать и более общие линейные модели с несколькими независимыми переменными: \(X = B_{1}X_{1} + B_{2}X_{2} + {....} + B_{0} + E_{j}\) , \(0 < j < n\)
где \(В_0, В_1, В_2,..., В_к\) - неизвестные коэффициенты (параметры) модели;
Возможно одной переменной окажется недостаточно для описания зависимости, так аренда зависит не только от площади квартиры, но и от места расположения, этажа; оборот продаж магазина зависит не только от торговой площади, но и места расположения и т. д.
Добавляя новые переменные, мы уточняем модель. Модели с большим количеством предикторов также могут быть исследованы в модуле
Множественная регрессия
Cосредоточимся на парной регрессии.
Задача состоит в том, чтобы по наблюдениям :
оценить параметры модели B наилучшим образом, т. е. построить точечные оценки этих параметров;
построить доверительные интервалы для величин Вi:
проверить гипотезу о значимости регрессии: имеет место зависимость или нет;
оценить степень адекватности построенной модели.
На разнообразных примерах мы покажем, как решается данная задача в системе STATISTICA.
Но вначале кратко опишем математическое решение задачи, чтобы понять основные идеи анализа.
Метод решения
Рассмотрим первую часть задачи - оценивание неизвестных параметров в парной регрессии Вj, Во наилучшим образом. Распространение решения на многомерный случай не представляет принципиальных трудностей.
Пусть наблюдаемые данные на плоскости (X,Y) имеют вид, показанный на рис.

| 1 | 2 |
| X | Y |
| 0 5. | 170 |
| 1 | 560 |
| 4 | 500 |
| 4,5 | 620 |
| 5 | 1530 |
| 5,5 | 1000 |
| 6 | 1380 |
Посмотрите на данные. Вы видите 7 точек на плоскости с координатами: (X1, Y1), (Х2, Y2,), …, (Х7, Y7).
Представьте, перед вами стоит задача - провести прямую максимально близко к этим точкам. Понятие «максимально близко» пока не уточнено, поэтому таких прямых может быть много.
Уточним, что будем понимать под словами «прямая, максимально близко лежащая к точкам». Пусть это будет прямая, сумма квадратов расстояний до которой от наблюдаемых точек является минимальной.
Итак, измеряем расстояния от каждой точки до проведенной прямой по оси Y, т. е. по вертикали. Возводим эти расстояния в квадрат, суммируем по всем точкам и требуем, чтобы полученная сумма квадратов расстояний была минимальной - настолько малой, насколько это вообще возможно.
.jpg)
Заранее не ясно, можно ли вообще такую прямую провести. Оказывается, во- первых, такую прямую действительно можно провести, а во-вторых - она единственная.
Про такую прямую линию говорят, что она построена методом наименьших квадратов. Уравнение прямой, полученное из условия минимизации суммы квадратов отклонений, измеренных по оси Y, имеет вид:
Y = 149,1332+177,9648 X.
Данное уравнение называют также уравнением регрессии.
Оценка свободного члена В0 равна 149,1332; оценка коэффициента В - угла наклона - равна 177,9648. Эти оценки являются наилучшими оценками неизвестных параметров В0, В1 , так как прямая Y = 149,1332 + 177,9648 • X максимально близко проходит к наблюдаемым точкам.
Такие оценки называют оценками, построенными методом наименьших квадратов, или, более кратко, оценками наименьших квадратов.
Тот же принцип минимизации суммы квадратов отклонений сохраняется и в случае, если имеется несколько независимых переменных Хр …, Хк, К>1 (вы строите не прямую, а гиперплоскость, как говорят математики).
Как мы нашли неизвестные коэффициенты, определяющие нашу прямую? Вначале мы переложили на математический язык вербальную постановку задачи. Потом использовали несложную математическую калькуляцию.
Запишем формально уравнение прямой, оно имеет вид: Y=B0+B1 X
Вычислим отклонения прямой от наблюдаемых точек:
Возведем эти отклонения в квадрат и просуммируем, получим суммарное отклонение:
\[d = \sum\limits_{i = 1}^{n}\left( Y_{i} - B_{0} - B_{1}X_{i} \right)^{2}\]
Величину d можно понимать как расстояние от прямой до наблюдаемых точек. Мы хотим минимизировать эту величину - сделать ее возможно малой, - выбирая подходящие значения параметров В0 и В1 .
Очевидно, при разных значениях параметров В0 и В мы получим разные значения величины d. Нам нужны такие значения величин В1 и В1, которые минимизируют d.
Можно поступить двояким способом: использовать перебор различных значений В0, Bj, поручив дело компьютеру (что вполне разумно) или воспользоваться высшей математикой.
Для минимума величины d необходимо, чтобы производные по В0 и В jобращались в нуль. Формально продифференцируем выражение для d, получим уравнения для величин В0 и В1 . Вот эти уравнения:
Итак, у нас имеется два уравнения относительно двух неизвестных В1 и В1.
Теперь приведем визуальное рассуждение, используя графическое представление. Если бы наблюдаемых точек было 2, мы просто провели бы через них прямую, но мы считаем, что точек больше.
Возьмем любую прямую и начнем ее сдвигать, оставляя параллельной самой себе. Мы надвигаем прямую на наблюдаемые точки. Расстояние, естественно, уменьшается, наступает момент, когда расстояние между прямой и наблюдаемыми точками становится минимальным, далее снова увеличивается.
Отметим тот момент, когда расстояние минимально, зафиксируем прямую, далее начнем поворачивать ее. Можно ожидать, что наступит момент, когда мы достигнем оптимального положения прямой.
Оказывается, такая точка всегда существует и имеет следующие координаты:
Xn=(Xj + … +Xn)/n; Yn=(Yj+ … +Yn)/n.
Если вы повторите рассуждения с движением прямой и ее приближением к наблюдаемым точкам, то поймете, что искомая прямая обязательно должна проходить через точку с найденными координатами (Xn, Yn).
Далее вращением прямой вы найдете оптимальное положение.
Запомните: регрессионная прямая всегда проходит через среднюю точку с координатами (Xn, Yn).
Полезность этого рассуждения состоит в том, что его можно распространить на случай, когда расстояние между прямой и точками не возводится в квадрат, а является, например, модулем.
Зададимся вопросом: зачем нужна построенная прямая? Ответ простой: представьте, вам нужно определить значения отклика в промежуточных точках. Используя найденное уравнение, вы легко сделаете это.
Анализ данных - это не формальная калькуляция, а понимание соединенных между собой вещей, разделение сложного на простое.
Сделаем небольшое замечание об ошибках.
Конечно, можно применять метод наименьших квадратов без всяких предположений относительно распределения ошибок. Из всех возможных прямых вы просто выбираете прямую, сумма квадратов расстояний до которой от наблюдаемых точек минимальна. Таким образом, вы получите оценки коэффициентов Bj, В0.
Но каково качество этих оценок? В условиях нормального распределения оценки, построенные методом наименьших квадратов, являются оптимальными. Если распределение отличается от нормального, то свойство оптимальности может быть утрачено. Например, в данных могут быть резко выделяющиеся наблюдения (выбросы), а метод наименьших квадратов чувствителен к выбросам.
Кратко опишем основные понятия регрессионного анализа. Эти понятия используются в таблицах результатов в модуле Множественная регрессия.
Предсказанные значения: значения Y-ов, вычисленные по уравнению с оцененными параметрами, в нашем примере по уравнению \[Y = 149,1332 + 177,9648 \cdot X\] . Эти значения называют предсказанными значениями (английский термин predictive values).
Значения Y-в, предсказанные в точках Xj, будем обозначать PrYj, 0<i < n.
Остатки: разности между наблюдаемыми и предсказанными: Yj-PrYj, 0<i<n (англ, residuals - остатки) .
Среднее значение Y \[{< Y >} = \frac{Y_{1} + Y_{2} + \operatorname{....} + Y_{n}}{n}\]
Сумма квадратов Y-в, скорректированная на среднее, - SS: \[{SS} = \left( {Y_{1} - {< Y >}} \right)^{2} + \left( {Y_{2} - {< Y >}} \right)^{2} + ... + \left( {Y_{n} - {< Y >}} \right)^{2}\]
Сумма квадратов PrYj, скорректированная на среднее SSPr: \[{SSPr} = \left( {{PrY}_{1} - {< Y >}} \right)^{2} + \left( {{PrY}_{2} - {< Y >}} \right)^{2} + ... + \left( {{PrY}_{n} - {< Y >}} \right)^{2}\]
Сумма квадратов остатков SSRes: \[{SSRes} = \left( {Y_{1} - {PrY}_{1}} \right)^{2} + \left( {Y_{2} - {PrY}_{2}} \right)^{2} + ... + \left( {Y_{n} - {PrY}_{n}} \right)^{2}\]
Технология регрессионного анализа в STATISTICA
Перейдем к построению регрессионных моделей в STATISTICA. Технология построения регрессионных моделей в STATISTICA проста благодаря специально настроенным диалоговым окнам. Большинство настроек исследователь может принять по умолчанию. Не нужно обладать глубокими математическими знаниями, чтобы уже через несколько занятий строить разумные модели в экономике, маркетинге, бизнесе и других областях человеческой деятельности.
Шаг 1. Откроем файл данных Poverty.sta (рис. 6.3) из папки Examples. Файл содержит данные, составленные на основе переписи 1960 г. и 1970 г. по 30 случайно выбранным округам США. Названия округов представлены в виде имен наблюдений.
.jpg)
В файле содержится 7 переменных:
POPCHNG - изменение численности населения (1960-1970 гг.);
N_EMPLD - количество людей, занятых в сельском хозяйстве;
PT POOR - процент бедного населения;
TAXRATE - ставка налога;
PT_PHONE - количество людей, имеющих телефоны;
PT_RURAL - количество сельского населения;
AGE - средний возраст в соответствующем округе.
Шаг 2. Откроем модуль Множественная регрессия , используя меню Анализ в верхней части STATISTICA.
.jpg)
.jpg)
На экране появится стартовое окно модуля Множественная регрессия, в котором необходимо выбрать зависимые и независимые переменные для анализа. Будем использовать вкладку Быстрый .
Шаг 3. Выбор переменных для анализа. Нажмем кнопку Переменные, откроется диалоговое окно со списками переменных для анализа (рис. 6.6). Выберем PT POOR в
качестве Зависимой переменной, а оставшиеся переменные - в качестве предикторов. Нажмем кнопку ОК. чтобы вернуться в окно Множественная регрессия.
.jpg)
Шаг 4. Переменные выбраны, запустим вычислительную процедуру, нажав кнопку ОК. Программа проведет оценку коэффициентов методом наименьших квадратов. Результаты появятся на экране довольно быстро.
Шаг 5. Анализ результатов. На экране появится окно, содержащее информативную часть и вкладки, предоставляющие способы отображения результатов.
.jpg)
Окно содержит две части: информационную и функциональную.
Вначале рассмотрим информационную часть окна. Здесь содержится описание модели и краткие сведения о результатах анализа.
Зав. перем. Зависимая переменная. В данном случае - PT POOR.
Число набл. Число наблюдений в файле данных. В нашем примере равно 30.
Множест. R. Коэффициент множественной корреляции.
R2. Квадрат коэффициента множественной корреляции, чаще называемый коэффициентом детерминации. Коэффициент детерминации является одной из основных статистик в данном окне, он показывает долю общего разброса (относительно выборочного среднего зависимой переменной), которая объясняется построенной регрессией.
Скоррект. R2. Скорректированный коэффициент детерминации, определяемый как:
Скорр. R2 = 1 — (1-R2),
п-р
где п - число наблюдений в модели; р - число параметров модели (число независимых переменных плюс 1, так как в модель включен свободный член).
Стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.
Св. член. Оценка свободного члена регрессии, значение коэффициента Во в уравнении регрессии.
Представленные величины являются оценками параметров модели. Мы оцениваем неизвестные коэффициенты на основе исходных данных, стандартные ошибки показывают точность или, на статистическом сленге, качество оценок.
Ст. ошибка. Стандартная ошибка оценки свободного члена - стандартная ошибка коэффициента Во в уравнении регрессии.
t и р. Значение t-критерия и уровень р, t-критерий используется для проверки гипотезы о равенстве 0 свободного члена регрессии.
F - значение F-критерия.
сс - число степеней свободы F-критерия.
р - уровень значимости.
Ниже показаны оценки стандартизированных коэффициентов модели.
В информационной части посмотрим прежде всего на значения коэффициента детерминации. Значения коэффициента детерминации лежат в пределах от 0 до 1. В нашем примере R2 = 0,77… Это значение показывает, что построенная регрессия объясняет более 77 % разброса значений переменной PT POOR относительно среднего.
Далее посмотрите на значение F-критерия Фишера и уровень значимости р. F-критерий используется для проверки гипотезы о значимости регрессии. В данном случае для проверки гипотезы, утверждающей, что между зависимой переменой PTPOOR и независимыми переменными нет линейной зависимости.
В окне приведено значение F-критерия - 13,44909 и даваемый в окне уровень значимости р = 0,000002, показывающие, что построенная регрессия действительно значима.
Рассмотрим вторую часть информационного окна. В этой части система сама говорит нам о значимых регрессионных коэффициентах, высвечивая строки: POP CHNG бета = -0,63; PT RURAL бета = 0,619
Выберем представление результатов в виде таблицы. Для этого нажмем кнопку Итоговая таблица регрессии.
На экране появится электронная таблица вывода, в которой представлены итоговые результаты.
где n - число наблюдений в модели; р - число параметров модели (число независимых переменных плюс 1, так как в модель включен свободный член).
Стандартная ошибка оценки. Эта статистика является мерой рассеяния наблюдаемых значений относительно регрессионной прямой.
Св. член. Оценка свободного члена регрессии, значение коэффициента В0 в уравнении регрессии.
Представленные величины являются оценками параметров модели. Мы оцениваем неизвестные коэффициенты на основе исходных данных, стандартные ошибки показывают точность или, на статистическом сленге, качество оценок.
Ст. ошибка. Стандартная ошибка оценки свободного члена - стандартная ошибка коэффициента В0 в уравнении регрессии.
t и р. Значение t-критерия и уровень р, t-критерий используется для проверки гипотезы о равенстве 0 свободного члена регрессии.
F - значение F-критерия.
сс - число степеней свободы F-критерия.
р - уровень значимости.
Ниже показаны оценки стандартизированных коэффициентов модели.
В информационной части посмотрим прежде всего на значения коэффициента детерминации. Значения коэффициента детерминации лежат в пределах от 0 до 1. В нашем примере R2 = 0,77… Это значение показывает, что построенная регрессия объясняет более 77 % разброса значений переменной PT POOR относительно среднего.
Далее посмотрите на значение F-критерия Фишера и уровень значимости р. F-критерий используется для проверки гипотезы о значимости регрессии. В данном случае для проверки гипотезы, утверждающей, что между зависимой переменой PT POOR и независимыми переменными нет линейной зависимости.
В окне приведено значение F-критерия - 13,44909 и даваемый в окне уровень значимости р = 0,000002, показывающие, что построенная регрессия действительно значима.
Рассмотрим вторую часть информационного окна. В этой части система сама говорит нам о значимых регрессионных коэффициентах, высвечивая строки: POP CHNG бета = -0,63; PT RURAL бета = 0,619
Выберем представление результатов в виде таблицы. Для этого нажмем кнопку Итоговая таблица регрессии.
На экране появится электронная таблица вывода, в которой представлены итоговые результаты.
В первом столбце таблицы даны значения коэффициентов БЕТА - стандартизированные коэффициенты регрессионного уравнения, во втором - стандартные ошибки БЕТА, а в третьем - точные оценки параметров модели.
Оценка свободного члена В0 =31,26604.
Коэффициент В (при независимой переменной POP_CHNG)= -0,39234. Последующие коэффициенты определяются аналогично. Основываясь на полученной таблице, получаем регрессионную модель:
PT POOR = 31,26604 - 0,39234 • POP_CHNG + 0,00075 • N EMPLD + + 1,23012 • TAX RATE - 0,08325 • PT PHONE + 0,16554 • PT RURAL - 0,41926 • AGE.
Также в таблице результатов содержатся стандартные ошибки для коэффициентов В, значения статистик t-критерия и р-уровень. Значимые коэффициенты высвечены красным цветом. Итак, построена модель, которую исследуем дальше.
.jpg)
Шаг 6. Анализ остатков. Вернемся в окно результатов и выберем вкладку Остатки/предсказанные/наблюдаемые значения, чтобы перейти к окну Анализ остатков. В этом окне можно построить различные варианты диаграмм рассеяния, выбрав для этого соответствующие вкладки и используя функциональные кнопки.
.jpg)
Например, построить диаграмму Предсказанные и остатки, используя соответствующую кнопку в нижней части окна. Кроме того, можно посмотреть диаграмму рассеяния по любым переменным.
.jpg)
На той же вкладке нажмем кнопку Две переменные и выберем нужные переменные из списка (рис. 6.11).
.jpg)
Построим Диаграммы рассеяния по переменным, регрессионные коэффициенты которых оказались значимы. В качестве переменной Y выберем вначале POPCHNG, азатем PT RURAL . В результате будут построены две диаграммы .
POP_CHNG vs. PT_POOR
POP_CHNG VS. PT_POOR
POP_CHNG = 31,380 - -1,044 • PT_POOR
.jpg)
.jpg)
Анализ остатков является ключевым в оценке адекватности или качества модели.
- Пошаговые примеры
Представьте себе, что дирекция авиакомпании с целью планирования затрат на техническое обслуживание хочет понять, каким образом стоимость эксплуатации самолета связана со временем, в течение которого он эксплуатируется.
Стоимость ремонта самолета, очевидно, зависит от срока эксплуатации, иными словами, от «возраста» самолета. С течением времени, в силу старения, приходится нести большие расходы на поддержание самолета в работоспособном состоянии.
Ниже приведены данные о стоимости эксплуатации винтовых транспортных самолетов в зависимости от «возраста» . Этот пример легко распространить, например, на ремонт легкового или грузового автотранспорта, что позволяет планировать работу технических служб транспортного предприятия.
Модуль Множественная регрессия позволяет построить модели, которые работают на практике.
Создадим файл и внесем в него данные стандартным образом. Назовем этот файл samolet.sta. В файле содержатся значения двух переменных, измеренные для 17-ти самолетов .
Первая переменная - возраст самолета в годах, вторая - стоимость эксплуатации за полгода в долларах.
Наблюдения - это номера самолетов. Например, для наблюдения 7 имеем значения: возраст - 5 лет, затраты на эксплуатацию за последние полгода - 890 долларов. Всего фирмой обследованы и занесены в таблицу данные о 17-ти однотипных самолетах.
.jpg)
Обратите внимание на то, что данные носят статистический характер: у самолетов с одним и тем же сроком эксплуатации стоимость эксплуатации может быть различна.
Еще одна особенность этих данных - они содержат повторяющиеся наблюдения: значения отклика Y наблюдались несколько раз при одних и тех же X (в опыте участвовало несколько самолетов с одним и тем же сроком эксплуатации).
В повторных опытах нельзя добиться того, чтобы коэффициент детерминации был равен 1, более того, нельзя надеяться, что он будет очень близок к 1.
Это замечание следует учитывать при анализе результатов с повторными опытами.
Начнем с визуализации данных.
.jpg)
Рис. 6.15. Диаграмма рассеяния данных о стоимости эксплуатации и возрасте самолета
Однако у дирекции фирмы было основание полагать, что имеется тенденция увеличения затрат на эксплуатацию в зависимости от возраста самолета. Наличие этой тенденции видно на графике. Из графика также можно предположить: зависимость носит линейный характер и имеет вид:
СТОИМОСТЬ = Bj • ВОЗРАСТ + Во,
где В0, Bj - неизвестные коэффициенты.
Наша задача - проверить, насколько реалистична такая модель.
Так же как и в предыдущем примере, мы будем работать в модуле Множественная регрессия системы STATISTICA.
Независимой переменной в модели является Возраст, зависимой - Стоимость. )
Обратите сразу внимание на то, что коэффициент ВОЗРАСТ бета = 0,691 высвечен. Система STATISTICA подсказывает, что регрессия является значимой.
Однако возникает вопрос: адекватна ли данным эта модель?
Отметим, что коэффициент детерминации R2 = 0,477… Однако нас это не удивляет, так как мы помним замечание о значениях коэффициентов детерминации в данных с повторными наблюдениями.
.jpg)
Для оценки адекватности модели проведем анализ остатков. В окне результатов выберем вкладку Дополнительно и нажмем кнопку Дисперсионный анализ (ДА) - ANOVA
В таблице дисперсионного анализа имеем по столбцам:
Сумма квадратов;
сс - число степеней свободы;
Средние квадраты;
F - значение F-критерия:
р-знач. - уровень вероятности.
.jpg)
В строках таблицы:
Регресс - обусловленный регрессией;
Остатки;
Итого - общий (скорректированный на среднее).
Таким образом, линейная модель оказывается приемлемой для описания зависимости стоимости эксплуатации от возраста самолета. На основании этой модели можно принимать дальнейшие решения: обновить существующий парк самолетов, продать несколько устаревших или продолжить эксплуатацию имеющегося парка самолетов.
.jpg)
Ниже приведены данные зависимости цены дома от его полезной площади. Данные относятся к категории так называемых хороших домов.
.jpg)
Принадлежность дома к определенной категории устанавливалась экспертным путем агентом по продаже недвижимости. Стоимость дома измеряется в долларах, площадь - в квадратных футах (1 фут равен 30,48 см).
Среди факторов выделим: район, в котором производится покупка (существует базовая цена для большинства районов), тип дома, этаж (первый этаж может отнять10-20 % от стоимости квартиры, последний - 5-10 %), окружающая среда (фактор, которому трудно приписать какое-то численное значение, - плохо формализуемый фактор).
Одни из этих факторов положительно коррелированны с ценой, другие - отрицательно. На языке маклеров это означает: одни факторы «тянут» цену вверх, другие - вниз.
Мы будем рассматривать рафинированную задачу, оставив для читателей открытым поле деятельности в более реальной ситуации.
Прежде всего визуализируем данные. На диаграмме рассеяния данные имеют следующий вид.
.jpg)
Регрессионный анализ этих данных проводиться аналогично описанному ранее.
Независимой переменной является Площадь, зависимой - Цена. Итоговая таблица регрессионного анализа дана на рис. .
.jpg)
Из этой таблицы ясно, что модель имеет вид:
ЦЕНА= 10,9136-ПЛОЩАДЬ+ 981,1571
Визуализируем модель .
.jpg)
Проведем анализ остатков и оценим адекватность модели. Из этих графиков видно, что модель вполне адекватно описывает данные.
.jpg)
При желании купить дом площадью 1000 кв. футов, легко определить его стоимость с помощью построенной модели. Для этого в окне Результаты множестенной регрессии нажмем кнопку Предсказать зависимую переменную вкладки Остатки/предсказанные/наблюдаемые значения. На экране появится окно Задайте значения независимых переменных
Зададим в этом окне какое-либо значение независимой переменной, например ПЛОЩАДЬ = 1000 кв. футов, и нажмем кнопку ОК. Через секунду следующая таблица с предсказанным значением цены дома появится на экране .
.jpg)
.jpg)
.jpg)
Итак, ориентировочная цена данного дома 11 894 доллара 75 центов. Эта цена является основанием для торга с владельцем или агентом по продаже недвижимости.
.jpg)
- Примеры использования средства кисть для анализа данных
Нигде и никогда не бывает данных в чистом виде. Реальные данные всегда засорены: в них имеются выбросы, аномальные наблюдения, ошибки измерений, пропуски и т. д. Эти наблюдения очень существенно могут повлиять на результаты обработки, в частности, на построение зависимостей.
В STATISTICA имеется прекрасное средство, позволяющее на графике удалять аномальные точки или группы точек. Это средство называется кисть или закрашивание. Действие кисти и будет описано нами ниже.
Рассматривая данные на графике, можно выдвинуть гипотезу, сформулировав ее в самых простых терминах: точка с координатой X = 1 является странной и аномальной. Возможно, причина состоит в том, что при записи данных в электронную таблицу была допущена ошибка.
.jpg)
Мы не будем рассматривать причины появления такого аномального наблюдения, а поставим естественный вопрос: как прошла бы регрессионная прямая, если бы этой точки не было? Для ответа на этот вопрос воспользуйтесь инструментом кисть системы STATISTICA.
Выберем средство Кисть, щелкнув мышью по кнопке на верхней инструментальной панели системы STATISTICA. Перед вами справа появится панель двумерного закрашивания: 2М Закрашивание .
Посмотрите внимательно на нее. Обратите внимание на группу опций, объединенных заголовком Операция. Выберем опцию Игнорировать в группе Операция. В группе опций Выбор кисти выберем опцию Точка.
Далее войдем в график - щелкнем просто по любой точке в его пространстве, сделав тем самым график активным. Отметим точку с координатой X =1, которая, возможно, является аномальной
Щелкнем на кнопке Обновить на панели 2М Закрашивание. Выделенная точка будет удалена, уравнение прямой автоматически пересчитано, и мы увидим на экране обновленный график .
.jpg)
Применяя данную операцию несколько раз, можно последовательно удалить несколько точек. Можно удалить сразу группу исследуемых точек.
.jpg)
х
.jpg)
Выберем опцию Блок на панели управления. Эта опция позволяет захватить в прямоугольник нужную группу точек и затем, например, удалить их .
.jpg)
Выберем опцию Лассо на панели управления. Выделим точки с помощью этого инструмента, обводя карандашом, как бы захватывая их петлей. Эта опция позволяет захватить группу точек на графике. Затем эти точки можно удалить, пометить и т. д. Выберем, например, точки над прямой, как показано на рис.
.jpg)
.jpg)
Обратите внимание на то, что и положение прямой, и уравнение в верхней части графика автоматически изменились после удаления аномальных точек КИСТЬЮ.
Дополнительные возможности системы STATISTICA по оцениванию параметров регрессионных моделей
В папке стандартных примеров (Examples/Macros), поставляемых с системой STATISTICA. имеется несколько макросов, написанных на языке STATISTICA Visual Basic, реализующих следующие методы:
взвешенный метод наименьших квадратов - файл Weighted Least-Squares. svb:
преобразование Бокса-Тидвелла - файл BoxTidwell.svb.
Вы можете создать для этих макросов кнопки и вывести их на панель управления системы.