Классификация данных в STATISTICA

Широкий круг разнообразных задач, возникающих на практике и связанный с классификацией объектов, можно решить методами дискриминантного анализа. Этот метод интенсивно применяется в экономике, промышленности, маркетинге, геостатистике, медицине и других областях, где возникает необходимость разбить наблюдаемые объекты на однородные группы

Обзор метода

Термин дискриминантный происходит от латинского слова discriminate - дискриминация, разделение. Этот вид анализа является многомерным, так как измеряется несколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, температура больного и т. д. Типичные области применения дискриминантного анализа - медицина, управление производством, маркетинг, геология и др. (статья Morrison D. G. «Discriminant Analysis» [9]).

В медицине объектом исследования является пациент, когда по результатам измерений различных параметров, проведения диагностических тестов врач определяет, какое лечение необходимо.

В управлении производством принимается решение по отнесению поступающего сырья или продукции к одному из нескольких классов.

В экономике важно решение по отнесению клиента к определенному классу, например, при выдаче займов.

Чрезвычайно интересно применение дискриминантного анализа в борьбе с терроризмом. Последствия действий против террористов могут привести к одному из двух результатов: успешное освобождение заложников и случаи, когда заложники пострадали. Здесь имеются следующие дискриминантные переменные: число террористов, степень под держки, количество оружия и т. д. Очевидно, лицам, ведущим переговоры, важно классифицировать экстремальную ситуацию, чтобы определить свои действия.

В модуле Дискриминантный анализ системы STATISTICA имеется широкий набор средств, обеспечивающих проведение дискриминантного анализа данных, визуализации и интерпретации результатов.

Постановка задачи

Предположим, имеется п объектов с m характеристиками, например, группа пациентов с определенными показателями.

В результате измерений каждый объект характеризуется вектором хи …, хш, т>1. Задача состоит в том, чтобы по результатам измерений отнести объект к одной из нескольких групп (классов) G,. …, Gk, k>=2. Иными словами, нужно построить решающее правило, позволяющее по результатам измерений параметров объекта указать группу, к которой он принадлежит. Число групп заранее известно, также известно, что объект заведомо принадлежит к определенной группе.

Пусть X - пространство значений вектора измерений. Решающее правило называется нерандомизированным, если пространство X разбито на к непересекающихся областей; при попадании измерения параметров объекта в k-ю область объект относится к k-й группе.

Решающее правило называется рандомизированным, если для каждого вектора наблюдений х задана вероятность pi(x), с которой объект принадлежит i-й группе, p;(x)>=0, p1(x)+…+pk(x)=l, i=l, к.

Очевидно при использовании решающего правила возникают потери, вызванные тем, что объект неправильно классифицирован - отнесен к классу i, когда в действительности принадлежит классу j (i Ф j).

Если можно измерить убыток r(i,j) при неправильной классификации объекта, то вводят средние потери, к которым приводит применение данного правила, и пытаются найти правило, минимизирующее средние потери.

Если значение потерь трудно оценить численно, то при построении оптимального правила используют критерий минимальной вероятности ложной классификации.

В дискриминантом анализе можно задать априорные вероятности принадлежности объекта к определенному классу. На практике эти вероятности оцениваются из массива данных. Так как массив данных накапливается, то оценки постепенно уточняются. При этом можно учесть различные факторы, влияющие на принадлежность объекта к определенному классу.

В случае двух групп объектов дискриминантный анализ эквивалентен множественной регрессии (зависимой переменной является номер группы).

Независимые переменные с наибольшими стандартизированными коэффициентами регрессии дают наибольший вклад в предсказание принадлежности объекта к группе.

В модуле Дискриминантный анализ реализовано два общих метода дискриминантного анализа: стандартный и пошаговый (с включением и исключением предикторов). Данные методы дискриминантного анализа аналогичны методам множественной регрессии. В случае двух групп методом наименьших квадратов строится регрессионная прямая (зависимая переменная - номер группы, все остальные переменные - независимые). Если групп несколько, то можно представить себе, что вначале строится дискриминация между группами 1 и 2, затем между 2 и 3 и так далее.

В пошаговом методе модель строится последовательно по шагам. Для метода включения STATISTICA на каждом шаге оценивает вклад в функцию дискриминации не включенных в модель переменных. Переменная, дающая наибольший вклад, включается в модель, далее система переходит к следующему шагу. Если применяется так называемый пошаговый метод исключения, то вначале в модель включаются все переменные, затем производится их последовательное исключение.

Предположения и ограничения

Дискриминантный анализ «работает» при выполнении ряда предположений.

Предположение о том, что наблюдаемые величины - измеряемые характеристики объекта - имеют нормальное распределение. Это предположение следует проверять. В модуле имеются специальные опции, позволяющие быстро построить гистограммы и графики на вероятностной бумаге. Специальные тесты на нормальность имеются в модуле Дисперсионный анализ (ДА) - ANOVA. Следует заметить, что умеренные отклонения от предположения нормальности данных не являются фатальными.

Предположение об однородности дисперсий и ковариаций наблюдаемых переменных в разных классах (отличие между классами имеется только в средних). Умеренные отклонения от этого предположения также допустимы.

Широкий набор статистик и опций для тестирования различных предположений дискриминантного анализа, в частности так называемый М-критерий Бокса, содержится также в модуле Дисперсионный анализ (ДА).

Методы, реализованные в модуле, являются линейными. Функции классификации и дискриминантные функции являются линейными комбинациями наблюдаемых величин.

Сделаем важное замечание о проверке предположений анализа. Дискриминантный анализ может быть проведен и тогда, когда основные предположения не выполняются (предположение о нормальности и равенстве ковариационных матриц).

Задача состоит в интерпретации результатов. В конечном счете наиболее важным критерием построенного классификатора является практика. И, если окажется, что в результате построен классификатор, «работающий» на практике, то это будет достижением. В связи с этим мы рекомендуем проводить проверку предположений с разумной степенью точности, сосредоточив основные усилия на построение значимой модели.

Пример Фишера: классификация цветов ирисов

Знакомство с возможностями дискриминантного анализа в системе STATISTICA лучше всего начать с классического примера Фишера - классификация цветков ириса.

Представьте, у вас есть цветы ириса, и вы измеряете длину и ширину лепестков и чашелистиков этих цветков. Ваша задача состоит в том, чтобы по результатам измерений отнести ирис к одному из трех типов: SETOSA, VERSICOL, VIRGINIC. Данные для этого примера имеются в файле Irisdat.sta.

Шаг 1. Откроем файл данных Irisdat.sta (рис. 4.1) из папки Examples. В файле содержатся результаты измерений 150 цветков ириса по 50 каждого типа.

Рис. 4.1. Файл данныхIrisdat.sta

Вы видите, что в строках файла показаны цветы, в столбцах - их параметры. Например, для цветка в первой строке SEP ALLEN - ДЛИНА ЧАШЕЛИСТИКА = 5,0; SEPALWID - ШИРИНА ЧАШЕЛИСТИКА = 3,3; PETALLEN - ДЛИНА ПЕСТИКА = 1,4; PETALWD - ШИРИНА ПЕСТИКА = 0,2.

Переменная 5 описывает тип ириса: IRISTYPE - ТИП ИРИСА. Цветок в первой строке отнесен к классу SETOSA.

Шаг 2. Запустим модуль Дискриминантный анализ (рис. 4.2) из меню Анализ - Многомерный разведочный анализ.

Рис. 4.2. Стартовая панель модуля Дискриминантный анализ

Шаг 3. Нажмем кнопку Переменные в стартовой панели и выберем переменные для анализа. В качестве Группирующей переменной выберем переменную IRISTYPE - ТИПИРИСА

В качестве Независимых переменных выберем переменные SEP ALLEN - ДЛИНА ЧАШЕЛИСТИКА, SEPALWD - ШИРИНА ЧАШЕЛИСТИКА, PETALLEN - ДЛИНА ПЕСТИКА, PETALWD - ШИРИНА ПЕСТИКА

По значениям независимых переменных мы хотим отнести ирис к одному из трех классов, иными словами, предсказать значение группирующей переменной. Значения, указанные в столбце, поставлены экспертом, мы хотим научиться строить классификацию автоматически. Нажмем кнопку ОК в стартовой панели. На экране появится окно Определение модели.

Шаг 4. Выберем вкладку Дополнительно (рис. 4.3). В данном окне можно выбрать метод анализа, задать начальные установки в этих методах, а также просмотреть описательные статистики для проверки предположений относительно переменных.

Можно выбрать методы:

стандартный,
пошаговый с включением,
пошаговый с исключением.

В опции Толерантность задается нижняя граница толерантности (переменные с толерантностью меньше этого значения в модель не включаются). По определению, толерантность есть 1 минус квадрат множественной корреляции этой переменной с другими переменными в модели (в пошаговых методах модели рассматриваются на каждом шаге и корреляция высчитывается по включенным в модель переменным).

Переменные с малой толерантностью могут привести к ошибкам при вычислении обратной матрицы. Очевидно, что если толерантность мала, то переменная несет малую дополнительную информацию и включение ее в модель нецелесообразно. Задав в опции Толерантность малое число, вы исключите из модели переменные с толерантностью меньше выбранного числа.

Рис. 4.3. Окно определения модели дискриминантного анализа

Для пошаговых методов в окне имеется специальная группа опций Параметры для пошагового анализа, где задаются:

значения статистики F для включения переменной в модель - F-включить;
значения статистики F для исключения переменной из модели - F-исключить;
Число шагов;
отображение результатов на экране (На заключительном шаге. На каждом ша

ге) - Вывод результатов.

Символом F обозначается критерий Фишера.

Расположенная на вкладке Описательные окна, кнопка Просмотреть описательные статистики открывает диалоговое окно, в котором можно всесторонне просмотреть описательные статистики для группированных данных и различные графики (гистограммы, «ящики с усами», графики на нормальной вероятностной бумаге). Это диалоговое окно используется для проверки основных предположений дискриминантного анализа.

Сделав необходимые установки, нажмем в диалоговом окне Определение модели кнопку ОК в правом верхнем углу. Система проведет вычисления и окно результатов появится на экране.

Шаг 5. Всесторонне рассмотрим результаты в диалоговом окне Результаты анализа дискриминантных функций (рис. 4.4). Окно состоит из двух частей: верхней - информационной, и нижней, в которой содержатся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.

Рис. 4.4. Окно результатов анализа дискриминантных функций из файла Irisdat.sta

В информационной части содержатся сведенья о методе анализа, переменных, включенных в модель, значения стандартных статистик.

Информационная часть сообщает, что использован:

Пошаговый анализ - Шаг 4 (Конечный шаг).
Число переменных в модели: 4.
Последняя включенная переменная: SEP ALLEN, соответствующее значение статистики F-критерия F (2; 144) = 4,72; уровень значимости р<0,0103.
Лямбда Уилкса: 0,0234.
Приближенное значение F-статистики, связанной с лямбдой Уилкса F (8; 288) = = 199,1454.
Р - уровень значимости F-критерия для значения 199,1454.

Значения статистики лямбда Уилкса лежат в интервале [0,1]. Значения, лежащие около 0, свидетельствуют о хорошей дискриминации.

Значения статистики Уилкса, лежащие около 1, свидетельствуют о плохой дискриминации. Иными словами: если значения лямбда Уилкса близки к 0, то мощность дискриминации (мощность = 1 - вероятность ошибки) близка к 1, если лямбда Уилкса близка к 1, то мощность близка к 0.

S Если в окне Определение модели в опции Вывод результатов задать На заключительном шаге, то будут отображены только результаты на последнем шаге анализа. Если задать На каждом шаге, то результаты анализа будут отображены на каждом шаге. При этом в окне результатов появится кнопка Далее, нажав которую, можно открыть окно результатов на следующем шаге анализа (рис. 4.5).

Рис. 4.5. Окно результатов на шаге 1

Окна результатов на каждом шаге анализа возникают при применении пошаговых процедур включения или исключения.

Рассмотрим более подробно окно результатов на последнем шаге.

На вкладке Быстрый окна результатов имеются две кнопки: Переменные в модели и Переменные вне модели. Для нас самой интересной кнопкой является кнопка Переменные в модели, нажмем эту кнопку. На экране появится таблица (рис. 4.6).

Рис. 4.6. Итоговая таблица анализа данных из файла Irisdat.sta

В этой таблице вы можете увидеть результаты дискриминантного анализа для каждой переменной.

Итак, мы видим, что классификация начинается с переменной PETALLEN. Рассмотрим более подробно результаты для этой переменной.

Первый столбец таблицы с показателем, равным 0,035025, говорит о том, что имеется сильная зависимость между переменными. Лямбда Уилкса иногда интерпретируется как многомерный аналог одномерного показателя R2, т. е. отражает отношение обобщенной дисперсии зависимых переменных, вычисленной на основе предикторов. Значения Лямбды Уилкса изменяются от 0 и до 1, 1 характеризует отсутствие зависимости, а 0 - наличие сильной взаимосвязи между предикторами и откликом.

J Частная Лямбда Уилкса - это статистика для одиночного вклада соответствующей переменной в дискриминацию между совокупностями за вычетом влияния других переменных.

Значение можно рассматривать как аналог частного коэффициента корреляции, отличие только в том, что лямбда с величиной 0 обозначает полную дискриминацию (соответствует коэффициенту корреляции, равному 1). Чем меньше ее значение в этом столбце, тем больше одиночный вклад соответствующей переменной в дискриминацию.

Видно, что рассматриваемая переменная PETALLEN имеет наименьшее значение, однако, само значение достаточно большое. Это свидетельствует о том, что все переменные имеют значительный вклад в дискриминацию.

В пошаговом анализе дискриминантной функции переменные включают в модель, если соответствующее им значение F-статистики больше, чем значение F-включить. В таблице приводится значение параметра F-исключить равное 35,59018.

Как вы видите из четвертого столбца, р-уровень для переменной PETALLEN равен 0,000000. Это означает, что зависимость между переменными является не случайной.

Значение толерантности определяется как 1-R2 для соответствующей переменной со всеми другими переменными в модели. Оно дает представление об избыточности данной переменной. Если бы в модель входила каждая переменная по отдельности, то значение ее равнялось бы 1, а в таблице мы видим, что толерантность для переменной PETALLEN принимает значение 0,365126.

Просмотрите разделение групп на графике. Для этого выберем вкладку Дополнительно (рис. 4.7) и нажмем кнопку Канонический анализ.

Рис. 4.7. Вкладка Дополнительно окна результатов

В появившемся диалоговом окне Канонический анализ во вкладке Канонические значения нажмем кнопку Диаграмма рассеяния для канонических значений. На экране появится график, показанный на рис. 4.8.

Вы видите, что в новой системе координат ирисы разных классов хорошо разделились. Просмотрим далее на функции классификации.

Рис. 4.8. Разделение трех типов ириса

В диалоговом окне Результаты анализа дискриминантных функций во вкладке Классификация (рис. 4.9) нажмем кнопку Функции классификации (рис. 4.10).

Рис. 4.9. Вкладка Классификация окна результатов

Puc. 4.10. Функции классификации, построенные пошаговым методом вперед

С помощью этих функций можно вычислить классификационные значения (метки) для вновь наблюдаемых цветов по формулам:

SETOSA = -16,4306 • ДЛЛЕПЕСТ + 23,5879 ШИРЧАШЕЛ -

17,3984 • ШИРЛЕПЕС + 23,5442 • ДЛЧАШЕЛИ - 86,3085 VERSICOL = 5,2115 • ДЛЛЕПЕСТ + 7,0725 • ШИРЧАШЕЛ -
6,4342 ШИРЛЕПЕС + 15,6982 • ДЛЧАШЕЛИ - 72,8526 VIRGINIC = 12,767 ДЛЛЕПЕСТ + 3,685 • ШИРЧАШЕЛ -
21,079 ШИРЛЕПЕС + 12,446 ДЛЧАШЕЛИ - 104,368

Пусть вы имеете новый цветок со значениями:

ДЛЛЕПЕСТ*, ШИРЧАШЕЛ*, ШИРЛЕПЕС*, ДЛЧАШЕЛИ*

К какому типу ириса его отнести? Формально следует подставить его значения в приведенные выше формулы и вычислить классификационные значения SETOSA*, VERSICOL*, VIRGINIC*. Новый цветок относится к тому классу, для которого классификационное значение максимально.

Конечно, построенные классификационные функции могут быть определенны в электронных таблицах как формулы, и для каждого добавленного наблюдения по ним могут быть вычислены классификационные метки. Таким образом, каждый новый объект автоматически относится к определенному классу.

Расстояния Махаланобиса. Расстояние Махаланобиса похоже на стандартное евклидово расстояние, за исключением того, что учитываются корреляции между переменными. Чем больше расстояния в таблице, тем дальше соответствующие группы находятся друг от друга, и тем больше достигается мощность дискриминационной модели для соответствующих двух групп.

Нажмем кнопку Квадраты расстояний Махаланобиса и увидим таблицу с квадратами расстояния Махаланобиса от исходных наблюдений до центров групп (рис. 4.11).

Цветок относится к той группе, до которой расстояние Махаланобиса минимально.

Апостериорные вероятности. Рассмотрите группу опций диалогового окна, находящихся справа - Априорные вероятности классификации.

Рис. 4.11. Расстояния Махаланобиса для данных из файла Irisdat.sta

До проведения анализа вы задаете для каждого наблюдения вероятность, с какой он принадлежит к определенному классу. После того как анализ выполнен, можно пересчитать эти вероятности и получить апостериорные вероятности классификации. Нажав кнопку Апостериорные вероятности, вы увидите таблицу с апостериорными вероятностями (рис. 4.12) принадлежности объекта к определенному классу.

Рис. 4.12. Таблица апостериорных вероятностей

Интерпретация данной таблицы очень проста. В первом столбце указан тип ириса для каждого наблюдения. Во втором, третьем и четвертом столбцах даны апостериорные вероятности отнесения каждого цветка к определенному типу.

Цветок относится к группе с максимальной апостериорной вероятностью.

Знаком * отмечаются неправильно классифицированные при использовании данного правила классификации.

В окне Результаты анализа дискриминантных функций на вкладке Классификация справа расположено меню: Сохранить для каждого наблюдения.

Здесь вы можете выбрать для сохранения следующие статистики:

результаты классификации;
расстояния;
апостериорные вероятности.

Шаг 6. Классификация новых наблюдений. Не закрывая диалога Результаты анализа дискриминантных функций, добавим в таблицу исходных данных новое наблюдение (рис. 4.13).

Рис. 4.13. Новое наблюдение в данных Irisdat.sta

Для того чтобы понять, к какому классу относится этот цветок, нажмем кнопку

Апостериорные вероятности вкладки Классификация и увидим ту же таблицу с апостериорными вероятностями, к которой будет добавлена строка (рис. 4.14).

Рис. 4.14. Классификация нового наблюдения

Итак, новое наблюдение с вероятностью 0,999 следует отнести к типу SETOSA.

Нажмем кнопку Квадрат расстояния Махаланобиса - появится таблица с квадратами расстояния Махаланобиса. В последней строке таблицы видим расстояния нового наблюдения до групповых центров (рис. 4.15).

Опять расстояние от нового наблюдения до центра групп минимально для группы SETOSA. Следовательно, с высокой степенью вероятности новый цветок - это ирис типа SETOSA.

Рис. 4.15. Расстояние Махаланобиса от нового наблюдения до центров групп

Шаг 7. Построение классификационной функции другим методом. Всегда имеет смысл попробовать различные способы построения классификационной функции.

Закроем диалоговое окно Результаты анализа дискриминантных функций, нажав кнопку Отмена. Возвращаемся в окно Определение модели. В строке Метод выберем Стандартный и нажмем кнопку ОК.

В окне результатов с помощью кнопки Функции классификации просмотрим классифицирующие функции (рис. 4.16).

Рис. 4.16. Функции классификации, построенные стандартным методом

Вы видите, что функции классификации, построенные двумя методами, совпадают.

Использование кнопок Select Cases (Выбрать наблюдения)

Кнопки Select Cases находятся в двух окнах модуля Дискриминантный анализ: в стартовой панели и в окне результатов анализа дискриминантных функций. Используя эту кнопку в стартовой панели, можно выбрать наблюдения, по которым будут построены дискриминантные функции и функции классификации.

В окне результатов с помощью этой кнопки можно посмотреть, как, используя построенные функции, классифицируются новые наблюдения, т. е. наблюдения, которые не использовались для построения дискриминантных функций и функций классификации. Использование этих кнопок - важный момент работы в модуле.

Приведем пример использования этих кнопок. Рабочим файлом по-прежнему является файл Irisdat. sta и переменные выбраны те же, что и ранее.

Шаг 1. В стартовой панели модуля нажмем кнопку Select Cases. Окно условия выбора наблюдений появится на экране (рис. 4.17).

Рис. 4.17. Окно условия выбора наблюдений

При установлении галочки напротив пункта Использовать условия выбора вы можете задать условия. Опции Включить наблюдения и Исключить наблюдения позволяют, соответственно, включить или исключить из анализа наблюдения, заданные в окне Условием. Сделайте установки в этом окне, как показано на рисунке выше.

Условие v0 > 50 и опция Включить наблюдения означают, что при построении дискриминантных и классификационных наблюдений будут использоваться наблюдения с номерами 51, 52, …. 150. Нажмем кнопку ОК и вернемся на стартовую панель.

Шаг 2. Выполним Шаг 4 примера из предыдущего раздела. В данный момент мы запустили анализ и оказались в окне результатов. На вкладке Классификация нажмем кнопку Select Cases и откроем окно условия выбора наблюдений.

Снимим выбор опции Использовать условия выбора. Нажмем ОК и вернемся в окно результатов.

Шаг 3. Нажмем кнопку Классификация наблюдений и увидим на экране таблицу, в которой все наблюдения классифицированы. Если бы условие выбора наблюдений не было выключено, то классифицированы были бы только наблюдения с номерами 51, 52, …, 150, как показано на рис. 4.18.

Рис. 4.18. Классификация для наблюдений, начиная с 51-го номера

Методическое замечание

При сравнении функций классификации этих двух примеров, четко прослеживается их различие. Сравните рис. 4.16 и рис. 4.19.

Рис. 4.19. Функции классификации, построенные по наблюдениям 51, …, 150

Это отличие объясняется тем, что в этих примерах использовано разное количество данных.

Обобщенный дискриминантный анализ

В STATISTICA реализован, также, обобщенный дискриминантный анализ. Отличие состоит в том, что вместе с непрерывными предикторами можно использовать категориальные переменные.

Предположим, что вместе с параметрами (длиной и шириной лепестков и чашелистиков) можно учитывать цвет.

Введем в файл Irisdat. sta дополнительную переменную: COLOUR - цвет лепестков. Она принимает 2 значения: 1 - BLUE (синий), 2 - YELLOW (желтый).

Сохраним этот файл под именем IrisdatColour.sta. После добавления новой переменной таблица принимает такой вид, как на рис. 4.20.

Проанализируем данные файла с помощью модуля Общие модели дискриминантного анализа.

Мы не можем воспользоваться классическим дискриминантным анализом Фишера, так как переменные принимают не только непрерывные, но и категориальные значения.

Рис. 4.20. Файл данных IrisdatColour.sta

Такие данные часто возникают в медицине, маркетинге, экономике. Например, мы классифицируем пациентов не только по данным лабораторных анализов, но и по признаку: есть сопутствующее заболевание или нет.

Шаг 1. На панели инструментов выберем модуль Общие модели дискриминантного анализа, как показано на рис. 4.21. Откроется стартовая панель модуля, в которой выберем Общий дискриминантный анализ.

Puc. 4.21. Выбор модуля Общие модели дискриминантного анализа

Нажмем кнопку ОК или щелкнем два раза по выбранному полю (рис. 4.22).

Рис. 4.22. Стартовая панель модуля Общие модели дискриминантного анализа

Шаг 2. В открывшемся диалоговом окне присутствуют две вкладки. На вкладке Быстрый (рис. 4.23) нажмем кнопку Переменные.

Рис. 4.23. Вкладка Быстрый Общего дискриминантного анализа

В этом окне можно выбрать зависимую переменную, а также категориальные и непрерывные предикторы.

Выберем переменные, которые показаны на рис. 4.24, и нажмем кнопку ОК.

В стартовом окне модуля нажмем кнопку OK, STATISTICA автоматически проведет вычисления.

Рис. 4.24. Выбор переменных для анализа

В окне Общий дискриминантный анализ имеется вкладка Дополнительно (рис. 4.25). Здесь можно выбрать опции построения модели, процедуру кросс-проверки, задать априорные вероятности. Априорные вероятности используются для классификации наблюдений на основе предыдущих исследований. Если вы знаете, например, что SETOSA встречается чаще VERISCOL, то естественно приписать ей большую вероятность.

Рис. 4.25. Вкладка Дополнительно окна Общий дискриминантны анализ

Опишем подробно опции окна.

Все эффекты. Опция включает все выбранные эффекты в текущий план уравнения регрессии.

Пошаговый с включением. STATISTICA на последовательных шагах включает переменные в модель; на каждом шаге для включения в модель выбирается переменная с наибольшим F-значением (большим, чем определённое пользователем значение F-вклю- чить). Шаги заканчиваются, когда больше нет переменных, имеющих F значение больше значения, указанного в поле F-включить.

Пошаговый с исключением. STATISTICA сначала включает в уравнение все выбранные переменные, и затем удаляет на каждом шаге переменные одну за другой. Переменная с наименьшим F-значением удаляется из модели. Шаги заканчиваются, когда больше нет переменных, имеющих F-значение, которое меньше значения, указанного в поле F-исключить.

Только с включением. Включает элементы в модель.

Только с исключением. Исключает элементы из модели.

Лучшие подмножества. Опция предназначена для поиска наилучшего подмножества предикторов.

Кнопка Кросс-проверка вызывает диалог задания категориальной переменной и ее значения, определяющий наблюдения для подгонки модели (выборка для анализа); все остальные наблюдения будут автоматически отнесены в группу проверочной выборки.

Параметр Количество эффектов позволяет задавать постоянные для каждой рассматриваемой модели эффекты (данные эффекты будут частью каждой рассматриваемой модели).

Параметр Дельта выметания и Дельта обращения носят технический характер, используются в вычислительных алгоритмах.

Шаг 3. Просмотрим итоги в диалоговом окне GDA Результаты - результаты общего дискриминантного анализа (рис. 4.26).

Рис. 4.26. Окно результатов Общего дискриминантного анализа

Нажмем кнопку Средние в классах для предикторов, чтобы отобразить таблицу результатов со средними для предикторов для каждого класса зависимой переменной. STATISTICA обработает данные и выдаст результат (рис. 4.27).

Рис. 4.27. Таблица средних в классах для предикторов

Если мы хотим отобразить Таблицу результатов со стандартными отклонениями для предикторов для каждого класса зависимой переменной, то выберем кнопку Стандартные отклонения в классах для предикторов.

Если эффекты категориального предиктора включены в план, то средние будут связаны с кодированными векторами плана, на основе сигма-ограниченной процедуры кодирования эффектов (рис. 4.28).

Рис. 4.28. Стандартные отклонения в классах для предикторов

Нажмем кнопку Хи-квадрат критерий для удаленных корней, чтобы отобразить таблицу с пошаговым критерием для канонических корней (и дискриминантных функций).

Первая строка в этой таблице содержит результаты проведения критерия значимости для любых комбинаций корней. Во второй строке приведены значимости корней, оставшихся после удаления первого корня. Эта таблица позволяет определить необходимое количество канонических корней (рис. 4.29).

Рис. 4.29. Критерии хи-квадрат с последовательно удаленными корнями

Также можно построить самые разнообразные графики и диаграммы результатов. Дискриминантный анализ - эффективный метод исследования данных. Попробуйте применить его для классификации собственных данных.