Классификация данных в STATISTICA

Широкий круг разнообразных задач, возникающих на практике и связанный с клас­сификацией объектов, можно решить методами дискриминантного анализа. Этот метод интенсивно применяется в экономике, промышленности, маркетинге, геостатистике, ме­дицине и других областях, где возникает необходимость разбить наблюдаемые объекты на однородные группы

  1. Обзор метода

Термин дискриминантный происходит от латинского слова discriminate - дискри­минация, разделение. Этот вид анализа является многомерным, так как измеряется не­сколько параметров объекта, по крайней мере, больше одного, например, температура, влажность в технологическом процессе, давление, состав крови, температура больного и т. д. Типичные области применения дискриминантного анализа - медицина, управле­ние производством, маркетинг, геология и др. (статья Morrison D. G. «Discriminant Analysis» [9]).

В медицине объектом исследования является пациент, когда по результатам измере­ний различных параметров, проведения диагностических тестов врач определяет, какое лечение необходимо.

В управлении производством принимается решение по отнесению поступающего сырья или продукции к одному из нескольких классов.

В экономике важно решение по отнесению клиента к определенному классу, напри­мер, при выдаче займов.

Чрезвычайно интересно применение дискриминантного анализа в борьбе с терро­ризмом. Последствия действий против террористов могут привести к одному из двух ре­зультатов: успешное освобождение заложников и случаи, когда заложники пострадали. Здесь имеются следующие дискриминантные переменные: число террористов, степень под держки, количество оружия и т. д. Очевидно, лицам, ведущим переговоры, важно классифицировать экстремальную ситуацию, чтобы определить свои действия.

В модуле Дискриминантный анализ системы STATISTICA имеется широкий набор средств, обеспечивающих проведение дискриминантного анализа данных, визуализации и интерпретации результатов.

  1. Постановка задачи

Предположим, имеется п объектов с m характеристиками, например, группа пациен­тов с определенными показателями.

В результате измерений каждый объект характеризуется вектором хи …, хш, т>1. Задача состоит в том, чтобы по результатам измерений отнести объект к одной из не­скольких групп (классов) G,. …, Gk, k>=2. Иными словами, нужно построить решающее правило, позволяющее по результатам измерений параметров объекта указать группу, к которой он принадлежит. Число групп заранее известно, также известно, что объект заведомо принадлежит к определенной группе.

Пусть X - пространство значений вектора измерений. Решающее правило называет­ся нерандомизированным, если пространство X разбито на к непересекающихся облас­тей; при попадании измерения параметров объекта в k-ю область объект относится к k-й группе.

Решающее правило называется рандомизированным, если для каждого вектора на­блюдений х задана вероятность pi(x), с которой объект принадлежит i-й группе, p;(x)>=0, p1(x)+…+pk(x)=l, i=l, к.

Очевидно при использовании решающего правила возникают потери, вызванные тем, что объект неправильно классифицирован - отнесен к классу i, когда в действи­тельности принадлежит классу j (i Ф j).

Если можно измерить убыток r(i,j) при неправильной классификации объекта, то вводят средние потери, к которым приводит применение данного правила, и пытаются найти правило, минимизирующее средние потери.

Если значение потерь трудно оценить численно, то при построении оптимального правила используют критерий минимальной вероятности ложной классификации.

В дискриминантом анализе можно задать априорные вероятности принадлежности объекта к определенному классу. На практике эти вероятности оцениваются из массива данных. Так как массив данных накапливается, то оценки постепенно уточняются. При этом можно учесть различные факторы, влияющие на принадлежность объекта к опре­деленному классу.

В случае двух групп объектов дискриминантный анализ эквивалентен множествен­ной регрессии (зависимой переменной является номер группы).

Независимые переменные с наибольшими стандартизированными коэффициентами регрессии дают наибольший вклад в предсказание принадлежности объекта к группе.

В модуле Дискриминантный анализ реализовано два общих метода дискрими­нантного анализа: стандартный и пошаговый (с включением и исключением предикто­ров). Данные методы дискриминантного анализа аналогичны методам множественной регрессии. В случае двух групп методом наименьших квадратов строится регрессионная прямая (зависимая переменная - номер группы, все остальные переменные - независи­мые). Если групп несколько, то можно представить себе, что вначале строится дискри­минация между группами 1 и 2, затем между 2 и 3 и так далее.

В пошаговом методе модель строится последовательно по шагам. Для метода вклю­чения STATISTICA на каждом шаге оценивает вклад в функцию дискриминации не включенных в модель переменных. Переменная, дающая наибольший вклад, включается в модель, далее система переходит к следующему шагу. Если применяется так называе­мый пошаговый метод исключения, то вначале в модель включаются все переменные, за­тем производится их последовательное исключение.

Предположения и ограничения

Дискриминантный анализ «работает» при выполнении ряда предположений.

Предположение о том, что наблюдаемые величины - измеряемые характеристики объекта - имеют нормальное распределение. Это предположение следует проверять. В модуле имеются специальные опции, позволяющие быстро построить гистограммы и графики на вероятностной бумаге. Специальные тесты на нормальность имеются в мо­дуле Дисперсионный анализ (ДА) - ANOVA. Следует заметить, что умеренные откло­нения от предположения нормальности данных не являются фатальными.

Предположение об однородности дисперсий и ковариаций наблюдаемых перемен­ных в разных классах (отличие между классами имеется только в средних). Умеренные отклонения от этого предположения также допустимы.

Широкий набор статистик и опций для тестирования различных предположений дискриминантного анализа, в частности так называемый М-критерий Бокса, содержится также в модуле Дисперсионный анализ (ДА).

Методы, реализованные в модуле, являются линейными. Функции классификации и дискриминантные функции являются линейными комбинациями наблюдаемых величин.

Сделаем важное замечание о проверке предположений анализа. Дискриминантный анализ может быть проведен и тогда, когда основные предположения не выполняются (предположение о нормальности и равенстве ковариационных матриц).

Задача состоит в интерпретации результатов. В конечном счете наиболее важным критерием построенного классификатора является практика. И, если окажется, что в ре­зультате построен классификатор, «работающий» на практике, то это будет достижени­ем. В связи с этим мы рекомендуем проводить проверку предположений с разумной сте­пенью точности, сосредоточив основные усилия на построение значимой модели.

  1. Пример Фишера: классификация цветов ирисов

Знакомство с возможностями дискриминантного анализа в системе STATISTICA лучше всего начать с классического примера Фишера - классификация цветков ириса.

Представьте, у вас есть цветы ириса, и вы измеряете длину и ширину лепестков и чашелистиков этих цветков. Ваша задача состоит в том, чтобы по результатам измере­ний отнести ирис к одному из трех типов: SETOSA, VERSICOL, VIRGINIC. Данные для этого примера имеются в файле Irisdat.sta.

Шаг 1. Откроем файл данных Irisdat.sta (рис. 4.1) из папки Examples. В файле со­держатся результаты измерений 150 цветков ириса по 50 каждого типа.

Рис. 4.1. Файл данныхIrisdat.sta

Вы видите, что в строках файла показаны цветы, в столбцах - их параметры. На­пример, для цветка в первой строке SEP ALLEN - ДЛИНА ЧАШЕЛИСТИКА = 5,0; SEPALWID - ШИРИНА ЧАШЕЛИСТИКА = 3,3; PETALLEN - ДЛИНА ПЕСТИКА = 1,4; PETALWD - ШИРИНА ПЕСТИКА = 0,2.

Переменная 5 описывает тип ириса: IRISTYPE - ТИП ИРИСА. Цветок в первой строке отнесен к классу SETOSA.

Шаг 2. Запустим модуль Дискриминантный анализ (рис. 4.2) из меню Анализ - Многомерный разведочный анализ.

Рис. 4.2. Стартовая панель модуля Дискриминантный анализ

Шаг 3. Нажмем кнопку Переменные в стартовой панели и выберем переменные для анализа. В качестве Группирующей переменной выберем переменную IRISTYPE - ТИПИРИСА

В качестве Независимых переменных выберем переменные SEP ALLEN - ДЛИ­НА ЧАШЕЛИСТИКА, SEPALWD - ШИРИНА ЧАШЕЛИСТИКА, PETALLEN - ДЛИНА ПЕСТИКА, PETALWD - ШИРИНА ПЕСТИКА

По значениям независимых переменных мы хотим отнести ирис к одному из трех классов, иными словами, предсказать значение группирующей переменной. Значения, указанные в столбце, поставлены экспертом, мы хотим научиться строить классифика­цию автоматически. Нажмем кнопку ОК в стартовой панели. На экране появится окно Определение модели.

Шаг 4. Выберем вкладку Дополнительно (рис. 4.3). В данном окне можно выбрать метод анализа, задать начальные установки в этих методах, а также просмотреть описа­тельные статистики для проверки предположений относительно переменных.

Можно выбрать методы:

В опции Толерантность задается нижняя граница толерантности (переменные с то­лерантностью меньше этого значения в модель не включаются). По определению, толе­рантность есть 1 минус квадрат множественной корреляции этой переменной с другими переменными в модели (в пошаговых методах модели рассматриваются на каждом шаге и корреляция высчитывается по включенным в модель переменным).

Переменные с малой толерантностью могут привести к ошибкам при вычислении обратной матрицы. Очевидно, что если толерантность мала, то переменная несет малую дополнительную информацию и включение ее в модель нецелесообразно. Задав в опции Толерантность малое число, вы исключите из модели переменные с толерантностью меньше выбранного числа.

Рис. 4.3. Окно определения модели дискриминантного анализа

Для пошаговых методов в окне имеется специальная группа опций Параметры для пошагового анализа, где задаются:

ге) - Вывод результатов.

Символом F обозначается критерий Фишера.

Расположенная на вкладке Описательные окна, кнопка Просмотреть описатель­ные статистики открывает диалоговое окно, в котором можно всесторонне просмотреть описательные статистики для группированных данных и различные графики (гистограммы, «ящики с усами», графики на нормальной вероятностной бумаге). Это диалоговое окно используется для проверки основных предположений дискриминантно­го анализа.

Сделав необходимые установки, нажмем в диалоговом окне Определение модели кнопку ОК в правом верхнем углу. Система проведет вычисления и окно результатов появится на экране.

Шаг 5. Всесторонне рассмотрим результаты в диалоговом окне Результаты анали­за дискриминантных функций (рис. 4.4). Окно состоит из двух частей: верхней - ин­формационной, и нижней, в которой содержатся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа.

Рис. 4.4. Окно результатов анализа дискриминантных функций из файла Irisdat.sta

В информационной части содержатся сведенья о методе анализа, переменных, включенных в модель, значения стандартных статистик.

Информационная часть сообщает, что использован:

Значения статистики лямбда Уилкса лежат в интервале [0,1]. Значения, лежащие около 0, свидетельствуют о хорошей дискриминации.

Значения статистики Уилкса, лежащие около 1, свидетельствуют о плохой дискри­минации. Иными словами: если значения лямбда Уилкса близки к 0, то мощность дис­криминации (мощность = 1 - вероятность ошибки) близка к 1, если лямбда Уилкса близ­ка к 1, то мощность близка к 0.

S Если в окне Определение модели в опции Вывод результатов задать На за­ключительном шаге, то будут отображены только результаты на последнем шаге анализа. Если задать На каждом шаге, то результаты анализа будут ото­бражены на каждом шаге. При этом в окне результатов появится кнопка Далее, нажав которую, можно открыть окно результатов на следующем шаге анализа (рис. 4.5).

Рис. 4.5. Окно результатов на шаге 1

Окна результатов на каждом шаге анализа возникают при применении пошаговых процедур включения или исключения.

Рассмотрим более подробно окно результатов на последнем шаге.

На вкладке Быстрый окна результатов имеются две кнопки: Переменные в модели и Переменные вне модели. Для нас самой интересной кнопкой является кнопка Пере­менные в модели, нажмем эту кнопку. На экране появится таблица (рис. 4.6).

Рис. 4.6. Итоговая таблица анализа данных из файла Irisdat.sta

В этой таблице вы можете увидеть результаты дискриминантного анализа для каж­дой переменной.

Итак, мы видим, что классификация начинается с переменной PETALLEN. Рас­смотрим более подробно результаты для этой переменной.

Первый столбец таблицы с показателем, равным 0,035025, говорит о том, что имеет­ся сильная зависимость между переменными. Лямбда Уилкса иногда интерпретируется как многомерный аналог одномерного показателя R2, т. е. отражает отношение обоб­щенной дисперсии зависимых переменных, вычисленной на основе предикторов. Значе­ния Лямбды Уилкса изменяются от 0 и до 1, 1 характеризует отсутствие зависимости, а 0 - наличие сильной взаимосвязи между предикторами и откликом.

J Частная Лямбда Уилкса - это статистика для одиночного вклада соответ­ствующей переменной в дискриминацию между совокупностями за выче­том влияния других переменных.

Значение можно рассматривать как аналог частного коэффициента корреляции, от­личие только в том, что лямбда с величиной 0 обозначает полную дискриминацию (со­ответствует коэффициенту корреляции, равному 1). Чем меньше ее значение в этом столбце, тем больше одиночный вклад соответствующей переменной в дискриминацию.

Видно, что рассматриваемая переменная PETALLEN имеет наименьшее значение, однако, само значение достаточно большое. Это свидетельствует о том, что все пере­менные имеют значительный вклад в дискриминацию.

В пошаговом анализе дискриминантной функции переменные включают в модель, если соответствующее им значение F-статистики больше, чем значение F-включить. В таблице приводится значение параметра F-исключить равное 35,59018.

Как вы видите из четвертого столбца, р-уровень для переменной PETALLEN равен 0,000000. Это означает, что зависимость между переменными является не случайной.

Значение толерантности определяется как 1-R2 для соответствующей переменной со всеми другими переменными в модели. Оно дает представление об избыточности данной переменной. Если бы в модель входила каждая переменная по отдельности, то значение ее равнялось бы 1, а в таблице мы видим, что толерантность для переменной PETALLEN принимает значение 0,365126.

Просмотрите разделение групп на графике. Для этого выберем вкладку Дополни­тельно (рис. 4.7) и нажмем кнопку Канонический анализ.

Рис. 4.7. Вкладка Дополнительно окна результатов

В появившемся диалоговом окне Канонический анализ во вкладке Канонические значения нажмем кнопку Диаграмма рассеяния для канонических значений. На эк­ране появится график, показанный на рис. 4.8.

Вы видите, что в новой системе координат ирисы разных классов хорошо раздели­лись. Просмотрим далее на функции классификации.

Рис. 4.8. Разделение трех типов ириса

В диалоговом окне Результаты анализа дискриминантных функций во вкладке Классификация (рис. 4.9) нажмем кнопку Функции классификации (рис. 4.10).

Рис. 4.9. Вкладка Классификация окна результатов

Puc. 4.10. Функции классификации, построенные пошаговым методом вперед

С помощью этих функций можно вычислить классификационные значения (метки) для вновь наблюдаемых цветов по формулам:

SETOSA = -16,4306 • ДЛЛЕПЕСТ + 23,5879 ШИРЧАШЕЛ -

Пусть вы имеете новый цветок со значениями:

ДЛЛЕПЕСТ*, ШИРЧАШЕЛ*, ШИРЛЕПЕС*, ДЛЧАШЕЛИ*

К какому типу ириса его отнести? Формально следует подставить его значения в приведенные выше формулы и вычислить классификационные значения SETOSA*, VERSICOL*, VIRGINIC*. Новый цветок относится к тому классу, для которого классификационное значение максимально.

Конечно, построенные классификационные функции могут быть определенны в электронных таблицах как формулы, и для каждого добавленного наблюдения по ним могут быть вычислены классификационные метки. Таким образом, каждый новый объ­ект автоматически относится к определенному классу.

Расстояния Махаланобиса. Расстояние Махаланобиса похоже на стандартное евк­лидово расстояние, за исключением того, что учитываются корреляции между перемен­ными. Чем больше расстояния в таблице, тем дальше соответствующие группы находят­ся друг от друга, и тем больше достигается мощность дискриминационной модели для соответствующих двух групп.

Нажмем кнопку Квадраты расстояний Махаланобиса и увидим таблицу с квадра­тами расстояния Махаланобиса от исходных наблюдений до центров групп (рис. 4.11).

Цветок относится к той группе, до которой расстояние Махаланобиса мини­мально.

Апостериорные вероятности. Рассмотрите группу опций диалогового окна, нахо­дящихся справа - Априорные вероятности классификации.

Рис. 4.11. Расстояния Махаланобиса для данных из файла Irisdat.sta

До проведения анализа вы задаете для каждого наблюдения вероятность, с какой он принадлежит к определенному классу. После того как анализ выполнен, можно пересчи­тать эти вероятности и получить апостериорные вероятности классификации. Нажав кнопку Апостериорные вероятности, вы увидите таблицу с апостериорными вероятно­стями (рис. 4.12) принадлежности объекта к определенному классу.

Рис. 4.12. Таблица апостериорных вероятностей

Интерпретация данной таблицы очень проста. В первом столбце указан тип ириса для каждого наблюдения. Во втором, третьем и четвертом столбцах даны апостериорные вероятности отнесения каждого цветка к определенному типу.

Цветок относится к группе с максимальной апостериорной вероятностью.

Знаком * отмечаются неправильно классифицированные при использовании данного правила классификации.

В окне Результаты анализа дискриминантных функций на вкладке Классифи­кация справа расположено меню: Сохранить для каждого наблюдения.

Здесь вы можете выбрать для сохранения следующие статистики:

Шаг 6. Классификация новых наблюдений. Не закрывая диалога Результаты анализа дискриминантных функций, добавим в таблицу исходных данных новое на­блюдение (рис. 4.13).

Рис. 4.13. Новое наблюдение в данных Irisdat.sta

Для того чтобы понять, к какому классу относится этот цветок, нажмем кнопку

Апостериорные вероятности вкладки Классификация и увидим ту же таблицу с апо­стериорными вероятностями, к которой будет добавлена строка (рис. 4.14).

Рис. 4.14. Классификация нового наблюдения

Итак, новое наблюдение с вероятностью 0,999 следует отнести к типу SETOSA.

Нажмем кнопку Квадрат расстояния Махаланобиса - появится таблица с квадра­тами расстояния Махаланобиса. В последней строке таблицы видим расстояния нового наблюдения до групповых центров (рис. 4.15).

Опять расстояние от нового наблюдения до центра групп минимально для группы SETOSA. Следовательно, с высокой степенью вероятности новый цветок - это ирис типа SETOSA.

Рис. 4.15. Расстояние Махаланобиса от нового наблюдения до центров групп

Шаг 7. Построение классификационной функции другим методом. Всегда имеет смысл попробовать различные способы построения классификационной функции.

Закроем диалоговое окно Результаты анализа дискриминантных функций, нажав кнопку Отмена. Возвращаемся в окно Определение модели. В строке Метод выберем Стандартный и нажмем кнопку ОК.

В окне результатов с помощью кнопки Функции классификации просмотрим классифицирующие функции (рис. 4.16).

Рис. 4.16. Функции классификации, построенные стандартным методом

Вы видите, что функции классификации, построенные двумя методами, совпадают.

Использование кнопок Select Cases (Выбрать наблюдения)

Кнопки Select Cases находятся в двух окнах модуля Дискриминантный анализ: в стартовой панели и в окне результатов анализа дискриминантных функций. Используя эту кнопку в стартовой панели, можно выбрать наблюдения, по которым будут построе­ны дискриминантные функции и функции классификации.

В окне результатов с помощью этой кнопки можно посмотреть, как, используя по­строенные функции, классифицируются новые наблюдения, т. е. наблюдения, которые не использовались для построения дискриминантных функций и функций классифика­ции. Использование этих кнопок - важный момент работы в модуле.

Приведем пример использования этих кнопок. Рабочим файлом по-прежнему явля­ется файл Irisdat. sta и переменные выбраны те же, что и ранее.

Шаг 1. В стартовой панели модуля нажмем кнопку Select Cases. Окно условия вы­бора наблюдений появится на экране (рис. 4.17).

Рис. 4.17. Окно условия выбора наблюдений

При установлении галочки напротив пункта Использовать условия выбора вы можете задать условия. Опции Включить наблюдения и Исключить наблюдения по­зволяют, соответственно, включить или исключить из анализа наблюдения, заданные в окне Условием. Сделайте установки в этом окне, как показано на рисунке выше.

Условие v0 > 50 и опция Включить наблюдения означают, что при построении дискриминантных и классификационных наблюдений будут использоваться наблюдения с номерами 51, 52, …. 150. Нажмем кнопку ОК и вернемся на стартовую панель.

Шаг 2. Выполним Шаг 4 примера из предыдущего раздела. В данный момент мы запустили анализ и оказались в окне результатов. На вкладке Классификация нажмем кнопку Select Cases и откроем окно условия выбора наблюдений.

Снимим выбор опции Использовать условия выбора. Нажмем ОК и вернемся в окно результатов.

Шаг 3. Нажмем кнопку Классификация наблюдений и увидим на экране табли­цу, в которой все наблюдения классифицированы. Если бы условие выбора наблю­дений не было выключено, то классифицированы были бы только наблюдения с но­мерами 51, 52, …, 150, как показано на рис. 4.18.

Рис. 4.18. Классификация для наблюдений, начиная с 51-го номера

Методическое замечание

При сравнении функций классификации этих двух примеров, четко прослеживается их различие. Сравните рис. 4.16 и рис. 4.19.

Рис. 4.19. Функции классификации, построенные по наблюдениям 51, …, 150

Это отличие объясняется тем, что в этих примерах использовано разное количество данных.

  1. Обобщенный дискриминантный анализ

В STATISTICA реализован, также, обобщенный дискриминантный анализ. Отличие состоит в том, что вместе с непрерывными предикторами можно использовать категори­альные переменные.

Предположим, что вместе с параметрами (длиной и шириной лепестков и чашели­стиков) можно учитывать цвет.

Введем в файл Irisdat. sta дополнительную переменную: COLOUR - цвет лепестков. Она принимает 2 значения: 1 - BLUE (синий), 2 - YELLOW (желтый).

Сохраним этот файл под именем IrisdatColour.sta. После добавления новой пере­менной таблица принимает такой вид, как на рис. 4.20.

Проанализируем данные файла с помощью модуля Общие модели дискриминант­ного анализа.

Мы не можем воспользоваться классическим дискриминантным анализом Фишера, так как переменные принимают не только непрерывные, но и категориальные значения.

Рис. 4.20. Файл данных IrisdatColour.sta

Такие данные часто возникают в медицине, маркетинге, экономике. Например, мы классифицируем пациентов не только по данным лабораторных анализов, но и по при­знаку: есть сопутствующее заболевание или нет.

Шаг 1. На панели инструментов выберем модуль Общие модели дискриминант­ного анализа, как показано на рис. 4.21. Откроется стартовая панель модуля, в которой выберем Общий дискриминантный анализ.

Puc. 4.21. Выбор модуля Общие модели дискриминантного анализа

Нажмем кнопку ОК или щелкнем два раза по выбранному полю (рис. 4.22).

Рис. 4.22. Стартовая панель модуля Общие модели дискриминантного анализа

Шаг 2. В открывшемся диалоговом окне присутствуют две вкладки. На вкладке Быстрый (рис. 4.23) нажмем кнопку Переменные.

Рис. 4.23. Вкладка Быстрый Общего дискриминантного анализа

В этом окне можно выбрать зависимую переменную, а также категориальные и не­прерывные предикторы.

Выберем переменные, которые показаны на рис. 4.24, и нажмем кнопку ОК.

В стартовом окне модуля нажмем кнопку OK, STATISTICA автоматически проведет вычисления.

Рис. 4.24. Выбор переменных для анализа

В окне Общий дискриминантный анализ имеется вкладка Дополнительно (рис. 4.25). Здесь можно выбрать опции построения модели, процедуру кросс-проверки, задать априорные вероятности. Априорные вероятности используются для классифика­ции наблюдений на основе предыдущих исследований. Если вы знаете, например, что SETOSA встречается чаще VERISCOL, то естественно приписать ей большую вероят­ность.

Рис. 4.25. Вкладка Дополнительно окна Общий дискриминантны анализ

Опишем подробно опции окна.

Все эффекты. Опция включает все выбранные эффекты в текущий план уравнения регрессии.

Пошаговый с включением. STATISTICA на последовательных шагах включает пе­ременные в модель; на каждом шаге для включения в модель выбирается переменная с наибольшим F-значением (большим, чем определённое пользователем значение F-вклю- чить). Шаги заканчиваются, когда больше нет переменных, имеющих F значение больше значения, указанного в поле F-включить.

Пошаговый с исключением. STATISTICA сначала включает в уравнение все вы­бранные переменные, и затем удаляет на каждом шаге переменные одну за другой. Пе­ременная с наименьшим F-значением удаляется из модели. Шаги заканчиваются, когда больше нет переменных, имеющих F-значение, которое меньше значения, указанного в поле F-исключить.

Только с включением. Включает элементы в модель.

Только с исключением. Исключает элементы из модели.

Лучшие подмножества. Опция предназначена для поиска наилучшего подмножест­ва предикторов.

Кнопка Кросс-проверка вызывает диалог задания категориальной переменной и ее значения, определяющий наблюдения для подгонки модели (выборка для анализа); все остальные наблюдения будут автоматически отнесены в группу проверочной выборки.

Параметр Количество эффектов позволяет задавать постоянные для каждой рас­сматриваемой модели эффекты (данные эффекты будут частью каждой рассматриваемой модели).

Параметр Дельта выметания и Дельта обращения носят технический характер, используются в вычислительных алгоритмах.

Шаг 3. Просмотрим итоги в диалоговом окне GDA Результаты - результаты обще­го дискриминантного анализа (рис. 4.26).

Рис. 4.26. Окно результатов Общего дискриминантного анализа

Нажмем кнопку Средние в классах для предикторов, чтобы отобразить таблицу результатов со средними для предикторов для каждого класса зависимой переменной. STATISTICA обработает данные и выдаст результат (рис. 4.27).

Рис. 4.27. Таблица средних в классах для предикторов

Если мы хотим отобразить Таблицу результатов со стандартными отклонениями для предикторов для каждого класса зависимой переменной, то выберем кнопку Стан­дартные отклонения в классах для предикторов.

Если эффекты категориального предиктора включены в план, то средние будут свя­заны с кодированными векторами плана, на основе сигма-ограниченной процедуры ко­дирования эффектов (рис. 4.28).

Рис. 4.28. Стандартные отклонения в классах для предикторов

Нажмем кнопку Хи-квадрат критерий для удаленных корней, чтобы отобразить таблицу с пошаговым критерием для канонических корней (и дискриминантных функций).

Первая строка в этой таблице содержит результаты проведения критерия значимо­сти для любых комбинаций корней. Во второй строке приведены значимости корней, ос­тавшихся после удаления первого корня. Эта таблица позволяет определить необходи­мое количество канонических корней (рис. 4.29).

Рис. 4.29. Критерии хи-квадрат с последовательно удаленными корнями

Также можно построить самые разнообразные графики и диаграммы результатов. Дискриминантный анализ - эффективный метод исследования данных. Попробуйте применить его для классификации собственных данных.