Создание файла данных и первичный анализ в Statistica

Пример 1: результаты олимпийских чемпионов

На простых примерах покажем, как создаются файлы данных STATISTICA. Повторив наши действия, вы легко можете создать собственный файл данных Представим, что у нас есть записи результатов олимпийских чемпионов в беге на 100 м с 1896 г. по 2012 г. Мы введем эти данные в STATISTICA и проанализируем их.

Создаем новую папку, в которую будут сохраняться все создаваемые файлы и назо- вим ее, например. Новые файлы. Итак, мы находимся в основном рабочем окне систе­мы STATISTICA. Подводим курсор мыши к пункту Файл строки меню и щелкаем левой кнопкой мыши.

Шаг 1. В выпадающем меню Файл выберем команду Создать. Эта команда дос­тупна также по комбинации клавиш CTRL+N. На экране появится окно Создать Новый Документ. Система предложит выбрать один из вариантов документа STATISTICA. вы­берем вкладку Таблица и нажмем кнопку ОК

STATISTICA автоматически откроет пустую электронную таблицу, которая и поя­вится на экране. Сохраним создаваемый файл в папке Новые файлы под именем olimpic.sta. Для этого необходимо выбрать команду Сохранить или нажать сочетание клавиш CTRL+S.

Обратите внимание, что в качестве типа файла выбран формат STATISTICA - файл Таблицы данных.

Мы работаем с системой STATISTICA версии 10. Если вы хотите работать с более ранними версиями системы, то выберем Файл STATISTICA 6.0.

Если вы уверены, что не будете использовать создаваемые файлы в старых версиях системы, то выберем предложенный по умолчанию тип STATISTICA - файл Таблицы данных. Нажмем кнопку Сохранить, созданная таблица появится на экране. Пока эта таблица пуста.

В таблице имеется 10 переменных - столбцов и 10 наблюдений - строк. В заголовке окна электронной таблицы автоматически отображается имя файла и его размер (olimpic.sta 10v* 1 Ос).

Вы можете пользоваться этой таблицей как страницей в записной книжке и внести в нее необходимые данные.

Шаг 2. Настройка таблицы. Проведем настройку таблицы. Создадим столько пе­ременных и наблюдений, сколько необходимо.

Для наших данных требуется только четыре переменные: год проведения Олимпиа­ды; имя чемпиона; страна, которую он представлял; время, показанное на дистанции.

Поэтому часть переменных из таблицы удалим.

Нажмем кнопку Переменные на панели инструментов и выберем команду Удалить.

В диалоговом окне Удалить переменные укажем диапазон удаляемых переменных, как показано на рис.. Нажмем кнопку ОК. Переменные с номерами 5, 6, …. 10 будут удалены.

Число наблюдений сделаем равным 27. В созданной таблице принято по умолчанию число наблюдений, равное 10. Следовательно, семнадцать наблюдений нужно добавить в таблицу. Чтобы сделать это, воспользуйтесь кнопкой Наблюдения и командой Добавить.

Зададим диапазон новых наблюдений в диалоговом окне Добавить наблюдения, как показано на рис. Нажмем кнопку ОК. Теперь наша таблица имеет нужное чис­ло строк и столбцов.

Рис. 1.10. Окно добавления наблюдений

Заметим, что добавить переменные или наблюдения можно также более быстрым способом. Щелкнем два раза в строке с именами переменных в свободной ячейке. От­кроется окно Добавить наблюдения и/или переменные (рис. 1.11), где можно ввести нужное количество добавляемых переменных или наблюдений. Также можно щелкнуть мышью в столбце наблюдений и ввести новые значения.

Заметим, что добавить переменные или наблюдения можно также более быстрым способом. Щелкнем два раза в строке с именами переменных в свободной ячейке. От­кроется окно Добавить наблюдения и/или переменные (рис. 1.11), где можно ввести нужное количество добавляемых переменных или наблюдений. Также можно щелкнуть мышью в столбце наблюдений и ввести новые значения.

Шаг 3. Подготовка таблицы к вводу данных, заголовок таблицы. Введем заголовок файла. Дважды щелкаем мышью в верхней строке файла. В этой строке можно ввести заго­ловок таблицы и дополнительную информацию о данных. Введем заголовок таблицы, используя клавиатуру, наберите строку: Олимпийские чемпионы в беге на 100 м.

Шаг 4. Задание имен переменных Таблица почти готова к работе, однако, прида­дим ей чуть более удобный вид - введем имена переменных. Дважды щелкнем на имени переменной Пер1 в электронной таблице. На экране появится окно

В этом окне вы можете задать имя переменной, тип переменной, формат отображе­ния и некоторые другие свойства, например, текстовые метки. Рассмотрим окно более подробно. В верхней части доступны несколько средств форматирования, которые мож­но применять к имени переменной.

В поле Имя вводится имя переменной, которое будет отображаться в верхней части столбца в Таблице данных, в нашем случае это имя Год (год проведения Олимпиады, когда был показан соответствующий результат).

В поле Тип указывается тип данных выбранной переменной, например, число, дата, время и др.

В поле Код ПД отображается код пропущенных данных, который будет использо­ваться в качестве значения, если ячейки пусты. Код пропущенных данных для текстовых значений всегда является пустой строкой.

В поле Ширина вводится максимальное число символов для выбранной переменной (это поле доступно только, если вы выбрали тип данных Текстовый).

А По умолчанию переменные отображаются в формате целого числа, т. е. отсутству­ют десятичные разряды после запятой. Для данных об олимпийских чемпионах раз­ряды после запятой не нужны. Но если, например, необходимо отображать количе­ство разрядов, равное 3, то эта установка производится в группе опций Формат отображения, путем задания параметра Дес. разряды равным трем.

В поле Длинное имя (метка или формула с функциями) можно ввести длинное имя или формулу в качестве параметра переменной.

Чтобы определить формулу в поле Длинное имя, Введем перед выражением знак равенства, далее запишем формулу, используя для переменных обозначения vl, v2…

Наблюдения обозначаются символом vO. С помощью формул можно вычислить значе­ния одних переменных, используя значения других переменных, например, определить новую переменную, как сумму vl и v2.

Можно использовать разнообразные функции, например, sin, cos и т. д.

Кнопка Функциями вызывает диалог Диспетчер функций, который можно ис­пользовать для ввода необходимых функций в формулу.

Опция Просмотр функций обеспечивает использование справки при вводе форму­лы в поле Длинное имя. Если вы ввели в поле Длинное имя знак равенства (который обозначает формулу), то при вводе следующих букв будет отображаться соответствую­щий список доступных функций STATISTICA. Вы можете выбрать любую функцию из этого списка, вставив ее в поле Длинное имя.

Кнопки со стрелками используются для перехода между переменными в активной таблице данных. Вы можете переключаться между переменными, не закрывая диалог.

Кнопка Все спецификации вызывает диалог Редактор спецификаций перемен­ных. Этот диалог можно использовать для изменения свойств переменных в активной таблице данных.

Кнопка Текстовые метки вызывает диалог Редактор текстовых меток. Этот диа­лог используется для создания или изменения Текстовых меток, соответствующих вы­бранным переменным.

Все значения в системе STATISTICA могут иметь два представления: текстовое и чи­словое. Например, при вводе текстовых значений вы можете использовать кодировку: мужчины - 1, женщины - 2; ввести численные значения, а затем перейти к текстовому отображению.

Кнопка Значения/статистики вызывает диалог Значения/статистикн, в котором отображается дополнительная информация о выбранной переменной, включая список всех значений и описательных статистик.

Введем имя переменной 1, присвоим имя Год. Переменной Пер2 присвоим имя Чемпион, переменной ПерЗ присвоим имя Страна. Переменной Пер4 - имя Время.

Далее определим имена наблюдений. Для этого в верхнем меню Данные выберем Диспетчер имен наблюдений (рис. 1.13). Теперь таблица готова к тому, чтобы ввести в нее данные.

В каждой предметной области имеется своя специфика данных, но обычно строки - это объекты исследования, столбцы - признаки. Шаг 5. Ввод данных в электронную таблицу. Так как данных немного, то вве­дем их непосредственно с клавиатуры.

Полностью заполненная таблица результа­тов олимпийский чемпионов в беге на 100 м появится на экране.

Из таблицы вы видите, что первый олимпийский чемпион на Олимпиаде 1896 г. имел на стометровке результат 12 с, чемпион Олимпиады 2012 г., Усейн Болт, показал 9,63 с.

Шаг 6. Сохранение файла данных.

Для сохранения файла щелкаем мышью на кнопку Сохранить или нажимаем сочета­ние клавиш CTRL+S.

Созданный файл сохранится и всегда будет доступен для анализа.

Шаг 7. Визуальное представление. Прежде всего, визуализируем данные. Нажмем правой кнопкой мыши на любое наблюдение переменной Время. Из выпадающего меню выберем линейный график.

57И77577С4 построит линейный график, у которого по оси абсцисс отложены год проведения Олимпиады, по оси ординат - время, показанное чемпионом в соответст­вующем году

з графика вы видите, что у олимпийских чемпионов имеется устойчивая тенденция улучшать результаты: наихудшее время показано в 1896 г., наилучшее - в 2012 г.

Но эта тенденция не абсолютна, в ней имеются колебания - за улучшением резуль­татов может последовать ухудшение.

Пример 2. Импорт газа и топлива в США

Если данных немного, можно легко ввести данные с помощью клавиатуры. Рас­смотрим более сложный пример, когда данные копируются из Интернета.

Для этого примера возьмем данные EIA (U.S.Energy Information Administration) из Интернета, со страниц http://www.eia.gov/dnav/ng/hist/n9100us2M.htm и http://www.eia.gov /dnav/pet/hist/LeafHandler.ashx?n= PET&s=MREIMUSl&f=M.

На сайте EIA (U.S.Energy Information Administration) приведены данные по импорту газа и жидкого топлива в США в период с 1973 г. по 2012 г., измеряемые в миллионах кубических футов. Перенесем данные из Интернета в STATISTICA.

Воспользуемся командой Создать из меню Файл, чтобы создать новую таблицу данных.

Шаг 1. Создание электронной таблицы. В диалоговом окне Сохранить как в строке Имя файла, запишем имя gaz.sta.

Шаг 2. Настройка размеров таблицы. Сделаем так, чтобы в таблице было 13 пе­ременных (переменная Год и 12 календарных месяцев) и 40 наблюдений.

Шаг 3. Заполнение таблицы. Выделим все данные по импорту газа, представлен­ные на сайте, начиная с 1973 г. и заканчивая последним наблюдением (на момент со­ставления книги это значение равнялось 266,186).

Скопируем выбранный блок значений в буфер обмена с помощью комбинации кла­виш CTRL+C (или щелкнуть правой кнопкой мыши по выделенному блоку и выбрать опцию Копировать). После этого вернемся в STATISTICA и снова выберем таблицу gaz.sta. Нажмем комбинацию клавиш CTRL+A или выделим все ячейки вручную, а за­тем CTRL+V для вставки текста (или щелкнуть правой кнопкой мыши по выделенному блоку и выбрать опцию Вставить). Вы увидите, что данные расположились точно в том порядке, в каком они были представлены на сайте. Задайте имена наблюдений анало­гично предыдущему примеру.

Шаг 4. Сохраним полученный файл данных (рис. 1.17) с именем gaz.sta.

Шаг 5. Построение графика. Мы уже строили линейные графики по столбцам. Од­нако есть другой вид линейного графика - по строкам блока.

Для этого прокрутите таблицу данных в конец и выделите, например, данные им­порта газа по всем месяцам за 2011 г., щелкнем в выделенной области правой кнопкой мыши и выберем Линейный график: Строки блока.

В результате будет построен линейный график по выделенному блоку данных. Полученный график отображает изменение импорта газа в различных меся­цах за 2011 г.

Из графика легко определить, что в январе был самый высокий импорт - 370,955 миллионов кубических футов, на ноябрь приходится самый низкий показатель - 247,470.

Шаг 6. Импорт данных из Excel. Полученная таблица не удобна для проведения анализа данных.

Создадим новый файл fiiel_gaz.sta, содержащий 4 столбца: Год. Месяц, Газ Импорт, Жидкое топливо Импорт и 471 наблюдения. На страницах сайта http://www.eia.gov /dnav /ng/hist/n9100us2M.htm и htlp://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=PET&s= MREIMUSl&f=M можно посмотреть данные по импорту газа и жидкого топлива в формате Excel таблиц.

Импорт данных из Excel в STATISTICA • Нажмем кнопку Download Data (XLS File) и сохраним таблицы на компьютере. • Теперь откроем сохраненные файлы с помощью программы STATISTICA

При открытии данных Excel STATISTICA предложит варианты импорта. Нажмем на кнопку Импортировать выбранный лист в Таблицу данных. Система от­кроет только один лист из выбранного файла. Если вы хотите работать с несколькими листами файла, то можно выбрать импорт в Рабочую книгу.

Далее необходимо выбрать лист, который вы хотите импортировать. Данные хра­нятся на листе Data 7. поэтому выбираем его и нажимаем кнопку ОК.

В загружаемом файле нас интересует второй столбец, поэтому в окне диапазонов выставляем Столбцы с 2 по 2.

Первые три строки не являются содержательными для анализа, в связи с этим зада­ем строки, начиная с четвертой.

Снимаем предложенные по умолчанию галочки и нажимаем ОК - файл данных из Excel импортируется в систему STATISTICA.

В открывшейся таблице выделите все данные с помощью кнопок CTRL+A или ме­тодом протягивания. Скопируйте данные в буфер обмена комбинацией клавиш CTRL+C. выделите столбец Газ Импорт файла fuel_gaz.sta и нажмем CTRL+V. Таким образом, мы заполнили один из столбцов новой таблицы.

Повторите описанные действия для определения значений переменной Жидкое топ­ливо Импорт.

Отличительной особенностью является размер таблицы Excel. Нам необходимы данные, начиная с 1973 г., поэтому импортировать будем с 448 строки

Таблица почти готова, осталось ввести значения переменных Месяц и Год.

Освоим еще несколько интересных возможностей для быстрого заполнения таблиц.

Введите вручную первые два наблюдения в переменной Месяц - январь и февраль.

Выделите введенный блок данных.

Наведите мышь на правый нижний угол выделенного блока так, чтобы значок мыши превратился в +. щелкнем и протяните до конца столбца. Подобно работе в Excel, про­грамма автоматически проставит значения остальных месяцев.

Введите в первой строке переменной Год значение 1973 и протяните это значение до 12 строки, напротив 13 ого наблюдения введите значение 1974, затем выделите столбец переменной Год с 1 по 24 наблюдение и протяните до конца документа. В результате на­против каждого значения январь переменной Месяц появится соответствующий год.

Теперь последовательно выделяйте каждый год и протягивайте на 12 строчек (12 кален­дарных месяцев).

В результате получился новый файл данных (рис. 1.25), с которым намного проще работать в программе STATISTICA.

Рассмотрим пример работы с созданным файлом.

Шаг 7. Построение диаграммы рассеяния. Очень легко построить различные гра­фики, например, диаграмму рассеяния для переменных Газ Импорт и Жидкое топли­во Импорт.

Для этого выберем в меню Графика пункт Диаграммы рассеяния

Откроется диалоговое окно (рис. 1.27), где задаются параметры построения графика.

В первую очередь необходимо выбрать переменные для построения.

Нажмем кнопку Переменные и выберем из списка необходимые переменные. По оси X будут откладываться значения переменной Год, а по оси Y - Газ Импорт и Жид­кое топливо Импорт. После того, как вы выбрали переменные, нажмем кнопку ОК.

окне настроек выберем Тип графика: Составной и нажмем кнопку ОК. В результате построится диаграмма рассеяния для двух переменных.

График помогает увидеть различные закономерности в данных, которые сложно оп­ределить, рассматривая таблицы.

Вычисление дескриптивных статистик исходных данных

Данные введены в STATISTICA, теперь мы можем вычислить простейшие описа­тельные или дескриптивные статистики. Эти статистики служат для описания самых общих свойств наблюдаемых величин.

Идея описательных статистик проста: всего несколько дескриптивных стати­стик позволяют получить представление об очень большом массиве данных

Покажем, как вычисляются описательные статистики на примере таблицы «Резуль­таты олимпийских чемпионов в беге на 100 м», созданной ранее.

Вычислить описательные статистики можно двумя способами.

Первый способ. Выделите переменную Время щелчком мыши по ее имени в табли­це «Результаты олимпийских чемпионов в беге на 100 м».

Далее щелкнем правой кнопкой мыши по выделенному столбцу, из выпадающего меню выберем Блоковые статистики - По столбцам - Все.

Можно поступить другим образом.

На вкладке Анализ выберем Основные статистики и таблицы. Меню Основные статистики и таблицы (рис. 1.31) позволяет быстро рассчитать основные статистики для одной переменной или целого списка переменных (корреляционные матрицы для всех переменных в файле данных).

Все виды анализа могут быть проведены для сгруппированных переменных.

В открывшемся окне высветите верхнюю строчку Описательные статистики и на­жмем ОК. На экране откроется окно Описательные статистики. Выберем переменную Время, нажав кнопку Переменные.

Выберем на вкладке Дополнительно опции, как показано на рис. 1.32, и нажмем ОК.

Электронная таблица с основными описательными статистиками для переменной Время появится на экране

Прокручивая электронную таблицу результатов, вы увидите слева направо описа­тельные статистики переменной Время.

N набл. - истинное число наблюдений переменной Время (число наблюдений без пропусков). % годн. набл. - доля наблюдений, пригодных для проведения анализа.

Среднее - выборочное среднее.

Доверит. - 95 % - нижняя граница 95 % доверительного интервала для среднего.

Доверит. 95 % - верхняя граница 95 % доверительного интервала для среднего.

Сумма - сумма значений переменной Время.

Минимум - минимальное значение переменной Время.

Максимум - максимальное значение переменной Время.

Размах - разность между максимумом и минимумом.

Дисперсия - выборочная дисперсия.

Ст. откл. - стандартное отклонение.

Станд. ошибки - стандартная ошибка.

Теперь поясним полученные значения.

Из первого столбца таблицы результатов вы видите, что в исходном файле было 27 наблюдений, при этом все значения (100 %) являются годными для анализа (пропус­ков нет). Сумма значений 27 наблюдений равна 279,3900.

Среднее - сумма значений переменной, деленная на п: 279,3900/27 = 10,34778, что соответствует третьему столбцу таблицы результатов.

Нижняя граница 95 % доверительного интервала для среднего - 10,14622, а верх­няя- 10,54933, это означает, что между полученными значениями с вероятностью 0,95 находится «истинное» среднее.

Действительно, значение среднего 10,34778 находится между верхней и нижней границами.

Минимальное из всех значений переменной равно 9,63 с, максимальное - 12.

Размах - это разница между максимальным и минимальным значениями, т. е. 12 - 9,63 = 2,37.

Как вы уже знаете, дисперсия характеризует изменчивость переменной и вычисля­ется по формуле:

S = — £ (Х , -Хп)2, где Х„ = Х 1 + - + Х ” . п - 1 “ г п Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсут­ствие изменчивости, иными словами значения переменной постоянны.

В нашем случае дисперсия равна 0,259603.

Стандартное отклонение вычисляется как корень квадратный из дисперсии

тандартная ошибка характеризует точность оценки среднего. Большая стандартная ошибка указывает на то, что оценка среднего не точна. Если вы интересуетесь выбороч­ным средним, то вместе с оценкой следует указывать ошибку оценки.

Асимметрия или коэффициент асимметрии, является мерой несимметричности рас­пределения.

Для симметричного распределения этот коэффициент равен 0, если асимметрия зна­чительно отличается от 0, распределение является несимметричным.

Эксцесс или коэффициент эксцесса - характеристика формы распределения, а имен­но - мера остроты его пика. Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее ост­рый, чем пик нормального распределения, имеют отрицательный эксцесс.

Корреляции: определения и вычисления

Введенные ранее описательные статистики характеризуют распределение одной пе­ременной. Корреляция (от англ, correlation - взаимосвязь), точнее, коэффициент корре­ляции, является мерой зависимости двух непрерывных величин.

Если наблюдается тенденция возрастания одной величины при возрастании дру­гой, то говорят о положительной коррелированное™ величин - коэффициент корреля­ции положительный.

Если наблюдается тенденция увеличения одной величины при уменьшении другой, то говорят об отрицательной коррелированное™ величин - коэффициент корреляции отрицательный.

Если коэффициент корреляции равен или близок к 0, то говорят о некоррелирован­ности величин.

Крайние значения коэффициента корреляции (+1 или -1) соответствуют положи­тельной или отрицательной линейной зависимости (одна величина линейно выражается через другую).

J Коэффициент корреляции Пирсона описывает меру зависимости количест­венных переменных.

Если переменные измерены в бедных шкалах, например, принимают только два зна­чения да или нет, требуется использовать другие меры связи.

Для оценки зависимости порядковых переменных используются коэффициенты корреляции Спирмена, доступные в модуле Непараметрическая статистика.

Простейшая визуализация: диаграммы рассеяния и гистограммы

Диаграмма рассеяния

Шаг 1. Выделим столбец переменной Год, щелкнув на соответствующий заголовок таблицы. (Поставим курсор на значение и щелкнем левой кнопкой мыши.) Шаг 2. Нажмем правой кнопкой мыши внутри выделенной области и выберем из выпадающего списка fei Графики исходных данных. Графики исходных данных представляют собой предопределенные статистические графики и отображают стан­дартным графическим способом исходные данные.

В выпадающем меню выберем пункт Диаграмма рассеяния и далее пункт Про­стой. На экране появится диалоговое окно: Выберем переменные для диаграммы рас­сеяния.,

Шаг 3. Высветите мышью имя для переменной Y - Время и нажмем ОК. Следую­щий график появится на вашем экране.

Шаг 4. Программа STATISTICA обладает огромным количеством возможностей для настройки графических изображений. Воспользуемся некоторыми из них для получения более изящного графика. Щелкнем правой кнопкой мыши в любой точке графика и вы­берем первый пункт из списка - Параметры графика.

На вкладке График - Общие настройки поставьте галочку напротив кнопки Ли­ния. Это опция позволит соединить полученные точки. Затем выберем вкладку Метки точек. По умолчанию в качестве меток задаются имена наблюдений, но мы хотим, что­бы на графике были подписаны фамилии некоторых чемпионов.

Для начала выберем опцию Отобразить метки точек. Введите вместо имени На­блюдение 17 фамилию Борзов, а вместо Наблюдение 27 фамилию Болт. Удалите ос­тальные метки. Нажмем кнопку ОК.

Шаг 5. Сохранение графика. Для этого нажмем сочетание клавиш CTRL+S.

В строке Имя файла укажем имя, под которым хотели бы сохранить график. На­жмем ОК. Созданный график сохраниться и всегда будет доступен. Заметьте, график, сохраняемый в формате STA TISTICA, имеет расширение *.stg.

Гистограмма

Гистограмма является чрезвычайно популярным статистическим графиком, она по­зволяет удобно представить частоту попадания величин в определенные интервалы.

Особенно полезна гистограмма, когда наблюдается большое число данных. Пока­жем, как построить самую простую гистограмму. Мы по-прежнему будем работать с файлом olimpic.sta.

Шаг 1. Выделите какое-нибудь значение переменной Время в файле olimpic.sta.

Шаг 3. Если необходимо, сохраните график. Для этого, например, наберите на кла­виатуре CTRL+S. Аналогично предыдущему примеру задается имя, под которым гра­фик будет сохранен. Нажмем ОК.

Гистограмма строится следующим образом. Диапазон изменения переменной Время разбит на равные интервалы длиной 0,2 с (левый конец интервала исключается, правый, напротив, включается).

По вертикальной оси отложено число, которое показывает, сколько значений пере­менной Время попало в определенные интервалы.

Шаг 2. Нажмем правой кнопкой мыши внутри выделенного значения и выберем из выпадающего списка Графики исходных данных. В выпадающем меню выберем пункт Гистограмма…Время и далее пункт Простой.