Создание файла данных и первичный анализ в Statistica

Пример 1: результаты олимпийских чемпионов

На простых примерах покажем, как создаются файлы данных STATISTICA. Повторив наши действия, вы легко можете создать собственный файл данных Представим, что у нас есть записи результатов олимпийских чемпионов в беге на 100 м с 1896 г. по 2012 г. Мы введем эти данные в STATISTICA и проанализируем их.

Создаем новую папку, в которую будут сохраняться все создаваемые файлы и назо- вим ее, например. Новые файлы. Итак, мы находимся в основном рабочем окне системы STATISTICA. Подводим курсор мыши к пункту Файл строки меню и щелкаем левой кнопкой мыши.

Шаг 1. В выпадающем меню Файл выберем команду Создать. Эта команда доступна также по комбинации клавиш CTRL+N. На экране появится окно Создать Новый Документ. Система предложит выбрать один из вариантов документа STATISTICA. выберем вкладку Таблица и нажмем кнопку ОК

STATISTICA автоматически откроет пустую электронную таблицу, которая и появится на экране. Сохраним создаваемый файл в папке Новые файлы под именем olimpic.sta. Для этого необходимо выбрать команду Сохранить или нажать сочетание клавиш CTRL+S.

Обратите внимание, что в качестве типа файла выбран формат STATISTICA - файл Таблицы данных.

Мы работаем с системой STATISTICA версии 10. Если вы хотите работать с более ранними версиями системы, то выберем Файл STATISTICA 6.0.

Если вы уверены, что не будете использовать создаваемые файлы в старых версиях системы, то выберем предложенный по умолчанию тип STATISTICA - файл Таблицы данных. Нажмем кнопку Сохранить, созданная таблица появится на экране. Пока эта таблица пуста.

В таблице имеется 10 переменных - столбцов и 10 наблюдений - строк. В заголовке окна электронной таблицы автоматически отображается имя файла и его размер (olimpic.sta 10v* 1 Ос).

Вы можете пользоваться этой таблицей как страницей в записной книжке и внести в нее необходимые данные.

Шаг 2. Настройка таблицы. Проведем настройку таблицы. Создадим столько переменных и наблюдений, сколько необходимо.

Для наших данных требуется только четыре переменные: год проведения Олимпиады; имя чемпиона; страна, которую он представлял; время, показанное на дистанции.

Поэтому часть переменных из таблицы удалим.

Нажмем кнопку Переменные на панели инструментов и выберем команду Удалить.

В диалоговом окне Удалить переменные укажем диапазон удаляемых переменных, как показано на рис.. Нажмем кнопку ОК. Переменные с номерами 5, 6, …. 10 будут удалены.

Число наблюдений сделаем равным 27. В созданной таблице принято по умолчанию число наблюдений, равное 10. Следовательно, семнадцать наблюдений нужно добавить в таблицу. Чтобы сделать это, воспользуйтесь кнопкой Наблюдения и командой Добавить.

Зададим диапазон новых наблюдений в диалоговом окне Добавить наблюдения, как показано на рис. Нажмем кнопку ОК. Теперь наша таблица имеет нужное число строк и столбцов.

Рис. 1.10. Окно добавления наблюдений

Заметим, что добавить переменные или наблюдения можно также более быстрым способом. Щелкнем два раза в строке с именами переменных в свободной ячейке. Откроется окно Добавить наблюдения и/или переменные (рис. 1.11), где можно ввести нужное количество добавляемых переменных или наблюдений. Также можно щелкнуть мышью в столбце наблюдений и ввести новые значения.

Шаг 3. Подготовка таблицы к вводу данных, заголовок таблицы. Введем заголовок файла. Дважды щелкаем мышью в верхней строке файла. В этой строке можно ввести заголовок таблицы и дополнительную информацию о данных. Введем заголовок таблицы, используя клавиатуру, наберите строку: Олимпийские чемпионы в беге на 100 м.

Шаг 4. Задание имен переменных Таблица почти готова к работе, однако, придадим ей чуть более удобный вид - введем имена переменных. Дважды щелкнем на имени переменной Пер1 в электронной таблице. На экране появится окно

В этом окне вы можете задать имя переменной, тип переменной, формат отображения и некоторые другие свойства, например, текстовые метки. Рассмотрим окно более подробно. В верхней части доступны несколько средств форматирования, которые можно применять к имени переменной.

В поле Имя вводится имя переменной, которое будет отображаться в верхней части столбца в Таблице данных, в нашем случае это имя Год (год проведения Олимпиады, когда был показан соответствующий результат).

В поле Тип указывается тип данных выбранной переменной, например, число, дата, время и др.

В поле Код ПД отображается код пропущенных данных, который будет использоваться в качестве значения, если ячейки пусты. Код пропущенных данных для текстовых значений всегда является пустой строкой.

В поле Ширина вводится максимальное число символов для выбранной переменной (это поле доступно только, если вы выбрали тип данных Текстовый).

А По умолчанию переменные отображаются в формате целого числа, т. е. отсутствуют десятичные разряды после запятой. Для данных об олимпийских чемпионах разряды после запятой не нужны. Но если, например, необходимо отображать количество разрядов, равное 3, то эта установка производится в группе опций Формат отображения, путем задания параметра Дес. разряды равным трем.

В поле Длинное имя (метка или формула с функциями) можно ввести длинное имя или формулу в качестве параметра переменной.

Чтобы определить формулу в поле Длинное имя, Введем перед выражением знак равенства, далее запишем формулу, используя для переменных обозначения vl, v2…

Наблюдения обозначаются символом vO. С помощью формул можно вычислить значения одних переменных, используя значения других переменных, например, определить новую переменную, как сумму vl и v2.

Можно использовать разнообразные функции, например, sin, cos и т. д.

Кнопка Функциями вызывает диалог Диспетчер функций, который можно использовать для ввода необходимых функций в формулу.

Опция Просмотр функций обеспечивает использование справки при вводе формулы в поле Длинное имя. Если вы ввели в поле Длинное имя знак равенства (который обозначает формулу), то при вводе следующих букв будет отображаться соответствующий список доступных функций STATISTICA. Вы можете выбрать любую функцию из этого списка, вставив ее в поле Длинное имя.

Кнопки со стрелками используются для перехода между переменными в активной таблице данных. Вы можете переключаться между переменными, не закрывая диалог.

Кнопка Все спецификации вызывает диалог Редактор спецификаций переменных. Этот диалог можно использовать для изменения свойств переменных в активной таблице данных.

Кнопка Текстовые метки вызывает диалог Редактор текстовых меток. Этот диалог используется для создания или изменения Текстовых меток, соответствующих выбранным переменным.

Все значения в системе STATISTICA могут иметь два представления: текстовое и числовое. Например, при вводе текстовых значений вы можете использовать кодировку: мужчины - 1, женщины - 2; ввести численные значения, а затем перейти к текстовому отображению.

Кнопка Значения/статистики вызывает диалог Значения/статистикн, в котором отображается дополнительная информация о выбранной переменной, включая список всех значений и описательных статистик.

Введем имя переменной 1, присвоим имя Год. Переменной Пер2 присвоим имя Чемпион, переменной ПерЗ присвоим имя Страна. Переменной Пер4 - имя Время.

Далее определим имена наблюдений. Для этого в верхнем меню Данные выберем Диспетчер имен наблюдений (рис. 1.13). Теперь таблица готова к тому, чтобы ввести в нее данные.

В каждой предметной области имеется своя специфика данных, но обычно строки - это объекты исследования, столбцы - признаки. Шаг 5. Ввод данных в электронную таблицу. Так как данных немного, то введем их непосредственно с клавиатуры.

Полностью заполненная таблица результатов олимпийский чемпионов в беге на 100 м появится на экране.

Из таблицы вы видите, что первый олимпийский чемпион на Олимпиаде 1896 г. имел на стометровке результат 12 с, чемпион Олимпиады 2012 г., Усейн Болт, показал 9,63 с.

Шаг 6. Сохранение файла данных.

Для сохранения файла щелкаем мышью на кнопку Сохранить или нажимаем сочетание клавиш CTRL+S.

Созданный файл сохранится и всегда будет доступен для анализа.

Шаг 7. Визуальное представление. Прежде всего, визуализируем данные. Нажмем правой кнопкой мыши на любое наблюдение переменной Время. Из выпадающего меню выберем линейный график.

57И77577С4 построит линейный график, у которого по оси абсцисс отложены год проведения Олимпиады, по оси ординат - время, показанное чемпионом в соответствующем году

з графика вы видите, что у олимпийских чемпионов имеется устойчивая тенденция улучшать результаты: наихудшее время показано в 1896 г., наилучшее - в 2012 г.

Но эта тенденция не абсолютна, в ней имеются колебания - за улучшением результатов может последовать ухудшение.

Пример 2. Импорт газа и топлива в США

Если данных немного, можно легко ввести данные с помощью клавиатуры. Рассмотрим более сложный пример, когда данные копируются из Интернета.

Для этого примера возьмем данные EIA (U.S.Energy Information Administration) из Интернета, со страниц http://www.eia.gov/dnav/ng/hist/n9100us2M.htm и http://www.eia.gov /dnav/pet/hist/LeafHandler.ashx?n= PET&s=MREIMUSl&f=M.

На сайте EIA (U.S.Energy Information Administration) приведены данные по импорту газа и жидкого топлива в США в период с 1973 г. по 2012 г., измеряемые в миллионах кубических футов. Перенесем данные из Интернета в STATISTICA.

Воспользуемся командой Создать из меню Файл, чтобы создать новую таблицу данных.

Шаг 1. Создание электронной таблицы. В диалоговом окне Сохранить как в строке Имя файла, запишем имя gaz.sta.

Шаг 2. Настройка размеров таблицы. Сделаем так, чтобы в таблице было 13 переменных (переменная Год и 12 календарных месяцев) и 40 наблюдений.

Шаг 3. Заполнение таблицы. Выделим все данные по импорту газа, представленные на сайте, начиная с 1973 г. и заканчивая последним наблюдением (на момент составления книги это значение равнялось 266,186).

Скопируем выбранный блок значений в буфер обмена с помощью комбинации клавиш CTRL+C (или щелкнуть правой кнопкой мыши по выделенному блоку и выбрать опцию Копировать). После этого вернемся в STATISTICA и снова выберем таблицу gaz.sta. Нажмем комбинацию клавиш CTRL+A или выделим все ячейки вручную, а затем CTRL+V для вставки текста (или щелкнуть правой кнопкой мыши по выделенному блоку и выбрать опцию Вставить). Вы увидите, что данные расположились точно в том порядке, в каком они были представлены на сайте. Задайте имена наблюдений аналогично предыдущему примеру.

Шаг 4. Сохраним полученный файл данных (рис. 1.17) с именем gaz.sta.

Шаг 5. Построение графика. Мы уже строили линейные графики по столбцам. Однако есть другой вид линейного графика - по строкам блока.

Для этого прокрутите таблицу данных в конец и выделите, например, данные импорта газа по всем месяцам за 2011 г., щелкнем в выделенной области правой кнопкой мыши и выберем Линейный график: Строки блока.

В результате будет построен линейный график по выделенному блоку данных. Полученный график отображает изменение импорта газа в различных месяцах за 2011 г.

Из графика легко определить, что в январе был самый высокий импорт - 370,955 миллионов кубических футов, на ноябрь приходится самый низкий показатель - 247,470.

Шаг 6. Импорт данных из Excel. Полученная таблица не удобна для проведения анализа данных.

Создадим новый файл fiiel_gaz.sta, содержащий 4 столбца: Год. Месяц, Газ Импорт, Жидкое топливо Импорт и 471 наблюдения. На страницах сайта http://www.eia.gov /dnav /ng/hist/n9100us2M.htm и htlp://www.eia.gov/dnav/pet/hist/LeafHandler.ashx?n=PET&s= MREIMUSl&f=M можно посмотреть данные по импорту газа и жидкого топлива в формате Excel таблиц.

Импорт данных из Excel в STATISTICA • Нажмем кнопку Download Data (XLS File) и сохраним таблицы на компьютере. • Теперь откроем сохраненные файлы с помощью программы STATISTICA

При открытии данных Excel STATISTICA предложит варианты импорта. Нажмем на кнопку Импортировать выбранный лист в Таблицу данных. Система откроет только один лист из выбранного файла. Если вы хотите работать с несколькими листами файла, то можно выбрать импорт в Рабочую книгу.

Далее необходимо выбрать лист, который вы хотите импортировать. Данные хранятся на листе Data 7. поэтому выбираем его и нажимаем кнопку ОК.

В загружаемом файле нас интересует второй столбец, поэтому в окне диапазонов выставляем Столбцы с 2 по 2.

Первые три строки не являются содержательными для анализа, в связи с этим задаем строки, начиная с четвертой.

Снимаем предложенные по умолчанию галочки и нажимаем ОК - файл данных из Excel импортируется в систему STATISTICA.

В открывшейся таблице выделите все данные с помощью кнопок CTRL+A или методом протягивания. Скопируйте данные в буфер обмена комбинацией клавиш CTRL+C. выделите столбец Газ Импорт файла fuel_gaz.sta и нажмем CTRL+V. Таким образом, мы заполнили один из столбцов новой таблицы.

Повторите описанные действия для определения значений переменной Жидкое топливо Импорт.

Отличительной особенностью является размер таблицы Excel. Нам необходимы данные, начиная с 1973 г., поэтому импортировать будем с 448 строки

Таблица почти готова, осталось ввести значения переменных Месяц и Год.

Освоим еще несколько интересных возможностей для быстрого заполнения таблиц.

Введите вручную первые два наблюдения в переменной Месяц - январь и февраль.

Выделите введенный блок данных.

Наведите мышь на правый нижний угол выделенного блока так, чтобы значок мыши превратился в +. щелкнем и протяните до конца столбца. Подобно работе в Excel, программа автоматически проставит значения остальных месяцев.

Введите в первой строке переменной Год значение 1973 и протяните это значение до 12 строки, напротив 13 ого наблюдения введите значение 1974, затем выделите столбец переменной Год с 1 по 24 наблюдение и протяните до конца документа. В результате напротив каждого значения январь переменной Месяц появится соответствующий год.

Теперь последовательно выделяйте каждый год и протягивайте на 12 строчек (12 календарных месяцев).

В результате получился новый файл данных (рис. 1.25), с которым намного проще работать в программе STATISTICA.

Рассмотрим пример работы с созданным файлом.

Шаг 7. Построение диаграммы рассеяния. Очень легко построить различные графики, например, диаграмму рассеяния для переменных Газ Импорт и Жидкое топливо Импорт.

Для этого выберем в меню Графика пункт Диаграммы рассеяния

Откроется диалоговое окно (рис. 1.27), где задаются параметры построения графика.

В первую очередь необходимо выбрать переменные для построения.

Нажмем кнопку Переменные и выберем из списка необходимые переменные. По оси X будут откладываться значения переменной Год, а по оси Y - Газ Импорт и Жидкое топливо Импорт. После того, как вы выбрали переменные, нажмем кнопку ОК.

окне настроек выберем Тип графика: Составной и нажмем кнопку ОК. В результате построится диаграмма рассеяния для двух переменных.

График помогает увидеть различные закономерности в данных, которые сложно определить, рассматривая таблицы.

Вычисление дескриптивных статистик исходных данных

Данные введены в STATISTICA, теперь мы можем вычислить простейшие описательные или дескриптивные статистики. Эти статистики служат для описания самых общих свойств наблюдаемых величин.

Идея описательных статистик проста: всего несколько дескриптивных статистик позволяют получить представление об очень большом массиве данных

Покажем, как вычисляются описательные статистики на примере таблицы «Результаты олимпийских чемпионов в беге на 100 м», созданной ранее.

Вычислить описательные статистики можно двумя способами.

Первый способ. Выделите переменную Время щелчком мыши по ее имени в таблице «Результаты олимпийских чемпионов в беге на 100 м».

Далее щелкнем правой кнопкой мыши по выделенному столбцу, из выпадающего меню выберем Блоковые статистики - По столбцам - Все.

Можно поступить другим образом.

На вкладке Анализ выберем Основные статистики и таблицы. Меню Основные статистики и таблицы (рис. 1.31) позволяет быстро рассчитать основные статистики для одной переменной или целого списка переменных (корреляционные матрицы для всех переменных в файле данных).

Все виды анализа могут быть проведены для сгруппированных переменных.

В открывшемся окне высветите верхнюю строчку Описательные статистики и нажмем ОК. На экране откроется окно Описательные статистики. Выберем переменную Время, нажав кнопку Переменные.

Выберем на вкладке Дополнительно опции, как показано на рис. 1.32, и нажмем ОК.

Электронная таблица с основными описательными статистиками для переменной Время появится на экране

Прокручивая электронную таблицу результатов, вы увидите слева направо описательные статистики переменной Время.

N набл. - истинное число наблюдений переменной Время (число наблюдений без пропусков). % годн. набл. - доля наблюдений, пригодных для проведения анализа.

Среднее - выборочное среднее.

Доверит. - 95 % - нижняя граница 95 % доверительного интервала для среднего.

Доверит. 95 % - верхняя граница 95 % доверительного интервала для среднего.

Сумма - сумма значений переменной Время.

Минимум - минимальное значение переменной Время.

Максимум - максимальное значение переменной Время.

Размах - разность между максимумом и минимумом.

Дисперсия - выборочная дисперсия.

Ст. откл. - стандартное отклонение.

Станд. ошибки - стандартная ошибка.

Теперь поясним полученные значения.

Из первого столбца таблицы результатов вы видите, что в исходном файле было 27 наблюдений, при этом все значения (100 %) являются годными для анализа (пропусков нет). Сумма значений 27 наблюдений равна 279,3900.

Среднее - сумма значений переменной, деленная на п: 279,3900/27 = 10,34778, что соответствует третьему столбцу таблицы результатов.

Нижняя граница 95 % доверительного интервала для среднего - 10,14622, а верхняя- 10,54933, это означает, что между полученными значениями с вероятностью 0,95 находится «истинное» среднее.

Действительно, значение среднего 10,34778 находится между верхней и нижней границами.

Минимальное из всех значений переменной равно 9,63 с, максимальное - 12.

Размах - это разница между максимальным и минимальным значениями, т. е. 12 - 9,63 = 2,37.

Как вы уже знаете, дисперсия характеризует изменчивость переменной и вычисляется по формуле:

S = — £ (Х , -Хп)2, где Х„ = Х 1 + - + Х ” . п - 1 “ г п Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, иными словами значения переменной постоянны.

В нашем случае дисперсия равна 0,259603.

Стандартное отклонение вычисляется как корень квадратный из дисперсии

тандартная ошибка характеризует точность оценки среднего. Большая стандартная ошибка указывает на то, что оценка среднего не точна. Если вы интересуетесь выборочным средним, то вместе с оценкой следует указывать ошибку оценки.

Асимметрия или коэффициент асимметрии, является мерой несимметричности распределения.

Для симметричного распределения этот коэффициент равен 0, если асимметрия значительно отличается от 0, распределение является несимметричным.

Эксцесс или коэффициент эксцесса - характеристика формы распределения, а именно - мера остроты его пика. Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс.

Корреляции: определения и вычисления

Введенные ранее описательные статистики характеризуют распределение одной переменной. Корреляция (от англ, correlation - взаимосвязь), точнее, коэффициент корреляции, является мерой зависимости двух непрерывных величин.

Если наблюдается тенденция возрастания одной величины при возрастании другой, то говорят о положительной коррелированное™ величин - коэффициент корреляции положительный.

Если наблюдается тенденция увеличения одной величины при уменьшении другой, то говорят об отрицательной коррелированное™ величин - коэффициент корреляции отрицательный.

Если коэффициент корреляции равен или близок к 0, то говорят о некоррелированности величин.

Крайние значения коэффициента корреляции (+1 или -1) соответствуют положительной или отрицательной линейной зависимости (одна величина линейно выражается через другую).

J Коэффициент корреляции Пирсона описывает меру зависимости количественных переменных.

Если переменные измерены в бедных шкалах, например, принимают только два значения да или нет, требуется использовать другие меры связи.

Для оценки зависимости порядковых переменных используются коэффициенты корреляции Спирмена, доступные в модуле Непараметрическая статистика.

Простейшая визуализация: диаграммы рассеяния и гистограммы

Диаграмма рассеяния

Шаг 1. Выделим столбец переменной Год, щелкнув на соответствующий заголовок таблицы. (Поставим курсор на значение и щелкнем левой кнопкой мыши.) Шаг 2. Нажмем правой кнопкой мыши внутри выделенной области и выберем из выпадающего списка fei Графики исходных данных. Графики исходных данных представляют собой предопределенные статистические графики и отображают стандартным графическим способом исходные данные.

В выпадающем меню выберем пункт Диаграмма рассеяния и далее пункт Простой. На экране появится диалоговое окно: Выберем переменные для диаграммы рассеяния.,

Шаг 3. Высветите мышью имя для переменной Y - Время и нажмем ОК. Следующий график появится на вашем экране.

Шаг 4. Программа STATISTICA обладает огромным количеством возможностей для настройки графических изображений. Воспользуемся некоторыми из них для получения более изящного графика. Щелкнем правой кнопкой мыши в любой точке графика и выберем первый пункт из списка - Параметры графика.

На вкладке График - Общие настройки поставьте галочку напротив кнопки Линия. Это опция позволит соединить полученные точки. Затем выберем вкладку Метки точек. По умолчанию в качестве меток задаются имена наблюдений, но мы хотим, чтобы на графике были подписаны фамилии некоторых чемпионов.

Для начала выберем опцию Отобразить метки точек. Введите вместо имени Наблюдение 17 фамилию Борзов, а вместо Наблюдение 27 фамилию Болт. Удалите остальные метки. Нажмем кнопку ОК.

Шаг 5. Сохранение графика. Для этого нажмем сочетание клавиш CTRL+S.

В строке Имя файла укажем имя, под которым хотели бы сохранить график. Нажмем ОК. Созданный график сохраниться и всегда будет доступен. Заметьте, график, сохраняемый в формате STA TISTICA, имеет расширение *.stg.

Гистограмма

Гистограмма является чрезвычайно популярным статистическим графиком, она позволяет удобно представить частоту попадания величин в определенные интервалы.

Особенно полезна гистограмма, когда наблюдается большое число данных. Покажем, как построить самую простую гистограмму. Мы по-прежнему будем работать с файлом olimpic.sta.

Шаг 1. Выделите какое-нибудь значение переменной Время в файле olimpic.sta.

Шаг 3. Если необходимо, сохраните график. Для этого, например, наберите на клавиатуре CTRL+S. Аналогично предыдущему примеру задается имя, под которым график будет сохранен. Нажмем ОК.

Гистограмма строится следующим образом. Диапазон изменения переменной Время разбит на равные интервалы длиной 0,2 с (левый конец интервала исключается, правый, напротив, включается).

По вертикальной оси отложено число, которое показывает, сколько значений переменной Время попало в определенные интервалы.

Шаг 2. Нажмем правой кнопкой мыши внутри выделенного значения и выберем из выпадающего списка Графики исходных данных. В выпадающем меню выберем пункт Гистограмма…Время и далее пункт Простой.