Применение информационных технологий в конкретной предметной области
Статистический анализ данных
В настоящее время термин “статистика” употребляется в трех значениях:
статистика — отрасль практической деятельности, целью которой является сбор, обработка и анализ данных о разнообразных явлениях общественной жизни; полученная в результате статистического исследования информация позволяет решать задачи выявления реально существующих закономерностей, свойственных описываемым процессам и явлениям;
статистика — это данные, служащие количественной характеристикой общественных явлений или территориального распределения показателя;
статистика — это наука.
Как любая наука, статистика имеет свой предмет и метод изучения.
Предмет статистики заключается в изучении количественной стороны массовых социально-экономических явлений в связи с их качественной стороной, в исследовании количественно выраженных закономерностей общественного развития в конкретных условиях места и времени.
Свой предмет статистика изучает при помощи специфического метода. Кратко и в самом общем виде метод статистики можно описать несколькими словами: это сбор, обобщение, представление, анализ и интерпретация данных. Однако, поскольку статистика изучает множество социально-экономических явлений и характерные для них закономерности, то и метод статистики представляет собой целую совокупность приемов, пользуясь которыми статистика исследует свой предмет.
К основным приемам статистической науки относят статистическое наблюдение, метод группировки и обобщения данных с последующим представлением результатов анализа и их интерпретацией. Статистическое наблюдение заключается в сборе первичного статистического материала, в научно организованной регистрации всех существенных фактов, относящихся к рассматриваемому объекту. Метод группировки и обобщения данных дает возможность охарактеризовать соотношения и взаимосвязи между группами данных, а также совокупность данных в целом при помощи ее систематизации и деления на качественно однородные группы и рассчитать для каждой из них соответствующие обобщающие показатели в виде абсолютных, средних и относительных величин.
Задачи статистики как науки:
описание структуры экономики;
описание тенденций развития экономики в будущем;
анализ и прогнозирование различных экономических явлений;
выявление факторов развития экономики для принятия управленческих решений.
Понятия статистики
Переменные – это величины, которые в результате измерения могут принимать различные значения.
Независимые переменные – это переменные, значения которых в процессе эксперимента можно изменять, а зависимые переменные – это переменные, значения которых можно только измерять.
Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала – номинальная, так как не определена ни одна арифметическая операция, самая «богатая» – абсолютная.
Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, род войск, профессия, континент и т.д. В этой шкале можно лишь посчитать количество объектов в классах – частоту и относительную частоту.
Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции. В этой шкале дополнительно к подсчету частоты объекта можно вычислить ранг объекта. Примеры переменных, измеренных в порядковой шкале: бальные оценки учащихся, призовые места на соревнованиях, воинские звания, место страны в списке по качеству жизни и т.д. Иногда номинальные и порядковые переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы.
При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований ( \(y = a x + b\) ). Это означает, что шкала имеет произвольную точку отсчета – условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Расстояния являются полноправными числами и над ними можно выполнять любые арифметические операции.
Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида \(y = a x\). Это означает, что шкала имеет фиксированную точку отсчета – абсолютный нуль, но произвольный масштаб измерения. Примеры переменных, измеренных в шкале отношений: длина, вес, сила тока, количество денег, расходы общества на здравоохранение, образование, армию, средняя продолжительность жизни и т.д. Измерения в этой шкале – полноправные числа и над ними можно выполнять любые арифметические действия.
Статистическое наблюдение представляет собой научно обоснованную регистрацию по единой разработанной программе фактов и их признаков, характеризующих явления общественной жизни, и сбор массовых данных. статистическое наблюдение является вторым этапом любого статистического исследования. первый этап статистического исследования — планирование и организация исследования, которые включают в себя разработку программы статистического наблюдения, определение критического момента наблюдения, времени и периода наблюдения, определение цели и задач исследования, объекта наблюдения.
Программа наблюдения — это перечень вопросов, по которым собираются сведения, либо перечень признаков и показателей, подлежащих регистрации.
Критический момент наблюдения — момент или отрезок времени, по состоянию на который проводится регистрация значений признаков по каждой единице наблюдения.
Период наблюдения — период, в течение которого осуществляется сбор данных, заполнение бланков программы наблюдения.
Время наблюдения — время, в течение которого проводится обследование по разработанной программе.
Цель исследования — это постановка научной проблемы, определение свойств и тенденций общественного явления, подлежащих анализу.
Задачи исследования — совокупность действий, необходимых для достижения цели исследования. Объект наблюдения — совокупность социально-экономических явлений и процессов, которые подлежат исследованию, или точные границы, в пределах которых будут регистрироваться статистические сведения.
Совокупность (статистическая совокупность) — это множество единиц изучаемого явления, объединенных единой качественной основой, но отличающихся друг от друга отдельными признаками.
Совокупность называется однородной, если один или несколько изучаемых существенных признаков ее объектов являются общими для всех единиц. совокупность, в которую входят явления разного типа, считается разнородной.
Описательная статистика
Статистический показатель — количественно выраженное определенное свойство или качество совокупности. По структуре можно выделить три группы статистических показателей:
абсолютные величины;
относительные величины;
средние величины.
Все абсолютные величины можно отнести к одной из двух групп:
абсолютные пространственные величины;
абсолютные динамические величины.
К группе абсолютных пространственных величин относятся:
- максимальное значение признака — \(x_{max}\);
- минимальное значение признака — \(x_{min}\) ;
- размах вариации (R), рассчитываемый по формуле \(R=x_{max}−x_{min}\) ;
- мода (или модальное значение признака в совокупности);
- система порядковых статистик, включая медиану (или медианное значение признака в совокупности).
Mода (модальное значение признака в совокупности) — наиболее часто повторяющееся значение варианта или, проще, вариант с наибольшей частотой. В ранжированном дискретном ряду мода — это значение признака с наибольшей частотой. В интервальном ряду распределения модальное значение признака определяется по формуле и находится в интервале с наибольшей частотой (частостью), если интервалы в группировке равны, или в интервале с наибольшей плотностью распределения, если интервалы в группировке неравные. Для интервального ряда с равными интервалами величина моды определяется по формуле: \[ Mo=X_{Mo}+h_{Mo} \frac{f_{Mo}-f_{Mo-1}}{\left(f_{Mo}-f_{Mo-1}\right)+\left(f_{Mo}-f_{Mo+1}\right)} \]
Здесь \(X_{Mо}\)— левая граница модального интервала, \(h_{Mo}\) — длина модального интервала, \(f_{Mo-1}\) — частота премодального интервала, \(f_{Мо}\) — частота модального интервала, \(f_{Мо + 1}\) — частота послемодального интервала.
Система порядковых статистик — это система показателей, делящих совокупность на две части — либо равные (в случае с медианой), либо неравные (для всех остальных случаев).
К системе порядковых статистик относятся:
- медиана;
- квартили
- квинтили;
- децили;
- процентили.
Медиана (медианное значение признака в совокупности) — величина признака, которая делит ранжированную последовательность его значений на две равные по численности части. В итоге у одной половины единиц совокупности значение признака не превышает медианного уровня, а у другой половины оно не меньше этого уровня. В интервальном ряду распределения медиана находится последующей формуле:
\[Me=X_0+i_{Me}\frac {0,5 \sum {f}-S_{Me-1}}{f_{Me}}\]
Здесь \(X_0\) - нижняя граница медианного интервала; \(i_{Me}\) - величина медианного интервала; \(\sum{f}\) - общее число единиц в совокупности; \(S_{Me-1}\) - накопленная частота до медианного интервала; \(f_{Me}\) - частота медианного интервала.
остальные порядковые статистики делят совокупность следующим образом:
- квартили (Q1, Q2, Q3) — на 4 части по 25 %;
- квинтили (K1, K2, K3, K4) — на 5 частей по 20 %;
- децили (d1, d2, d3, …, d9) — на 10 частей по 10 %;
- процентили (P1, P2, P3, …, P99) — на 100 частей.
Все представленные величины можно рассчитать по формуле,аналогичной формуле медианы в интервальном ряду.
Моментные абсолютные динамические величины показывают фактическое наличие или уровень явления на определенный момент, дату (например, наличие запасов материалов, величину незавершенного производства и т. д.).
Интервальные абсолютные динамические величины отражают итоговый накопленный результат за период в целом (объем произведенной продукции за месяц или год, прирост населения за определенный период и т. п.). К данной группе абсолютных динамических показателей относят абсолютный прирост значения признака за определенный промежуток или момент времени. Абсолютный прирост показывает, на сколько в абсолютном выражении текущее значение показателя больше или меньше значения показателя, выбранного в качестве базы сравнения.
Средняя величина выражает величину признака, отнесенную к единице совокупности.
В статистической практике принято выделять следующие виды средних величин:
- арифметическая средняя;
- гармоническая средняя;
- геометрическая средняя;
- хронологическая средняя;
- квадратическая средняя;
- кубическая средняя.
Степенные средние в зависимости от представления исходных данных могут быть простыми и взвешенными.
Формула расчета простой степенной средней:
\[\left< X\right>=\sqrt[m]{\frac{\sum{X^m}}{n}}\]
Формула расчета взвешенной средней степенной: \[\left< X\right>=\sqrt[m]{\frac{\sum_{i=1}^n{X^m f}}{\sum{f}}}\]
В приведенных формулах \(X\) - изучаемая величина, \(n\) - число наблюдений, \(m\) - показатель степени, \(f\) - частота \(X\).
Используются следующие значения показателя степени:
при \(m=-1\) средняя гармоническая;
при \(m = 0\) средняя геометрическая;
при \(m = 1\) средняя арифметическая;
при \(m = 2\) средняя квадратическая;
при \(m = 3\) средняя кубическая.
Средняя арифметическая применяется чаще всего, но бывают случаи, когда необходимо применение других видов средних величин.
Средняя гармоническая применяется, когда исходные данные не содержат частот f по отдельным значениям X, а представлены как их произведение Xf.
Средняя геометрическая применяется при определении средних относительных изменений. Геометрическая средняя величина дает наиболее точный результат осреднения, если задача стоит в нахождении такого значения X, который был бы равноудален как от максимального, так и от минимального значения X.
Средняя квадратическая применяется в тех случая, когда исходные значения X могут быть как положительными, так и отрицательными, например при расчете средних отклонений.
Средняя кубическая применяется крайне редко, например, при расчете индексов нищеты населения для развивающихся стран (ИНН-1) и для развитых (ИНН-2), предложенных и рассчитываемых ООН.
В теории вероятностей среднее значение называют математическим ожиданием случайной величины. Мерой разброса значений случайной величины относительно математического ожидания является дисперсия, определяемая как математическое ожидание квадрата отклонения случайной величины от её математического ожидания, т.е. \(D(x)=\left<\left(x-\left< x\right>\right)^2\right>\)
Среднеквадратическое отклонение определяется как квадратный корень из дисперсии случайной величины \(S(x)=\sqrt{D(x)}\) .
Оценка стандартного отклонения на основании смещённой оценки дисперсии (иногда называемой просто выборочной дисперсией) \[S(x)=\sqrt{\frac{1}{n}\sum(x-\left< x \right>)^2}\].
Это в буквальном смысле среднее квадратическое разностей измеренных значений и среднего. Оценка стандартного отклонения на основании несмещённой оценки дисперсии (подправленной выборочной дисперсии, в ГОСТ Р 8.736-2011 — «среднее квадратическое отклонение»):
\[S_0(x)=\sqrt{\frac{n}{n-1}S(x)}\]Само по себе, однако, \(S_0\) не является несмещённой оценкой квадратного корня из дисперсии, то есть извлечение квадратного корня «портит» несмещённость.
Коэффициент детерминации ( \(R^2\) — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными.
Величина R называется эмпирическим корреляционным соотношением. Эмпирическое корреляционное отношение принимает значение от 0 до 1; чем ближе значения показателя к 1, тем связь между признаками сильнее, и наоборот. Оценить силу связи между признаком, положенным в основу группировки, и признаком-результатом можно по шкале Чеддока
| Значение R | Менее 0,1 | 0,1−0,3 | 0,3−0,5 | 0,5−0,7 | Более 0,7 |
| Теснота связи | Очень слабая | Слабая | Умеренная | Заметная | Тесная |
Показатели дифференциации позволяют оценить уровень различий в совокупности. К ним относят децильный коэффициент дифференциации и коэффициент фондовой дифференциации. Децильный коэффициент дифференциации показывает, во сколько раз минимальное значение признака у последних 10 % единиц совокупности больше, чем максимальное значение признака у первых 10 % единиц совокупности. Коэффициент фондовой дифференциации показывает, во сколько раз среднее значение признака у последних 10 % единиц совокупности больше, чем среднее значение признака у первых 10 % единиц совокупности. Показатели асимметрии характеризуют скошенность эмпирического ряда распределения относительно нормального распределения.
Эксцесс оценивает величину отклонения фактической формы вершины эмпирического распределения от формы распределенияв нормальном ряду распределения.
Перечисленные выше показатели составляют группу описательных статистик.
Корреляционный анализ
Между переменными (случайными величинами) может существовать функциональная связь, проявляющаяся в том, что одна из них определяется как функция от другой. Но между переменными может существовать и связь другого рода, проявляющаяся в том, что одна из них реагирует на изменение другой изменением своего закона распределения. Такую связь называют стохастической. Она появляется в том случае, когда имеются общие случайные факторы, влияющие на обе переменные. В качестве меры зависимости между переменными используется коэффициент корреляции (r), который изменяется в пределах от –1 до +1. Если коэффициент корреляции отрицательный, это означает, что с увеличением значений одной переменной значения другой убывают. Если переменные независимы, то коэффициент корреляции равен 0 (обратное утверждение верно только для переменных, имеющих нормальное распределение). Но если коэффициент корреляции не равен 0 (переменные называются некоррелированными), то это значит, что между переменными существует зависимость. Чем ближе значение r к 1, тем зависимость сильнее. Коэффициент корреляции достигает своих предельных значений +1 или -1, тогда и только тогда, когда зависимость между переменными линейная. Корреляционный анализ позволяет установить силу и направление стохастической взаимосвязи между переменными (случайными величинами). Если переменные измерены, как минимум, в интервальной шкале и имеют нормальное распределение, то корреляционный анализ осуществляется посредством вычисления коэффициента корреляции Пирсона, в противном случае используются корреляции Спирмена, тау Кендала, или Гамма.
Регрессионный анализ
В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом, первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная – результативным признаком, или откликом. Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 – множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом: \(y = f(x_1, x_2, …, x_n)\), где y – зависимая переменная (отклик), \(x_i (i = 1,…, n)\) – предикторы (факторы), \(n\) – число предикторов. Посредством регрессионного анализа можно решать ряд важных для исследуемой проблемы задач: 1. Уменьшение размерности пространства анализируемых переменных (факторного пространства), за счет замены части факторов одной переменной – откликом. Более полно такая задача решается факторным анализом. 2. Количественное измерение эффекта каждого фактора, т.е. множественная регрессия, позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, «что является лучшим предиктором для…». При этом, становится более ясным воздействие отдельных факторов на отклик, и исследователь лучше понимает природу изучаемого явления. 3. Вычисление прогнозных значений отклика при определенных значениях факторов, т.е. регрессионный анализ, создает базу для вычислительного эксперимента с целью получения ответов на вопросы типа «Что будет, если… ». 4. В регрессионном анализе в более явной форме выступает причинно-следственный механизм. Прогноз при этом лучше поддается содержательной интерпретации.
Канонический анализ
Канонический анализ предназначен для анализа зависимостей между двумя списками признаков (независимых переменных), характеризующих объекты. Например, можно изучить зависимость между различными неблагоприятными факторами и появлением определенной группы симптомов заболевания, или взаимосвязь между двумя группами клинико-лабораторных показателей (синдромов) больного. Канонический анализ является обобщением множественной корреляции как меры связи между одной переменной и множеством других переменных. Как известно, множественная корреляция есть максимальная корреляция между одной переменной и линейной функцией других переменных. Эта концепция была обобщена на случай связи между множествами переменных – признаков, характеризующих объекты. При этом достаточно ограничиться рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества. Пусть, например, первое множество переменных состоит из признаков \(у_1, …, у_р\), второе множество состоит из \(х_1, …, х_q\), тогда взаимосвязь между данными множествами можно оценить как корреляцию между линейными комбинациями \(a_1y_1 + a_2y_2 + ... + a_py_p, b_1x_1 + b_2x_2 + ... + b_qx_q\), которая называется канонической корреляцией. Задача канонического анализа в нахождении весовых коэффициентов таким образом, чтобы каноническая корреляция была максимальной.
Методы сравнения средних
В прикладных исследованиях часто встречаются случаи, когда средний результат некоторого признака одной серии экспериментов отличается от среднего результата другой серии. Так как средние это результаты измерений, то, как правило, они всегда различаются, вопрос в том, можно ли объяснить обнаруженное расхождение средних неизбежными случайными ошибками эксперимента или оно вызвано определенными причинами. Если идет речь о сравнении двух средних, то можно применять критерий Стьюдента (t-критерий). Это параметрический критерий, так как предполагается, что признак имеет нормальное распределение в каждой серии экспериментов. В настоящее время модным стало применение непараметрических критериев сравнения средних Сравнение средних результата один из способов выявления зависимостей между переменными признаками, характеризующими исследуемую совокупность объектов (наблюдений). Если при разбиении объектов исследования на подгруппы при помощи категориальной независимой переменной (предиктора) верна гипотеза о неравенстве средних некоторой зависимой переменной в подгруппах, то это означает, что существует стохастическая взаимосвязь между этой зависимой переменной и категориальным предиктором. Так, например, если установлено, что неверна гипотеза о равенстве средних показателей физического и интеллектуального развития детей в группах матерей, куривших и не куривших в период беременности, то это означает, что существует зависимость между курением матери ребенка в период беременности и его интеллектуальным и физическим развитием. Наиболее общий метод сравнения средних дисперсионный анализ. В терминологии дисперсионного анализа категориальный предиктор называется фактором. Дисперсионный анализ можно определить как параметрический, статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования экспериментов. Поэтому в дисперсионном анализе можно исследовать зависимость количественного признака от одного или нескольких качественных признаков факторов. Если рассматривается один фактор, то применяют однофакторный дисперсионный анализ, в противном случае используют многофакторный дисперсионный анализ.
Частотный анализ
Таблицы частот, или как еще их называют одновходовые таблицы, представляют собой простейший метод анализа категориальных переменных. Таблицы частот могут быть с успехом использованы также для исследования количественных переменных, хотя при этом могут возникнуть трудности с интерпретацией результатов. Данный вид статистического исследования часто используют как одну из процедур разведочного анализа, чтобы посмотреть, каким образом различные группы наблюдений распределены в выборке, или как распределено значение признака на интервале от минимального до максимального значения. Как правило, таблицы частот графически иллюстрируются при помощи гистограмм.
Кросстабуляция
Кросстабуляция (сопряжение) – процесс объединения двух (или нескольких) таблиц частот так, что каждая ячейка в построенной таблице представляется единственной комбинацией значений или уровней табулированных переменных. Кросстабуляция позволяет совместить частоты появления наблюдений на разных уровнях рассматриваемых факторов. Исследуя эти частоты, можно выявить связи между табулированными переменными и исследовать структуру этой связи. Обычно табулируются категориальные или количественные переменные с относительно небольшим числом значений. Если надо табулировать непрерывную переменную (предположим, уровень сахара в крови), то вначале ее следует перекодировать, разбив диапазон изменения на небольшое число интервалов (например, уровень: низкий, средний, высокий).
Анализ соответствий
Анализ соответствий по сравнению с частотным анализом содержит более мощные описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Метод, так же, как и таблицы сопряженности, позволяет исследовать структуру и взаимосвязь группирующих переменных, включенных в таблицу. В классическом анализе соответствий частоты в таблице сопряженности стандартизуются (нормируются) таким образом, чтобы сумма элементов во всех ячейках была равна 1. Одна из целей анализа соответствий – представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве более низкой размерности.
Кластерный анализ
Кластерный анализ – это метод классификационного анализа; его основное назначение – разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Это многомерный статистический метод, поэтому предполагается, что исходные данные могут быть значительного объема, т.е. существенно большим может быть как количество объектов исследования (наблюдений), так и признаков, характеризующих эти объекты. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному признаку, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Так как кластеры – это группы однородности, то задача кластерного анализа заключается в том, чтобы на основании признаков объектов разбить их множество на m (m – целое) кластеров так, чтобы каждый объект принадлежал только одной группе разбиения. При этом объекты, принадлежащие одному кластеру, должны быть однородными (сходными), а объекты, принадлежащие разным кластерам, – разнородными. Если объекты кластеризации представить как точки в n-мерном пространстве признаков (n – количество признаков, характеризующих объекты), то сходство между объектами определяется через понятие расстояния между точками, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи.
Дискриминантный анализ
Дискриминантный анализ включает статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками. Этот вид анализа является многомерным, так как использует несколько признаков объекта, число которых может быть сколь угодно большим. Цель дискриминантного анализ состоит в том, чтобы на основе измерения различных характеристик (признаков) объекта классифицировать его, т. е. отнести к одной из нескольких заданных групп (классов) некоторым оптимальным способом. При этом предполагается, что исходные данные наряду с признаками объектов содержат категориальную (группирующую) переменную, которая определяет принадлежность объекта к той или иной группе. Поэтому в дискриминантном анализе предусмотрена проверка непротиворечивости классификации, проведенной методом, с исходной эмпирической классификацией. Под оптимальным способом понимается либо минимум математического ожидания потерь, либо минимум вероятности ложной классификации. В общем случае задача различения (дискриминации) формулируется следующим образом. Пусть результатом наблюдения над объектом является построение k-мерного случайного вектора \(Х = (X_1, X_2, …, X_К)\), где \(X_1, X_2, …, X_К\) – признаки объекта. Требуется установить правило, согласно которому по значениям координат вектора Х объект относят к одной из возможных совокупностей i, \(i = 1, 2, …, n\). Методы дискриминации можно условно разделить на параметрические и непараметрические. В параметрических известно, что распределение векторов признаков в каждой совокупности нормально, но нет информации о параметрах этих распределений. Непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решать задачи дискриминации на основе незначительной априорной информации о совокупностях, что особенно ценно для практических применений. Если выполняются условия применимости дискриминантного анализа – независимые переменные–признаки (их еще называют предикторами) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться классическим дискриминантным анализом, в противном случае – методом общие модели дискриминантного анализа.
Факторный анализ
Факторный анализ – один из наиболее популярных многомерных статистических методов. Если кластерный и дискриминантный методы классифицируют наблюдения, разделяя их на группы однородности, то факторный анализ классифицирует признаки (переменные), описывающие наблюдения. Поэтому главная цель факторного анализа – сокращение числа переменных на основе классификация переменных и определения структуры взаимосвязей между ними. Сокращение достигается путем выделения скрытых (латентных) общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных появится возможность анализировать данные по выделенным факторам, число которых значительно меньше исходного числа взаимосвязанных переменных.
Деревья классификации
Деревья классификации – это метод классификационного анализа, позволяющий предсказывать принадлежность объектов к тому или иному классу в зависимости от соответствующих значений признаков, характеризующих объекты. Признаки называются независимыми переменными, а переменная, указывающая на принадлежность объектов к классам, называется зависимой. В отличие от классического дискриминантного анализа, деревья классификации способны выполнять одномерное ветвление по переменными различных типов категориальным, порядковым, интервальным. Не накладываются какие-либо ограничения на закон распределения количественных переменных. По аналогии с дискриминантным анализом метод дает возможность анализировать вклады отдельных переменных в процедуру классификации. Деревья классификации могут быть, а иногда и бывают, очень сложными. Однако использование специальных графических процедур позволяет упростить интерпретацию результатов даже для очень сложных деревьев. Возможность графического представления результатов и простота интерпретации во многом объясняют большую популярность деревьев классификации в прикладных областях, однако, наиболее важные отличительные свойства деревьев классификации – их иерархичность и широкая применимость. Структура метода такова, что пользователь имеет возможность по управляемым параметрам строить деревья произвольной сложности, добиваясь минимальных ошибок классификации. Но по сложному дереву, из-за большой совокупности решающих правил, затруднительно классифицировать новый объект. Поэтому при построении дерева классификации пользователь должен найти разумный компромисс между сложностью дерева и трудоемкостью процедуры классификации. Широкая сфера применимости деревьев классификации делает их весьма привлекательным инструментом анализа данных, но не следует полагать, что его рекомендуется использовать вместо традиционных методов классификационного анализа. Напротив, если выполнены более строгие теоретические предположения, налагаемые традиционными методами, и выборочное распределение обладает некоторыми специальными свойствами (например, соответствие распределения переменных нормальному закону), то более результативным будет использование именно традиционных методов. Однако как метод разведочного анализа или как последнее средство, когда отказывают все традиционные методы, Деревья классификации, по мнению многих исследователей, не знают себе равных.
Анализ главных компонент и классификация
На практике часто возникает задача анализа данных большой размерности. Метод анализ главных компонент и классификация позволяет решить эту задачу и служит для достижения двух целей: – уменьшение общего числа переменных (редукция данных) для того, чтобы получить «главные» и «некоррелирующие» переменные; – классификация переменных и наблюдений, при помощи строящегося факторного пространства. Метод имеет сходство с факторным анализом в постановочной части решаемых задач, но имеет ряд существенных отличий: – при анализе главных компонент не используются итеративные методы для извлечения факторов; – наряду с активными переменными и наблюдениями, используемыми для извлечения главных компонент, можно задать вспомогательные переменные и/или наблюдения; затем вспомогательные переменные и наблюдения проектируются на факторное пространство, вычисленное на основе активных переменных и наблюдений; – перечисленные возможности позволяют использовать метод как мощное средство для классификации одновременно переменных и наблюдений. Решение основной задачи метода достигается созданием векторного пространства латентных (скрытых) переменных (факторов) с размерностью меньше исходной. Исходная размерность определяется числом переменных для анализа в исходных данных.
Многомерное шкалирование
Метод можно рассматривать как альтернативу факторному анализу, в котором достигается сокращение числа переменных, путем выделения латентных (непосредственно не наблюдаемых) факторов, объясняющих связи между наблюдаемыми переменными. Цель многомерного шкалирования – поиск и интерпретация латентных переменных, дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Показателями сходства объектов на практике могут быть расстояния или степени связи между ними. В факторном анализе сходства между переменными выражаются с помощью матрицы коэффициентов корреляций. В многомерном шкалировании в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов: расстояния, корреляции и т.д. Несмотря на то, что имеется много сходства в характере исследуемых вопросов, методы многомерное шкалирование и факторный анализ имеют ряд существенных отличий. Так, факторный анализ требует, чтобы исследуемые данные подчинялись многомерному нормальному распределению, а зависимости были линейными. Многомерное шкалирование не накладывает таких ограничений, оно может быть применимо, если задана матрица попарных сходств объектов. В терминах различий получаемых результатов факторный анализ стремится извлечь больше факторов – латентных переменных по сравнению с многомерным шкалированием. Поэтому многомерное шкалирование часто приводит к проще интерпретируемым решениям. Однако более существенно то, что метод многомерное шкалирование можно применять к любым типам расстояний или сходств, в то время как факторный анализ требует, чтобы в качестве исходных данных была использована корреляционная матрица переменных или по файлу исходных данных сначала была вычислена матрица корреляций. Основное предположение многомерного шкалирования заключается в том, что существует некоторое метрическое пространство существенных базовых характеристик, которые неявно и послужили основой для полученных эмпирических данных о близости между парами объектов. Следовательно, объекты можно представить как точки в этом пространстве. Предполагают также, что более близким (по исходной матрице) объектам соответствуют меньшие расстояния в пространстве базовых характеристик. Поэтому, многомерное шкалирование – это совокупность методов анализа эмпирических данных о близости объектов, с помощью которых определяется размерность пространства существенных для данной содержательной задачи характеристик измеряемых объектов и конструируется конфигурация точек (объектов) в этом пространстве. Это пространство («многомерная шкала») аналогично обычно используемым шкалам в том смысле, что значениям существенных характеристик измеряемых объектов соответствуют определенные позиции на осях пространства. Логику многомерного шкалирования можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между некоторыми городами. Анализируя матрицу, надо расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты. В общем случае многомерное шкалирование позволяет таким образом расположить объекты (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно измерить эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.
Моделирование структурными уравнениями (причинное моделирование)
Наметившийся в последнее время прогресс в области многомерного статистического анализа и анализа корреляционных структур, объединенный с новейшими вычислительными алгоритмами, послужил отправной точкой для создания новой, но уже получившей признание техники моделирования структурными уравнениями (SEPATH). Эта необычайно мощная техника многомерного анализа включает методы из различных областей статистики, множественная регрессия и факторный анализ получили здесь естественное развитие и объединение. Объектом моделирования структурными уравнениями являются сложные системы, внутренняя структура которых не известна («черный ящик»). Наблюдая параметры системы при помощи SEPATH, можно исследовать ее структуру, установить причинно-следственные взаимосвязи между элементами системы. Постановка задачи структурного моделирования выглядит следующим образом. Пусть имеются переменные, для которых известны статистические моменты, например, матрица выборочных коэффициентов корреляции или ковариации. Такие переменные называются явными. Они могут быть характеристиками сложной системы. Реальные связи между наблюдаемыми явными переменными могут быть достаточно сложными, однако предполагаем, что имеется некоторое число скрытых переменных, которые с известной степенью точности объясняют структуру этих связей. Таким образом, с помощью латентных переменных строится модель связей между явными и неявными переменными. В некоторых задачах латентные переменные можно рассматривать как причины, а явные – как следствия, поэтому, такие модели называются причинными. Допускается, что скрытые переменные, в свою очередь, могут быть связаны между собой. Структура связей допускается достаточно сложной, однако тип ее постулируется – это связи, описываемые линейными уравнениями. Какие-то параметры линейных моделей известны, какие-то нет, и являются свободными параметрами. Основная идея моделирования структурными уравнениями состоит в том, что можно проверить, связаны ли переменные Y и X линейной зависимостью \(Y = aX\), анализируя их дисперсии и ковариации. Эта идея основана на простом свойстве среднего и дисперсии: если умножить каждое число на некоторую константу k, среднее значение также умножится на k, при этом стандартное отклонение умножится на модуль k. Например, рассмотрим набор из трех чисел 1, 2, 3. Эти числа имеют среднее, равное 2, и стандартное отклонение, равное 1. Если умножить все три числа на 4, то легко посчитать, что среднее значение будет равно 8, стандартное отклонение – 4, а дисперсия – 16. Таким образом, если есть наборы чисел X и Y, связанные зависимостью Y = 4X, то дисперсия Y должна быть в 16 раз больше, чем дисперсия X. Поэтому можно проверить гипотезу о том, что Y и X связаны уравнением Y = 4X, сравнением дисперсий переменных Y и X. Эта идея может быть различными способами обобщена на несколько переменных, связанных системой линейных уравнений. При этом правила преобразований становятся более громоздкими, вычисления более сложными, но основной смысл остается прежним – можно проверить, связаны ли переменные линейной зависимостью, изучая их дисперсии и ковариации.
Методы анализа выживаемости
Методы анализа выживаемости первоначально были развиты в медицинских, биологических исследованиях и страховании, но затем стали широко применяться в социальных и экономических науках, а также в промышленности в инженерных задачах (анализ надежности и времен отказов). Представьте, что изучается эффективность нового метода лечения или лекарственного препарата. Очевидно, наиболее важной и объективной характеристикой является средняя продолжительность жизни пациентов с момента поступления в клинику или средняя продолжительность ремиссии заболевания. Для описания средних времен жизни или ремиссии можно было бы использовать стандартные параметрические и непараметрические методы. Однако в анализируемых данных есть существенная особенность – могут найтись пациенты, которые в течение всего периода наблюдения выжили, а у некоторых из них заболевание все еще находится в стадии ремиссии. Также может образоваться группа больных, контакт с которыми был потерян до завершения эксперимента (например, их перевели в другие клиники). При использовании стандартных методов оценки среднего эту группу пациентов пришлось бы исключить, тем самым, потеряв с трудом собранную важную информацию. К тому же большинство этих пациентов являются выжившими (выздоровевшими) в течение того времени, которое их наблюдали, что свидетельствует в пользу нового метода лечения (лекарственного препарата). Такого рода информация, когда нет данных о наступлении интересующего нас события, называется неполной. Если есть данные о наступлении интересующего нас события, то информация называется полной. Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику рассматриваемого метода – анализа выживаемости. В данном методе исследуются вероятностные характеристики интервалов времени между последовательным возникновением критических событий. Такого рода исследования называются анализом длительностей до момента прекращения, которые можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения, при котором объект перестает отвечать заданным для наблюдения свойствам. Цель исследований – определение условных вероятностей, связанных с длительностями до момента прекращения. Построение таблиц времен жизни, подгонка распределения выживаемости, оценивание функции выживания с помощью процедуры Каплана – Мейера относятся к описательным методам исследования цензурированных данных. Некоторые из предложенных методов позволяют сравнивать выживаемость в двух и более группах. Наконец, анализ выживаемости содержит регрессионные модели для оценивания зависимостей между многомерными непрерывными переменными со значениями, аналогичными временам жизни. Общие модели дискриминантного анализа. Если не выполняются условия применимости дискриминантного анализа (ДА) – независимые переменные (предикторы) должны быть измерены как минимум в интервальной шкале, их распределение должно соответствовать нормальному закону, необходимо воспользоваться методом общие модели дискриминантного анализа (ОДА). Метод имеет такое название, потому что в нем для анализа дискриминантных функций используется общая линейная модель (GLM). В этом модуле анализ дискриминантных функций рассматривается как общая многомерная линейная модель, в которой категориальная зависимая переменная (отклик) представляется векторами с кодами, обозначающими различные группы для каждого наблюдения. Метод ОДА имеет ряд существенных преимуществ перед классическим дискриминантным анализом. Например, не устанавливается никаких ограничений на тип используемого предиктора (категориальный или непрерывный) или на тип определяемой модели, возможен пошаговый выбор предикторов и выбор наилучшего подмножества предикторов, в случае наличия в файле данных кросс-проверочной выборки выбор наилучшего подмножества предикторов можно провести на основе долей ошибочной классификации для кросс-проверочной выборки и т.д.
Временные ряды
Временные ряды – это наиболее интенсивно развивающееся, перспективное направление математической статистики. Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t. Отдельные наблюдения называются уровнями ряда и обозначаются хt, t = 1, …, n. При исследовании временного ряда выделяются несколько составляющих: xt=ut+yt+ct+et, t = 1, …, n, где ut – тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); – сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt – циклическая компонента, отражающая повторяемость процессов в течение длительных периодов времени свыше одного года; t – случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов. Первые три компоненты представляют собой детерминированные составляющие. Случайная составляющая образована в результате суперпозиции большого числа внешних факторов, оказывающих каждый в отдельности незначительное влияние на изменение значений признака Х. Анализ и исследование временного ряда позволяют строить модели для прогнозирования значений признака Х на будущее время, если известна последовательность наблюдений в прошлом.
Нейронные сети
Нейронные сети представляют собой вычислительную систему, архитектура которой имеет аналогию с построением нервной ткани из нейронов. На нейроны самого нижнего слоя подаются значения входных параметров, на основании которых нужно принимать определенные решения. Например, в соответствии со значениями клинико-лабораторных показателей больного надо отнести его к той или иной группе по степени тяжести заболевания. Эти значения воспринимаются сетью как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ – отклик всей сети на входные параметры. Для того, чтобы сеть работала ее надо «натренировать» (обучить) на данных для которых известны значения входных параметров и правильные отклики на них. Обучение состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов к известным правильным ответам. Нейронные сети могут быть использованы для классификации наблюдений.
Планирование экспериментов
Искусство располагать наблюдения в определенном порядке или проводить специально спланированные проверки с целью полного использования возможностей этих методов и составляет содержание предмета «планирование эксперимента». В настоящее время экспериментальные методы широко используются как в науке, так и в различных областях практической деятельности. Обычно основная цель научного исследования состоит в том, чтобы показать статистическую значимость эффекта воздействия определенного фактора на изучаемую зависимую переменную. Как правило, основная цель планирования экспериментов заключается в извлечении максимального количества объективной информации о влиянии изучаемых факторов на интересующий исследователя показатель (зависимую переменную) с помощью наименьшего числа дорогостоящих наблюдений. К сожалению, на практике, в большинстве случаев, недостаточное внимание уделяется планированию исследований. Собирают данные (столько, сколько могут собрать), а потом уже проводят статистическую обработку и анализ. Но сам по себе правильно проведенный статистический анализ недостаточен для достижения научной достоверности, поскольку качество любой информации, получаемой в результате анализа данных, зависит от качества самих данных. Поэтому планирование экспериментов находит все большее применение в прикладных исследованиях. Целью методов планирования экспериментов является изучение влияния определенных факторов на исследуемый процесс и поиск оптимальных уровней факторов, определяющих требуемый уровень течения данного процесса.
Карты контроля качества
В условиях современного мира чрезвычайно актуальным является проблема качества не только выпускаемой продукции, но и услуг оказываемых населению. От успешного решения этой важной проблемы в значительной степени зависит благополучие любой фирмы, организации или учреждения. Качество продукции и услуг формируется в процессе научных исследований, конструкторских и технологических разработок, обеспечивается хорошей организацией производства и услуг. Но изготовление продукции и оказание услуг независимо от их вида всегда связано с определенным непостоянством условий производства и предоставления. Это приводит к некоторой вариабельности признаков их качества. Поэтому, актуальными являются вопросы разработки методов контроля качества, которые позволят своевременно выявить признаки нарушения технологического процесса или оказания услуг. При этом, для достижения и поддержания высокого уровня качества, удовлетворяющего потребителя нужны методы, направленные не на устранение дефектов готовой продукции и несоответствий услуг, а на предупреждение и прогнозирование причин их появления. Контрольная карта – это инструмент, позволяющий отслеживать ход протекания процесса и воздействовать на него (с помощью соответствующей обратной связи), предупреждая его отклонения от предъявленных к процессу требований. Инструментарий карт контроля качества широко использует статистические методы, основанные на теории вероятностей и математической статистики. Применение статистических методов позволяет при ограниченных объемах анализируемых изделий с заданной степенью точности и достоверности судить о состоянии качества выпускаемой продукции. Обеспечивает прогнозирование, оптимальное регулирование проблем в области качества, принятие верных управленческих решений не на основе интуиции, а при помощи научного изучения и выявления закономерностей в накапливаемых массивах числовой информации.
Хранение данных
Для использования в практической жизни человека cведения можно накапливать и систематизировать в какой-то знаковой форме, т.е. в виде данных. Данные — это объект, обладающий определенной структурой, объемом и ценностью. Понятия «данные» и «информация» неразрывно связаны между собой, но нетождественны. Данные представляются в виде зарегистрированных сигналов (знаков) и являются составной частью информации. Следовательно, информация – это совокупность данных, систематизированных с определенной целью.
База данных (БД) — это структурированная упорядоченная совокупность данных, которыми управляют централизованно. В качестве ее признаков называют следующие:
• информация хранится и обрабатывается в вычислительной системе;
• данные структурированы для эффективного поиска и обработки;
• имеется схема, описывающая базу данных в формальном виде;
• средства работы ориентированы на максимальное быстродействие и защиту информации от повреждений.
Набор специальных программных средств, необходимых для создания, изменения базы данных и обеспечения доступа к ним, принято называть системой управления базами данных (СУБД).
Для обеспечения пользовательского интерфейса используют системы управления базами данных, средства администрирования и клиентские интерфейсы. Системы управления базами данных (СУБД) выполняют следующие функции:
управление данными во внешней памяти (на дисках);
управление данными в оперативной памяти с использованием дискового кэша;
журнализация изменений, резервное копирование и восстановление базы данных после сбоев;
поддержка языков БД (язык определения данных, язык манипулирования данными).
Можно выделить следующие типы СУБД:
Файл-серверные;
Клиент-серверные;
Встраиваемые.
В файл-серверных СУБД файлы данных располагаются централизованно на файл-сервере. СУБД располагается на каждом клиентском компьютере (рабочей станции). Доступ СУБД к данным осуществляется через локальную сеть. Синхронизация чтений и обновлений осуществляется посредством файловых блокировок.
Преимуществом этой архитектуры является низкая нагрузка на процессор файлового сервера.
Недостатки: потенциально высокая загрузка локальной сети; затруднённость или невозможность централизованного управления; затруднённость или невозможность обеспечения таких важных характеристик как высокая надёжность, высокая доступность и высокая безопасность. Применяются чаще всего в локальных приложениях, которые используют функции управления БД; в системах с низкой интенсивностью обработки данных и низкими пиковыми нагрузками на БД.
Клиент-серверная СУБД располагается на сервере вместе с БД и осуществляет доступ к БД непосредственно, в монопольном режиме. Все клиентские запросы на обработку данных обрабатываются клиент-серверной СУБД централизованно.
Недостаток клиент-серверных СУБД состоит в повышенных требованиях к серверу.
Достоинства: потенциально более низкая загрузка локальной сети; удобство централизованного управления; удобство обеспечения таких важных характеристик как высокая надёжность, высокая доступность и высокая безопасность.
Встраиваемая СУБД — СУБД, которая может поставляться как составная часть некоторого программного продукта, не требуя процедуры самостоятельной установки. Встраиваемая СУБД предназначена для локального хранения данных своего приложения и не рассчитана на коллективное использование в сети. Физически встраиваемая СУБД чаще всего реализована в виде подключаемой библиотеки. Доступ к данным со стороны приложения может происходить через SQL либо через специальные программные интерфейсы.
В сетевых СУБД важную роль играют обеспечение коллективной работы пользователей и безопасности данных.
Рассмотрим основные элементы структуры модели данных.
Элемент данных (поле) – наименьшая поименованная единица данных. Используется для представления значения атрибута.
Запись – поименованная совокупность полей. Используется для представления совокупности атрибутов сущности (записи о сущности).
Экземпляр записи – запись с конкретными значениями полей.
Агрегат данных – поименованная совокупность элементов данных внутри записи, которую можно рассматривать как единое целое.
Фундаментальным понятием реляционной модели данных является отношение.
Отношение – структура, которая формально определяет свойства различных однородных объектов и их взаимосвязи. Один и тот же объект может быть описан с разных точек зрения, обладая отличными атрибутами. Например, разные документы, принадлежащие одному и тому же человеку, описывают его как разные отношения. Для получения полного описания объекта средствами реляционной модели данных используют связи отношений.
Связь – правило, описывающее способ объединения разных отношений для получения полного описания объекта средствами базы данных. Группа данных, описывающая какой-либо объект с помощью отношений и связей, образует кортеж данных, входящие в в его состав элементы данных называются атрибутами.
Формой представления отношений являются таблицы базы данных, строки которых соответствуют записям, а столбцы — полям.
В настоящее время существуют три вида баз данных: сетевые, иерархические и реляционные. Они различаются способом реализации связей между данными. Сетевые БД реализуют связи посредством отношений, т. е. в них одни данные связаны с другими, другие — с третьими и т. д.; возможны также множественные связи. В результате данные в базе связаны между собой подобно сети. Иерархические БД являются некоторой разновидностью сетевых БД, поскольку в них допустим только один вид связи — «владелец — подчиненный». В итоге связи получаются направленными строго «сверху вниз» (на рисунке это можно изобразить в виде дерева). Реляционные БД реализуют связи между данными посредством ссылок (или реляций), т. е. одни данные хранят ссылки на другие данные. Такие БД имеют жесткую структуру и могут быть представлены в виде таблиц.
При рассмотрении СУБД применяется еще несколько терминов для обозначения соответствующих объектов, непосредственно связанных с базой данных:
Запрос - объект, задающий правило выбора нужных данных из базы. Его результатом является набор записей, т. е. некоторая временная таблица, не существующая в базе данных. Записи в этой таблице, вообще говоря, не обязательно совпадают с записями, хранимыми в базе; они могут отличаться как по количеству полей, так и по их названиям и типам;
Форма - объект, позволяющий отображать и редактировать данные в удобном для пользователя виде. Кроме данных форма может содержать и другие элементы, например рамки, линии, геометрические элементы (дуги, окружности). Можно также располагать в форме текст, метки и даже кнопки, позволяющие запускать команды (например, команды перехода в другую форму или расчета некоторых значений);
Отчет - объект, позволяющий получать данные в пригодном для вывода на принтер виде. Он может содержать различные элементы оформления, например линии и рамки (одинарные и двойные), колонтитулы с поясняющим текстом, номера страниц, элементы группировки данных;
Макрос - объект, дающий возможность с помощью одной операции выполнять некоторую последовательность команд;
Модуль - объект, позволяющий выполнять сложные действия, которые не могут быть реализованы другим способом. Модуль представляет собой программу на каком-либо языке программирования, реализующую некоторый алгоритм обработки данных в базе.
Этапы проектирования и создания базы данных
Для проектирования базы данных необходимо располагать описанием выбранной предметной области, которое должно охватывать реальные объекты и процессы, определять все необходимые источники информации для обеспечения предполагаемых запросов пользователя и решаемых в приложении задач. Определение состава и структуры данных, которые должны быть загружены в базу данных, осуществляется на основе анализа предметной области. Структура данных предметной области может отображаться информационно-логической моделью (ИЛМ). Если при построении такой модели обеспечены требования нормализации данных и она, соответственно, представлена в каноническом виде, далее легко определяется проект логической структуры нормализованной базы данных. На основе канонической модели можно создать реляционную базу без дублирования данных.В процессе разработки канонической модели данных предметной области для проектирования реляционной базы данных необходимо выделить информационные объекты (ИО), соответствующие требованиям нормализации данных, и определить связи между ИО с типом отношений 1 : М.
При определении проекта логической структуры реляционной базы данных каждый информационный объект канонической модели предметной области адекватно отображается реляционной таблицей, а связям между двумя информационными объектами соответствуют логические связи между парой соответствующих таблиц.
Такие связи устанавливаются по уникальному ключу главной таблицы. Во второй таблице, которая является подчиненной, поле связи может быть либо частью ее уникального ключа, либо не входить в состав ключа вовсе.
В процессе создания базы данных на компьютере сначала осуществляется конструирование ее таблиц средствами Access. Для поддержания целостности данных в каждой таблице определяется ключевое поле и правила проверки значений данных в полях. Далее создается схема данных, в которой устанавливаются логические связи таблиц. В схеме данных базы могут быть заданы параметры поддержания связной целостности данных.
Связная целостность данных означает, что в базе данных установлены и корректно поддерживаются взаимосвязи между записями разных таблиц при загрузке, добавлении и удалении записей в связанных таблицах, а также при изменении значений ключевых полей. При обеспечении связной целостности в подчиненной таблице не может существовать запись, для которой отсутствует связанная запись в главной таблице.
После формирования в Access схемы данных можно приступать к вводу данных в базу — загрузке c документов предметной области, являющихся источниками данных. В практических приложениях пользователя обычно не используется ввод непосредственно в таблицы, а применяются специально создаваемые экранные формы, играющие роль интерфейса пользователя. Фактически новый документ готовится (заполняется) на компьютере и сохраняется в базе данных.
Проектирование базы данных, основанное на построении нормализованной модели данных предметной области, позволяет легко получить логическую структуру реляционной базы данных Access, в которой автоматически поддерживается целостность и непротиворечивость данных.
Построение информационно-логической модели данных
Информационно-логическая модель (ИЛМ) отображает данные предметной области в виде совокупности информационных объектов (ИО) и связей между ними. Эта модель представляет данные, подлежащие хранению в базе данных. Каждый информационный объект в модели данных должен иметь уникальное имя.
Информационный объект — это информационное описание некоторой сущности предметной области: реального объекта, процесса, явления или события. Информационный объект является совокупностью логически взаимосвязанных реквизитов, представляющих качественные и количественные характеристики сущности.
Информационный объект имеет множество реализаций — экземпляров объекта. Экземпляр объекта должен однозначно определяться среди всего множества экземпляров, т. е. идентифицироваться значением уникального (первичного) ключа информационного объекта. Уникальность ключа означает, что любое значение ключа не может повториться в каком-либо другом экземпляре объекта. Простой ключ состоит из одного реквизита.
Составной ключ — из нескольких реквизитов. Таким образом, реквизиты информационного объекта подразделяются на ключевые и описательные, которые являются функционально зависимыми от ключа.
Информационные объекты могут быть выделены на основе описания предметной области путем определения функциональных зависимостей между реквизитами предметной области. Функциональная зависимость реквизитов информационного объекта устанавливает соответствие значений ключевых (определяющих) и неключевых (определяемых) реквизитов.
Требования нормализации
Реквизиты каждого информационного объекта канонической модели данных должны отвечать требованиям, соответствующим третьей нормальной форме реляционной модели данных:
информационный объект должен содержать уникальный идентификатор — ключ;
все описательные реквизиты должны быть взаимонезависимы, т. е. между ними не должно быть функциональных зависимостей;
все реквизиты, входящие в составной ключ, также должны быть взаимонезависимы;
каждый описательный реквизит должен функционально полно зависеть от ключа, т. е. каждому значению ключа должно соответствовать только одно значение описательного реквизита, а при составном ключе описательные реквизиты должны зависеть целиком от всей совокупности реквизитов, образующих ключ;
каждый описательный реквизит должен зависеть от ключа нетранзитивно, т. е. не должен зависеть через другой промежуточный реквизит.
Выполнение требований нормализации обеспечивает построение канонической модели данных и создание на ее основе реляционной базы данных без дублирования описательных данных, а также возможность автоматического поддержания связной целостности данных средствами СУБД при обновлении базы данных — добавлении и удалении записей, изменении значений в ключевых полях.
Выделение информационных объектов предметной области
Процесс выделения информационных объектов предметной области, отвечающих требованиям нормализации, может производиться как на основе интуитивного, так и формального (аналитического) подхода. При интуитивном подходе сразу устанавливаются информационные объекты, соответствующие реальным объектам.
Однако получаемая при этом информационно-логическая модель, как правило, требует дальнейших преобразований, в частности, преобразования много-многозначных связей между объектами. При отсутствии достаточного опыта использования такого подхода возможны существенные ошибки. Последующая проверка выполнения требований нормализации обычно показывает необходимость уточнения структуры информационных объектов.
Информационный анализ и определение логической структуры информации
Информационный анализ включает:
структурирование информации предметной области;
формализацию и моделирование данных.
Структура информации внемашинной сферы находит отражение в ее представлении отдельными структурными единицами — реквизитами, их группировке в документах-источниках и упорядочении по классификационным признакам.
Определим важнейшие виды структурных единиц информации:
реквизит — простейшая структурная единица информации, неделимая на смысловом уровне, отражающая количественную или качественную характеристику сущности (объекта, процесса и т. п.) предметной области. Можно выделить реквизиты-признаки и реквизиты-основания:
реквизит-признак позволяет выделить (идентифицировать) объект из множества однотипных объектов (как правило, символьное представление);
реквизит-основание содержит количественную характеристику объекта, процесса или другой сущности, определяющую их состояние (как правило, числовое значение).
составная единица информации (СЕИ) — логически взаимосвязанная совокупность реквизитов. Примером составной единицы информации может служить документ.
Семантика и размещение реквизитов в форме документа определяют роль реквизитов в структуре информации, содержащейся в документе. В процессе информационного семантического (смыслового) анализа нужно вы- явить функциональную зависимость реквизитов и определить реквизитный состав информационных объектов.
На основе описания предметной области необходимо выявить документыисточники и их реквизиты, подлежащие хранению в базе данных. Затем надо перейти к информационному анализу этих документов для определения функциональных зависимостей и выявления информационных объектов.
Связи информационных объектов
Следующим шагом проектирования после выявления информационных объектов является определение связей между ними. Связь устанавливается между двумя информационными объектами. Наличие связи, как правило, определяется природой реальных объектов, процессов или явлений, отображаемых этими информационными объектами. Связь между объектами существует, если логически взаимосвязаны экземпляры этих информационных объектов.
Логическая структура реляционной базы данных
Логическая структура реляционной базы данных Access является адекватным отображением полученной информационно-логической модели предметной области. Для канонической модели не требуется дополнительных преобразований. Каждый информационный объект модели данных отображается соответствующей реляционной таблицей. Структура реляционной таблицы определяется реквизитным составом соответствующего информационного объекта, где каждый столбец (поле) соответствует одному из реквизитов объекта. Ключевые реквизиты объекта образуют уникальный ключ реляционной таблицы. Для каждого столбца таблицы (поля) задается тип, размер данных и другие свойства. Строки (записи) таблицы соответствуют экземплярам объекта и формируются при загрузке таблицы.
Связи между объектами модели данных реализуются одинаковыми реквизитами — ключами связи в соответствующих таблицах. При этом ключом связи типа 1 : M всегда является уникальный ключ главной таблицы. Ключом связи в подчиненной таблице является либо некоторая часть уникального ключа в ней, либо поле, не входящее в состав первичного ключа. Ключ связи в подчиненной таблице называется внешним ключом.