Статистический анализ данных в Microsoft Excel

При получении исходных данных, их сводке и обработке, а также анализе чаще всего используются статистические методы и приемы.

Первой стадией получения информации является сбор необходимых исходных данных. В результате сбора данных получают массу сведений, которые в дальнейшем должны быть научно обработаны. Поэтому вторым этапом работ является группировка и сводка исходных данных. В основу группировки ложатся наиболее существенные, характерные признаки, которые могут быть количественные и качественные.

В качестве обобщающих показателей часто используются средние величины. Средняя – это величина признака в расчете на единицу изучаемого однородного явления. Она обобщает данные об индивидуальных значениях изучаемых единиц, устанавливает их типичный уровень и дает обобщенную цифровую характеристику исследуемой совокупности в расчете на ее составную единицу. Непременным условием объективности средних чисел является качественная однородность обработанной совокупности.

Для характеристики явлений наряду со средними используются также показатели, характеризующие колеблемости признака или отклонения индивидуальных значений от среднего уровня. Для оценки колеблемости применяют среднее квадратическое отклонение. Наиболее широко для анализа взаимосвязей используется корреляционный метод. При корреляционной связи признаков какому-либо значению одной переменной величины могут соответствовать несколько и даже много разных значений другой переменной, варьирующей около своей средней величины. В каком-то конкретном случае зависимость может не проявиться совсем. Т.е. здесь идет речь о связи величин, каждая из которых находится под влиянием ряда факторов, из которых одни оказывают решающие действие, а другие – второстепенное, хотя могут сильно влиять на отдельные единицы совокупности. Поэтому для выявления корреляционной зависимости используют массовые данные.

Степень зависимости двух величин определяется коэффициентом корреляции. Если коэффициент корреляции получен со знаком плюс, будет прямая связь, со знаком минус – обратная. Коэффициент изменяется в пределах от –1 до +1. Чем ближе его значение к единице, тем теснее связь, больше зависимость.

Практическое задание

Выполнить группировочный и регрессионный анализ статистических данных, предварительно произведя необходимые расчеты.

На основании данных таблицы 1 сформировать ЭТ, начиная ввод данных с ячейки B2.

№ п/ п	Общая земельная площадь, га	Площадь несельскохозяйственных угодий, га	Удельный вес несельскохозяйственных угодий, %	Площадь посева, га		Урожайность, ц/га		Валовый сбор, ц
№ п/ п	Общая земельная площадь, га	Площадь несельскохозяйственных угодий, га	Удельный вес несельскохозяйственных угодий, %	Зерновых	Многолетних трав	Зерновых	Многолетних трав	Зерновых	Многолетних трав
1	2	3	4	5	6	7	8	9	10
1	2550	179		1300	400	25	30
2	2600	195		1200	400	30	28
3	2600	195		1300	420	28	29
4	2550	212		1250	410	28	31
5	2680	231		1300	410	30	27
6	2700	232		1300	430	29	27
7	2820	282		1380	435	28	28
8	2880	288		1420	425	27	25
9	2900	290		1400	500	27	29
10	2940	315		1450	480	28	24
11	3000	345		1480	490	26	26
12	3000	351		1500	520	29	25
13	3220	377		1620	540	25	27
14	3300	393		1550	540	25	24
15	3300	396		1600	500	25	22
16	3350	402		1500	480	24	26
17	3400	439		1850	500	26	23
18	3600	464		1900	520	23	25
19	3700	503		1900	520	23	27
20	4150	573		2050	530	24	24
21	4200	580		2150	550	24	22
22	4600	644		2150	540	22	25
23	4920	689		2200	560	23	23
24	5010	752		2050	570	23	26
25	5100	791		2100	600	25	27

Выполнить необходимые расчеты для следующих показателей:

Удельный вес несельскохозяйственных угодий, %=[Площадь несельскохозяйственных угодий]/[Общая земельная площадь].

Валовый сбор = [Урожайность]*[Площадь посева].

Группировочный анализ

Отсортировать таблицу по ключевому столбцу «Площадь несельскохозяйственных угодий»
Определить максимальное и минимальное значения этого столбца.
Определить число групп = 5(Определяется произвольно, исходя из условия конкретной задачи).
Рассчитать длину интервала значений (размах) каждой группы.

Размах=([Максимум]-[Минимум])/[Число групп].

Определить границы каждой группы следующим образом: Граница первой группы = Минимум

Граница второй группы = Граница первой группы+Размах и т.д.

Добавить к таблице еще один столбец (если вы правильно ввели данные, то это должен быть столбец L) (№11), поставить курсор в ячейку L5 и воспользоваться функцией ВПР.
Заполнить вводные поля диалогового окна функции ВПР. Искомое значение – ячейка D5; Таблица – P12:Q16; Номер столбца – 2; ОК

Проанализировать результаты проведенной группировки данных.

Регрессионный анализ

Вычислить коэффициент парной корреляции между площадью зерновых и урожайностью зерновых по формуле: \[R_{xy}=\frac{\left<xy\right>-\left<x\right>\left<y\right>}{\sigma_x\sigma_y}\]

где

\(\left<xy\right>\) – среднее значение произведения площади и урожайности, т.е. среднее значение валового сбора;

\(\left<x\right>\) – среднее значение площади;

\(\left<y\right>\) – среднее значение урожайности;

\(σ_x\)– среднее квадратическое отклонение по площади;

\(σ_y\)– среднее квадратическое отклонение по урожайности.

Для выполнения расчета коэффициента корреляции провести следующие вычисления в таблице:

1. Среднее значение произведения площади и урожайности, среднее значение площади и среднее значение урожайности рассчитать с помощью встроенной функции СРЗНАЧ и поместить их внизу таблицы в соответствующих столбцах.

2. Затем рассчитать среднеквадратичные отклонения \[\sigma_x=\sqrt{\frac{1}{n}\sum(x-\left< x \right>)^2}\]

\[\sigma_y=\sqrt{\frac{1}{n}\sum(y-\left< y \right>)^2}\]

3. Выполнить проверку правильности расчета коэффициента корреляции, используя встроенную функцию КОРРЕЛ. Результат расчета значения коэффициента корреляции с использованием этой функции поместить в ячейку Q23.

Построить график зависимости изменения урожайности от площади посева зерновых, используя уравнение \(y_p=a x+b\), где \(a=R_{xy}\frac{σ_y}{σ_x}\), \(b=\left<y\right>-a\left<x\right>\).

Проанализировать получившиеся результаты – табличные и графические.