Вычисление коэффициента корреляции для больших выборок


Цель. Знакомство с методами вычисления коэффициента корреляции в больших выборках

Методы вычисления и определения коэффициента корреляции на малых и больших выборках для количественных признаков заметно отличаются друг от друга. Формой организации выборочного материала, когда n>30, является корреляционная решетка, в которой разноска вариантов ведется с учетом обоих признаков (х,у). По степени тесноты и рассеивания вариантов по классам корреляционной решетки можно заранее судить о том, будет ли величина коэффициента корреляции большой, средней или малой.

Если варианты образуют узкий эллипс, то связь будет большой. Если варианты расположены по большинству клеток, то связь отсутствует или незначительная.

Для составления корреляционной решетки по каждому из коррелирующих признаков необходимо: 1) наметить величину классовых промежутков и границы классов, установить количество классов; 2) нанести классы одного признака по крайней левой грани корреляционной решетки сверху вниз, а классы второго признака – по верхней строчке, слева направо. Классы разделяются линиями. Горизонтальные и вертикальные линии пересекут друг друга и образуют клетки или ячейки корреляционной решетки.

Для точного учета коэффициента корреляции между двумя количественными признаками при большой выборке используется следующая формула:

     (38)

При вычислении коэффициента корреляции среднее квадратическое отклонение берется в величине классовых промежутков, вычисленное по формуле:

          (39)

Чтобы вычислить коэффициент корреляции, необходимо к корреляционной решетке добавить четыре графы по горизонтали и четыре по вертикали. Одна вертикальная и одна горизонтальная графы делаются вдоль классов вариант; они служат для записи отклонений классов от условной средней (а). Остальные три графы по горизонтали и три по вертикали строятся внизу решетки (для ряда у) и с правой ее стороны (для ряда х). В них записываются: частоты (р), произведение частот на отклонения (ра) и произведение частот на квадраты отклонений (ра2). В заголовке вертикальных граф пишут последовательно: рх, рхах, рхах2, а в заголовке горизонтальных граф (слева) ру, руау, руау2.

Далее производится вычисление и заполнение добавленных граф.

Пример. Необходимо вычислить коэффициент корреляции между живой массой (х) и обхватом груди (у) у коров красной горбатовской породы по данным таблицы 4.2.1.

Таблица 4.2.1 Живая масса и обхват груди у коров красной горбатовской породы

Лимиты обхвата груди равны 167-203 см, а лимиты живой массы – 365-559 кг. Величина классового промежутка для первого признака будет равняться: .

Величина классового промежутка для второго признака будет: .

Исходя из полученных цифр, начало границ первого класса по обхвату груди будет 166, а всего классов – 10. Начало границ первого класса по живой массе 360, а всего классов 10. Необходимо начертить корреляционную решетку.

Таблица 4.2.2 Форма корреляционной решетки

 

 

х-живая масса

у-обхват груди

166-169

170-173

174-177

178-181

182-185

186-189

190-193

194-197

198-201

202-205

360-379

 

 

 

 

 

 

 

 

 

 

380-399

 

 

 

 

 

 

 

 

 

 

400-419

 

 

 

 

 

 

 

 

 

 

420-439

 

 

 

 

 

 

 

 

 

 

440-459

 

 

 

 

 

 

 

 

 

 

460-479

 

 

 

 

 

 

 

 

 

 

480-499

 

 

 

 

 

 

 

 

 

 

500-519

 

 

 

 

 

 

 

 

 

 

520-539

 

 

 

 

 

 

 

 

 

 

540-559

 

 

 

 

 

 

 

 

 

 

После того как начерчена корреляционная решетка производится заполнение ячеек этой решетки частотами. Делается это знаками так же, как и при разноске вариант по классам вариационного ряда, только в данном случае по каждой особи обращается внимание не на один показатель, а на два. После разноски всех вариант корреляционная решетка имеет такой вид (таблица 4.2.3).

Таблица 4.2.3 Заполнение корреляционной решетки

Полученное расположение вариант по ячейкам корреляционной решетки указывает, что между живой массой и обхватом груди существует прямая связь, так как варианты расположились слева, вниз, направо, а это показывает, что с увеличением обхвата груди увеличивается живая масса. Сосредоточение вариант вдоль одной линии (в узком овале) указывает, что между этими признаками существует большая взаимозависимость. Если бы варианты располагались по линии, идущей из левого нижнего в правый верхний угол, то это указывало бы на отрицательную (обратную) связь.

Однако часто варианты располагаются по ячейкам корреляционной решетки разбросанно, и тогда на взгляд трудно определить характер и степень связи, поэтому лучше выражать эту связь конкретной числовой величиной, для чего и вычисляется коэффициент корреляции.

К начерченной корреляционной решетке добавляем четыре графы по горизонтали и четыре по вертикали. Далее производится вычисление и заполнение добавленных граф; ход вычисления будет понятен при рассмотрении таблицы 4.2.4.

Таблица 4.2.4 Вычисление коэффициента корреляции

Для нахождения Σрахау необходимо корреляционную решетку разделить жирными линиями, идущими вдоль классов с нулевыми отклонениями, на четыре квадранта, затем произвести перемножение отклонения ах на ау по каждому классу, имеющему частоты, и произведения записать в ячейке, находящейся на пересечении этих классов. Произведения ахау следует перемножить на частоты соответствующей ячейки, в результате чего и будет найдена величина рахау. Подсчет Σрахау  производится отдельно по каждому квадранту.

Σрахау= (I квадрант = 24+9+8+36+12+6+4+7=106; II квадрант = 0; III квадрант = -3; IV квадрант = 4+6+12+20+30+36+12+15+8+80+40+30=293) = 396.

Вычисление величин b, b2, σ для обоих признаков производится обычно (как в вариационном ряде).

;       .

b2х= 0,722=0,51;   b2у= 0,222=0,05.

;

.

.

Полученный коэффициент корреляции +0,93 близок к 1, что указывает на очень большую положительную связ