Реклама

У дома - Пелевин Виктор
Коефициент на корелация. Корелационен критерий на Пиърсън Коефициент на корелация 1 означава

"Статистика

Статистика и обработка на данни в психологията
(продължение)

Корелационен анализ

При изучаване корелацииопитайте се да установите дали има някаква връзка между два показателя в една и съща извадка (например между височината и теглото на децата или между нивото IQи училищно представяне) или между две различни извадки (например при сравняване на двойки близнаци), и ако тази връзка съществува, тогава дали увеличението на един показател е придружено от увеличение (положителна корелация) или намаляване (отрицателна корелация) на другият.

С други думи, корелационният анализ помага да се установи дали е възможно да се предскажат възможните стойности на един индикатор, като се знае стойността на друг.

Досега, когато анализирахме резултатите от нашия опит с изследването на ефектите от марихуаната, ние умишлено игнорирахме такъв показател като времето за реакция. Междувременно би било интересно да се провери дали има връзка между ефективността на реакциите и тяхната скорост. Това би позволило например да се твърди, че колкото по-бавен е човек, толкова по-точни и ефективни ще бъдат неговите действия и обратно.

За целта могат да се използват два различни метода: параметричният метод за изчисляване на коефициента на Браве-Пиърсън (r) и изчисляването на коефициента на корелация на ранг на Спирман (r s), който се прилага към порядковите данни, т.е. е непараметричен. Нека обаче първо да разберем какъв е коефициентът на корелация.

Коефициент на корелация

Коефициентът на корелация е стойност, която може да варира от +1 до -1. В случай на пълна положителна корелация, този коефициент е плюс 1, а при пълна отрицателна корелация е минус 1. На графиката това съответства на права линия, минаваща през пресечните точки на стойностите на всяка информация двойка:

Ако тези точки не се подреждат в права линия, а образуват "облак", коефициентът на корелация в абсолютна стойност става по-малък от единица и когато този облак се закръгли, се доближава до нула:

Ако коефициентът на корелация е 0, двете променливи са напълно независими една от друга.

В хуманитарните науки корелацията се счита за силна, ако нейният коефициент е по-голям от 0,60; ако надвишава 0,90, тогава корелацията се счита за много силна. Въпреки това, за да може да се направят изводи за връзките между променливите, големината на извадката е от голямо значение: колкото по-голяма е извадката, толкова по-надеждна е стойността на получения корелационен коефициент. Има таблици с критични стойности на корелационните коефициенти на Браве-Пиърсън и Спирман за различен брой степени на свобода (той е равен на броя на двойките минус 2, т.е. н- 2). Само ако коефициентите на корелация са по-големи от тези критични стойности, те могат да се считат за надеждни. Така че, за да бъде надежден коефициентът на корелация от 0,70, в анализа трябва да се вземат поне 8 двойки данни (з = n-2 = 6) при изчисляване на r (виж таблица 4 в приложението) и 7 двойки данни (h = n-2 = 5) при изчисляване на r s (Таблица 5 в приложението).

Искам още веднъж да подчертая, че същността на тези два коефициента е малко по-различна. Отрицателният коефициент r показва, че ефективността най-често е толкова по-висока, колкото по-кратко е времето за реакция, докато при изчисляване на коефициента r s е необходимо да се провери дали по-бързите субекти винаги реагират по-точно, а по-бавните по-малко точно.

Коефициент на корелация на Brave-Pearson (r) - Това е параметричен индикатор, за чието изчисляване се сравняват средните и стандартните отклонения на резултатите от две измервания. В този случай се използва формула (може да изглежда различно за различните автори)

където Σ XY -сумата от произведенията на данните от всяка двойка;
n-брой двойки;
X - средно за променливите данни Х;
Й - средно за променливи данни Й
S x -
стандартно отклонение за разпределение NS;
S y -
стандартно отклонение за разпределение в

Коефициент на корелация на ранга на Спиърман ( r s ) е непараметричен индикатор, с помощта на който се опитват да разкрият връзката между ранговете на съответните величини в две серии от измервания.

Този фактор е по-лесен за изчисляване, но резултатите са по-малко точни от използването на r. Това се дължи на факта, че при изчисляване на коефициента на Спиърман се използва реда на данните, а не техните количествени характеристики и интервалите между класовете.

Факт е, че когато използват коефициента на корелация на ранговете на Спиърман (rs), те проверяват само дали класирането на данните за която и да е извадка ще бъде същото като в редица други данни за тази извадка, които са свързани по двойки с първите (за например, дали класират „студенти, когато издържат и психология, и математика, или дори с двама различни учители по психология?). Ако коефициентът е близо до +1, това означава, че и двете серии практически съвпадат, а ако този коефициент е близо до -1, можем да говорим за пълна обратна връзка.

Коефициент r sизчислено по формулата

където д- разликата между ранговете на конюгираните стойности на атрибутите (независимо от неговия знак) и - броя на двойките.

Обикновено този непараметричен тест се използва в случаите, когато е необходимо да се направят някои заключения не толкова за интервалимежду данните, колко за тях редици,а също и когато кривите на разпределение са твърде асиметрични и не позволяват използването на параметрични критерии като коефициента r (в тези случаи е необходимо количествените данни да се превърнат в ординални).

Резюме

И така, разгледахме различни параметрични и непараметрични статистически методи, използвани в психологията. Нашият преглед беше много повърхностен и основната му задача беше да накара читателя да разбере, че статистиката не е толкова страшна, колкото изглежда и изисква предимно здрав разум. Припомняме, че данните за „опит“, с които се занимавахме тук, са фиктивни и не могат да послужат като основа за каквито и да било изводи. Такъв експеримент обаче наистина си струва да се проведе. Тъй като за този експеримент е избрана чисто класическа техника, същият статистически анализ може да се използва в много различни експерименти. Във всеки случай ни се струва, че сме очертали някои основни насоки, които могат да бъдат полезни за тези, които не знаят откъде да започнат статистически анализ на получените резултати.

литература

  1. Годфрой Дж.Какво е психология. - М., 1992г.
  2. Шатийон Г., 1977 Statistique en humaines Sciences, Trois-Rivieres, Ed. SMG.
  3. Гилбърт Н.. 1978. Statistiques, Монреал, Изд. HRW.
  4. Moroney M.J., 1970 Comprendre la statistique, Verviers, Gerard et Cie.
  5. Сийгъл С., 1956. Непараметрична статистика, Ню Йорк, MacGraw-Hill Book Co.

Приложение Таблици

Бележки. 1) За големи проби или нива на значимост, по-малки от 0,05, вижте таблиците в ръководствата за статистика.

2) Таблици със стойности за други непараметрични критерии могат да бъдат намерени в специални ръководства (виж библиографията).

Таблица 1. Стойности на критерия TСтудентски
з 0,05
1 6,31
2 2,92
3 2,35
4 2,13
5 2,02
6 1,94
7 1,90
8 1,86
9 1,83
10 1,81
11 1,80
12 1,78
13 1,77
14 1,76
15 1,75
16 1,75
17 1,74
18 1,73
19 1,73
20 1,73
21 1,72
22 1,72
23 1,71
24 1,71
25 1,71
26 1,71
27 1,70
28 1,70
29 1,70
30 1,70
40 1,68
¥ 1,65
Таблица 2. Стойности на критерия χ 2
з 0,05
1 3,84
2 5,99
3 7,81
4 9,49
5 11,1
6 12,6
7 14,1
8 15,5
9 16,9
10 18,3
Таблица 3. Значителни Z стойности
Р З
0,05 1,64
0,01 2,33
Таблица 4. Надеждни (критични) стойности на r
h = (N-2) p = 0,05 (5%)
3 0,88
4 0,81
5 0,75
6 0,71
7 0,67
8 0,63
9 0,60
10 0,58
11 0.55
12 0,53
13 0,51
14 0,50
15 0,48
16 0,47
17 0,46
18 0,44
19 0,43
20 0,42
Таблица 5. Надеждни (критични) стойности на r s
h = (N-2) p = 0,05
2 1,000
3 0,900
4 0,829
5 0,714
6 0,643
7 0,600
8 0,564
10 0,506
12 0,456
14 0,425
16 0,399
18 0,377
20 0,359
22 0,343
24 0,329
26 0,317
28 0,306

7.3.1. Коефициенти на корелация и детерминация.Може да се определи количествено стегнатост на комуникациятамежду факторите и неговите фокус(напред или назад), като се изчисли:

1) ако трябва да определите линейна връзка между два фактора, - съотношение на двойкикорелации: в 7.3.2 и 7.3.3 се разглеждат операциите за изчисляване на коефициента на линейна корелация на двойката по Bravais – Pearson ( r) и коефициент на корелация на ранга на Спиърман по двойки ( r);

2) ако искаме да определим връзката между два фактора, но тази зависимост е очевидно нелинейна, тогава съотношение на корелация ;

3) ако искаме да определим връзката между един фактор и определен набор от други фактори, тогава (или, еквивалентно, "множествен коефициент на корелация");

4) ако искаме да идентифицираме изолирано връзката на един фактор само с конкретен друг, включен в групата фактори, влияещи на първия, за които трябва да считаме влиянието на всички останали фактори непроменено, то частичен (частичен) коефициент на корелация .

Всеки коефициент на корелация (r, r) не може да надвишава 1 по абсолютна стойност, тоест -1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знакът при коефициента на корелация определя посоката на връзката: знакът "+" (или без знак) означава, че връзката прав (положителен), знакът "-" - че връзката обратен (отрицателен). Знакът няма нищо общо със сковаността на комуникацията

Коефициентът на корелация характеризира статистическата връзка. Но често е необходимо да се определи друг вид зависимост, а именно: какъв е приносът на даден фактор за формирането на друг свързан фактор. Този вид зависимост с известна степен на условност се характеризира с коефициент на детерминация (д ) се определя по формулата д = r 2 ´100% (където r е корелационният коефициент на Браве – Пиърсън, виж 7.3.2). Ако са направени измервания скала на порядъка (скала на ранговете), то с известно увреждане на надеждността, вместо стойността на r, стойността на r (коефициентът на корелация на Спиърман, вижте 7.3.3) може да бъде заместена във формулата.

Например, ако получихме като характеристика на зависимостта на фактор B от фактор A, коефициентът на корелация r = 0,8 или r = –0,8, тогава D = 0,8 2 ´100% = 64%, тоест около 2 ½ 3. Следователно приносът на фактор А и неговите промени за образуването на фактор В е приблизително 2 ½ 3 върху общия принос на всички фактори като цяло.

7.3.2. Коефициент на корелация по Bravais-Pearson.Процедурата за изчисляване на корелационния коефициент на Браве – Пиърсън ( r ) може да се използва само в случаите, когато връзката се разглежда въз основа на проби с нормално честотно разпределение ( нормална дистрибуция ) и се получава чрез измервания в скалите на интервалите или съотношенията. Изчислената формула за този коефициент на корелация:



å ( хаз -) ( газ -)

r = .

n × s x × s y

Какво показва коефициентът на корелация? Първо, знакът при коефициента на корелация показва насочеността на връзката, а именно: знакът "-" показва, че връзката обратен, или отрицателен(има тенденция: с намаляване на стойностите на един фактор, съответните стойности на друг фактор се увеличават и с увеличение намаляват), а липсата на знак или знак "+" показва прав, или положителенвръзки (има тенденция: с увеличаване на стойностите на един фактор, стойностите на друг се увеличават, а с намаляване те намаляват). Второ, абсолютната (независима от знака) стойност на коефициента на корелация говори за плътността (здравостта) на връзката. Обичайно е да се разглежда (по-скоро условно): за стойности на r< 0,3 корреляция много слаб, доста често просто не се взема предвид, за 0,3 £ r< 5 корреляция слаб, за 0,5 £ r< 0,7) - средно аритметично, за 0,7 £ r 0,9 £) - силени накрая, за r> 0,9 - много силен.В нашия случай (r »0,83) връзката е обратна (отрицателна) и силна.

Припомнете си: стойностите на коефициента на корелация могат да бъдат в диапазона от –1 до +1. Ако стойността на r надхвърли тези граници, това показва, че в изчисленията направих грешка ... Ако r= 1, това означава, че връзката не е статистическа, а функционална - което на практика не се случва в спорта, биологията, медицината. Въпреки че с малък брой измервания е възможен произволен избор на стойности, който дава картина на функционалната връзка, но такъв случай е толкова по-малко вероятен, колкото по-голям е обемът на сравняваните проби (n), т.е. брой двойки сравнени измервания.

Таблицата за изчисление (Таблица 7.1) е изградена по формулата.

Таблица 7.1.

Изчислителна таблица за изчисление по Bravais-Pearson

x i y i (хаз -) (хи-) 2 (газ -) (ги-) 2 (хаз -) ( газ -)
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i = 137 = 13,00 åy i = 56,1 = 5,1 å( х i -) 2 = = 1,78 å( г i -) 2 = = 1,015 å( хаз -) ( г i -) = = –1,24

Дотолкова доколкото сх = ï ï = ï ï» 0,42, а

с y = ï ï» 0,32, r" –1,24ï (11´0,42´0,32) » –1,24ï 1,48 » –0,83 .

С други думи, трябва да знаете много твърдо, че коефициентът на корелация не мога надвишава 1,0 по абсолютна стойност. Това често дава възможност да се избегнат груби грешки или, по-точно, да се открият и коригират грешките, направени в изчисленията.

7.3.3. Коефициент на корелация на Спирман. Както вече споменахме, коефициентът на корелация на Браве – Пиърсън (r) може да се прилага само в случаите, когато анализираните фактори в честотното разпределение са близки до нормалните и стойностите на варианта се получават чрез измервания задължително в скалата на съотношенията или в скалата на интервалите, което се случва, ако те са изразени физически единици. В други случаи се намира коефициентът на корелация на Спиърман ( r). Този коефициент обаче могаприлага се и в случаите, когато е позволено (и е желателно ! ) прилагат коефициента на корелация на Браве-Пиърсън. Но трябва да се има предвид, че процедурата за определяне на коефициента според Bravais-Pearson има по-висока мощност („разрешаванеспособност"), Следователно rпо-информативен от r... Дори и с големи нотклонение rможе да бъде от порядъка на ± 10%.

Таблица 7.2 Формула за изчисление на коефициентите

x i y i R x R y | d R | d R 2 ent на корелация според Spearman

13,2 4,75 8,5 3,0 5,5 30,25 r= 1 -. Vos

13,5 4,70 11,0 2,0 9,0 81,00 използвайте нашия пример

12,7 5,10 4,5 6,5 2,0 4,00 за изчисление rно изградете

12,5 5,40 3,0 9,0 6,0 36,00 друга маса (Таблица 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Заместете стойностите:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Виждаме: rсе оказа малко

12,4 5,60 2,0 11,0 9,0 81,00 повече от rно се различава

12,3 5,50 1,0 10,0 9,0 81,00 не е много голям. В крайна сметка, кога

12,7 5,20 4,5 8,0 3,5 12,25 този малък нсмисъл rи r

åd R 2 = 423 са много приблизителни, малко надеждни, тяхната действителна стойност може да варира значително, следователно разликата rи rпри 0,1 е незначително. обикновеноrсе счита за аналогr но само по-малко точни... Знаци на rи rпоказва посоката на връзката.

7.3.4. Приложение и валидиране на корелационни коефициенти.Определянето на степента на корелация между факторите е необходимо, за да управляваме развитието на фактора, от който се нуждаем: за това трябва да въздействаме на други фактори, които значително го влияят, и трябва да знаете мярката за тяхната ефективност. Необходимо е да се знае за взаимовръзката на факторите за разработване или избор на готови тестове: информационното съдържание на теста се определя от съотношението на неговите резултати с проявите на знака или свойството, което ни интересува. Всяка форма на подбор е невъзможна без познаване на корелациите.

По-горе беше отбелязано, че в спортната и като цяло педагогическата, медицинската и дори икономическата и социологическа практика е от голям интерес да се определи дали принос , което на един фактор допринася за образуването на друг... Това се дължи на факта, че в допълнение към разглеждания фактор-причина, цел(интересуваме се) фактор акт, даващ всеки един или друг принос към него, и др.

Смята се, че мярка за приноса на всеки фактор-причина може да бъде коефициент на детерминация D i = r 2 ´100%. Така например, ако r = 0,6, т.е. връзката между факторите A и B е средна, тогава D = 0,6 2 ´100% = 36%. Знаейки следователно, че приносът на фактор А за образуването на фактор В е приблизително 1 ½ 3, може например да се посвети приблизително 1 на целенасоченото развитие на този фактор. ½ 3 тренировъчни пъти. Ако коефициентът на корелация е r = 0,4, тогава D = r 2 100% = 16%, или приблизително 1 ½ 6 - повече от два пъти по-малко и съответно само 1 трябва да се даде на развитието му според тази логика ½ 6 част от времето за обучение.

Стойностите D i за различни значими фактори дават приблизителна представа за количествената връзка на техните влияния върху целевия фактор, който ни интересува, за подобряване на който ние всъщност работим върху други фактори (напр. Например, бягащ дълъг скачач работи за увеличаване на скоростта на своя спринт, така че той е факторът, който има най-значителен принос за формиране на резултата при скокове).

Припомнете си това дефиниране двместо rслагам r, въпреки че, разбира се, точността на определянето се оказва по-ниска.

Базиран избирателен(изчислен въз основа на извадкови данни) на коефициента на корелация, не е възможно да се направи извод за надеждността на факта, че има връзка между разглежданите фактори като цяло. За да направите такова заключение с различна степен на валидност, използвайте стандарт тестове за корелационна значимост... Използването им предполага линейна връзка между факторите и нормална дистрибуциячестоти във всеки от тях (което означава не селективно, а общото им представяне).

Можете например да приложите t-теста на Студент. Неговият ра-

равномерна формула: т стр= –2 , където k е коефициентът на корелация на изследваната проба, a н- обемът на сравняваните проби. Получената изчислена стойност на t-критерия (tp) се сравнява с табличната стойност при избраното ниво на значимост и броя на степените на свобода n = n - 2. За да се отървете от изчислената работа, можете да използвате специална маса критични стойности на коефициентите на корелация на извадката(виж по-горе), съответстващо на наличието на надеждна връзка между факторите (като се вземе предвид н и а).

Таблица 7.3.

Гранични стойности на надеждността на коефициента на корелация на извадката

Броят на степените на свобода при определяне на коефициентите на корелация се приема равен на 2 (т.е. н= 2) Посочено в табл. Стойностите 7.3 имат по-ниски граници на доверие вярно коефициентът на корелация е 0, тоест с такива стойности не може да се твърди, че изобщо има корелация. Ако стойността на извадковия коефициент на корелация е по-висока от посочената в таблицата, може да се приеме, че истинският коефициент на корелация не е равен на нула при подходящо ниво на значимост.

Но отговорът на въпроса дали има реална връзка между разглежданите фактори оставя място за друг въпрос: в какъв интервал се истински смисъл коефициентът на корелация, какъвто всъщност може да бъде, за безкрайно голям н? Този интервал за всяка конкретна стойност rи нсравняваните фактори могат да бъдат изчислени, но е по-удобно да се използва графичната система ( номограма), където всяка двойка криви е конструирана за някои посочени по-горе н, съответства на границите на интервала.

Ориз. 7.4. Доверителни граници за коефициента на корелация на извадката (a = 0,05). Всяка крива съответства на тази над нея н.

Позовавайки се на номограмата на фиг. 7.4, е възможно да се определи диапазонът от стойности на истинския коефициент на корелация за изчислените стойности на коефициента на корелация на извадката при a = 0,05.

7.3.5. Корелационни отношения.Ако двойна корелация нелинейни, е невъзможно да се изчисли коефициентът на корелация, да се определи корелационни отношения ... Задължително изискване: знаците трябва да се измерват по скала на отношенията или в скала от интервали. Можете да изчислите корелационната зависимост на фактора хот фактор Йи корелационната зависимост на фактора Йот фактор х- те се различават. С малък обем н от разглежданите проби, представляващи факторите, за изчисляване на корелационните съотношения можете да използвате формулите:

съотношение на корелация h x ½ y= ;

съотношение на корелация h y ½ х= .

Тук и са средните аритметични на извадките X и Y, и - вътрешнокласов аритметични средни. Тоест - средноаритметичната стойност на тези стойности в извадката на фактор X, с която същите стойности са конюгирани в извадката на фактор Y (например, ако фактор X съдържа стойности 4, 6 и 5, с които 3 варианта със същата стойност от 9 са конюгирани в извадката на фактор Y, тогава = (4 + 6 + 5) ½ 3 = 5). Съответно - средноаритметичната стойност на тези стойности в извадката на фактор Y, с които са свързани същите стойности в извадката на фактор X. Нека дадем пример и да изчислим:

NS: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4

Таблица за изчисление

x i y i x y x i - x (x i - x) 2 x i - x y (x ix y) 2
–4 –1
–2
–3 –2
–1
–3
х = 79 y = 43 S = 76 S = 28

Следователно, h y ½ x= "0,63.

7.3.6. Частични и множествени коефициенти на корелация.За да оценим връзката между 2 фактора, изчислявайки коефициентите на корелация, ние като че ли приемаме по подразбиране, че никакви други фактори не оказват влияние върху тази връзка. В действителност това не е така. Така че връзката между теглото и височината е много значително повлияна от калориен прием, количеството системна физическа активност, наследствеността и т.н. Когато е необходимо при оценка на връзката между 2 фактора вземете предвид значителното въздействиедруги фактори и в същото време да се изолира от тях, считайки ги за непроменени, изчисли частен (в противен случай - частичен ) коефициенти на корелация.

Пример: трябва да оцените сдвоените връзки между 3 по същество действащи фактора X, Y и Z. r XY (Z) е частичен (частичен) коефициент на корелация между фактори X и Y (докато стойността на фактор Z се счита за непроменена), r ZX (Y) - частичен коефициент на корелация между факторите Z и X (с постоянна стойност на фактор Y), r YZ (X) - частичен коефициент на корелация между факторите Y и Z (при еднаква стойност на фактор X). Използване на изчислените прости сдвоени (според Bravais-Pearson) корелационни коефициенти r XY, r XZ и r YZ, м

Можете да изчислите частичните (частични) коефициенти на корелация по формулите:

r XY - r XZ ´ r YZ r XZ - r XY ´ r ZY r ZY –r ZX ´ r YZ

r XY (Z) =; r XZ (Y) =; r ZY (X) =

Ö (1– r 2 XZ) (1– r 2 YZ) Ö (1– r 2 XY) (1– r 2 ZY) Ö (1– r 2 ZX) (1– r 2 YX)

А коефициентите на частична корелация могат да приемат стойности от –1 до +1. Като ги възведем на квадрат, получаваме съответните частни детерминационни коефициенти също наричан частни мерки за сигурност(умножавайки по 100, изразяваме в %%). Частичните коефициенти на корелация се различават повече или по-малко от простите (пълни) сдвоени коефициенти, което зависи от силата на влиянието на третия фактор върху тях (като че ли непроменен). Тества се нулевата хипотеза (H 0), тоест хипотезата за липса на връзка (зависимост) между факторите X и Y (с общия брой характеристики к) чрез изчисляване на t-критерия по формулата: T P = r XY (Z) ´ ( н–К) 1 ½ 2 ´ (1– r 2 XY (Z)) –1 ½ 2 .

Ако TР< T a n, хипотезата е приета (считаме, че няма зависимост), но ако T P ³ T a n - хипотезата е опровергана, тоест се смята, че зависимостта наистина се осъществява. T a n се взема от таблицата T- Критерий на ученика, и к- броят на взетите под внимание фактори (в нашия пример 3), броят на степените на свобода н= n - 3. Други коефициенти на частична корелация се проверяват по подобен начин (във формулата вместо r XY (Z) е съответно заместен r XZ (Y) или r ZY (X)).

Таблица 7.5

Първоначални данни

Ö (1 - 0,71 2) (1 - 0,71 2) Ö (1 - 0,5) (1 - 0,5)

За да се оцени зависимостта на фактора X от комбинираното действие на няколко фактора (тук фактори Y и Z), се изчисляват стойностите на коефициентите на корелация на прости двойки и се изчисляват с тяхна помощ. коефициент на множествена корелация r X (YZ):

Ö r 2 XY + r 2 XZ - 2 r XY ´ r XZ ´ r YZ

r X (YZ) = .

Ö 1 - r 2 YZ

7.2.7. Коефициент на асоцииране.Често се изисква количествено определяне на връзката между качествознаци, т.е. такива характеристики, които не могат да бъдат представени (характеризирани) количествено, които неизмерим... Например, задачата е да се установи дали има връзка между спортната специализация на занимаващите се и такива личностни свойства като интровертност (ориентацията на индивида към явленията на собствения му субективен свят) и екстроверсия (ориентацията на индивидуално към света на външните обекти). Легендата е представена в табл. 7.6.

Таблица 7.6.

X (години) Y (пъти) Z (пъти) X (години) Y (пъти) Z (пъти)
Функция 1 Характеристика 2 Интроверсия Екстроверсия
Спортни игри а б
Гимнастика с д

Очевидно само честотите на разпространение могат да бъдат числата, с които разполагаме. В този случай изчислете коефициент на асоцииране (друго име " коефициент на непредвидена ситуация "). Помислете за най-простия случай: връзката между две двойки характеристики, докато изчисленият коефициент на случайност се нарича тетрахоричен (виж таблицата).

Таблица 7.7.

а = 20 b = 15 а + б = 35
c = 15 d = 5 ° С + д = 20
а + ° С = 35 б + д = 20 н = 55

Изчисленията се правят по формулата:

обява - пр. н. е. 100 - 225 –123

Изчисляването на коефициенти на асоцииране (коефициенти на конюгиране) с по-голям брой характеристики се свързва с изчисления, използващи подобна матрица от съответния ред.

Корелационният критерий на Пиърсън е метод на параметрична статистика, който ви позволява да определите наличието или отсъствието на линейна връзка между два количествени показателя, както и да оцените неговата близост и статистическа значимост. С други думи, корелационният тест на Pearson ви позволява да определите дали има линейна връзка между промените в стойностите на две променливи. В статистическите изчисления и заключения коефициентът на корелация обикновено се обозначава като r xyили R xy.

1. История на развитието на корелационния критерий

Корелационният критерий на Пиърсън е разработен от екип британски учени, ръководен от Карл Пиърсън(1857-1936) през 90-те години на 19 век, за да опрости анализа на ковариацията на две случайни променливи. Освен Карл Пиърсън, те са работили и по корелационния критерий на Пиърсън. Франсис Еджуърти Рафаел Уелдън.

2. За какво се използва корелационният тест на Пиърсън?

Критерият за корелация на Pearson ви позволява да определите каква е плътността (или силата) на корелацията между два показателя, измерени в количествена скала. С помощта на допълнителни изчисления можете също да определите колко статистически значима е идентифицираната връзка.

Например, използвайки корелационния критерий на Пиърсън, може да се отговори на въпроса за съществуването на връзка между телесната температура и съдържанието на левкоцити в кръвта при остри респираторни инфекции, между височината и теглото на пациента, между съдържанието на флуорид в питейната вода и заболеваемостта от кариес сред населението.

3. Условия и ограничения на теста хи-квадрат на Пиърсън

  1. Сравнимите показатели трябва да се измерват в количествен мащаб(например пулс, телесна температура, брой бели кръвни клетки в 1 ml кръв, систолно кръвно налягане).
  2. Чрез корелационния критерий на Пиърсън е възможно да се определи само наличието и силата на линейна връзкамежду количествата. Други характеристики на връзката, включително посоката (напред или назад), естеството на промените (прави или криволинейни), както и зависимостта на една променлива от друга, се определят чрез регресионен анализ.
  3. Броят на сравняваните стойности трябва да бъде равен на две. В случай на анализиране на връзката на три или повече параметъра, трябва да използвате метода факторен анализ.
  4. Корелационният критерий на Пиърсън е параметричен, във връзка с което условието за прилагането му е нормална дистрибуциясъвпадащи променливи. Ако е необходим корелационен анализ за показатели, чието разпределение се различава от нормалното, включително тези, измерени по порядкова скала, трябва да се използва коефициентът на корелация на ранга на Спирман.
  5. Необходимо е ясно да се разграничат понятията зависимост и корелация. Зависимостта на величините определя наличието на корелация между тях, но не и обратното.

Например ръстът на детето зависи от неговата възраст, тоест колкото по-голямо е детето, толкова е по-високо. Ако вземем две деца на различна възраст, тогава с голяма степен на вероятност растежът на по-голямото дете ще бъде по-голям от този на по-малкото. Това явление се нарича пристрастяване, което предполага причинно-следствена връзка между показателите. Разбира се, между тях има корелационна връзка, което означава, че промените в един индикатор са придружени от промени в друг индикатор.

В друга ситуация помислете за връзката между растежа на детето и сърдечната честота (HR). Както знаете, и двете стойности пряко зависят от възрастта, следователно в повечето случаи децата с по-голям ръст (и следователно по-възрастни) ще имат по-ниски стойности на сърдечната честота. Това е, корелационна връзкаще се наблюдава и може да има доста висока плътност. Ако обаче вземем деца същата възраст, но различни височини, тогава най-вероятно сърдечната им честота ще се различава незначително, във връзка с което може да се заключи, че независимост HR от растеж.

Този пример показва колко е важно да се прави разлика между основните понятия в статистиката връзкии зависимостииндикатори за изграждане на правилни заключения.

4. Как да изчислим коефициента на корелация на Пиърсън?

Коефициентът на корелация на Пиърсън се изчислява по следната формула:

5. Как да интерпретираме стойността на коефициента на корелация на Пиърсън?

Стойностите на коефициента на корелация на Пиърсън се интерпретират въз основа на неговите абсолютни стойности. Възможните стойности на коефициента на корелация варират от 0 до ± 1. Колкото по-голяма е абсолютната стойност на r xy, толкова по-голяма е плътността на връзката между двете стойности. r xy = 0 показва пълна липса на комуникация. r xy = 1 - показва наличието на абсолютна (функционална) връзка. Ако стойността на корелационния критерий на Пиърсън се оказа повече от 1 или по-малка от -1, в изчисленията е допусната грешка.

За да се оцени плътността или силата на корелацията, обикновено се използват общоприети критерии, според които абсолютните стойности на r xy< 0.3 свидетельствуют о слабвръзка, r xy стойности от 0,3 до 0,7 - за връзката среденхерметичност, r xy стойности> 0,7 - o силенкомуникация.

По-точна оценка на силата на корелацията може да се получи чрез използване на Чадок маса:

Оценка статистическа значимосткоефициентът на корелация r xy се извършва с помощта на t-критерия, изчислен по следната формула:

Получената стойност на t r се сравнява с критичната стойност при определено ниво на значимост и броя на степените на свобода n-2. Ако t r надвишава t crit, тогава се прави извод за статистическата значимост на разкритата корелация.

6. Пример за изчисляване на коефициента на корелация на Пиърсън

Целта на изследването е да се идентифицира, определи стегнатостта и статистическата значимост на корелацията между два количествени показателя: нивото на тестостерон в кръвта (X) и процента на мускулна маса в тялото (Y). Изходните данни за извадка от 5 субекта (n = 5) са обобщени в таблицата.


Коефициенти на корелация

Досега само изяснявахме самия факт за съществуването на статистическа връзка между двата признака. След това ще се опитаме да разберем какви заключения могат да се направят за силата или слабостта на тази зависимост, както и за нейния вид и посока. Критериите за количествено определяне на връзката между променливите се наричат ​​коефициенти на корелация или мерки за свързаност. Две променливи са положително корелирани една с друга, ако има пряка, еднопосочна връзка между тях. В еднопосочна връзка малки стойности на една променлива съответстват на малки стойности на друга променлива, големите стойности съответстват на големи. Две променливи са в отрицателна корелация една с друга, ако има обратна, многопосочна връзка между тях. В многопосочна връзка малки стойности на една променлива съответстват на големи стойности на друга променлива и обратно. Стойностите на коефициента на корелация винаги са в диапазона от -1 до +1.

Като коефициент на корелация между променливите, принадлежащи на редовенприложена скала Коефициент на Спирман, и за променливи, принадлежащи на интервалмащаб - Коефициент на корелация на Пиърсън(момент на работа). Трябва да се има предвид, че всяка дихотомична променлива, тоест променлива, принадлежаща към номиналната скала и имаща две категории, може да се разглежда като редовен.

Първо ще проверим дали има връзка между променливите пол и психика от файла studium.sav. В този случай дихотомната променлива сексможе да се счита за ред. Следвай тези стъпки:

    Изберете Crosstabs ... от командната лента Анализ

    Прехвърлете променливата секскъм списък с низове и променливата психика- към списъка с колони.

    Щракнете върху бутона Статистика... (Статистика). В диалоговия прозорец Crosstabs: Statistics поставете отметка в квадратчето Корелации. Потвърдете избора си с бутона Продължи.

    В диалог Кръстосани таблицине отпечатвайте таблици, като поставите отметка в квадратчето Потискане на таблиците. Щракнете върху бутона OK.

Ще бъдат изчислени коефициентите на корелация на Спиърман и Пиърсън и ще се провери тяхната значимост:

Симетрични мерки

Стойност Asympt. Std. Грешка (а) (Асимптотична стандартна грешка) Прибл. T (b) (Прибл. T) Прибл. Сиг. (Приблизително значение)
Интервал по интервал Пиърсън Р
(R Pearson)
,441 ,081 5,006 , 000 (s)
Порядков по ред Корелация на Спиърман ,439 ,083 4,987 , 000 (s)
N валидни случаи 106

Тъй като тук няма променливи в интервална скала, ще разгледаме коефициента на корелация на Спирман. Тя е 0,439 и е най-значимата (стр<0,001).

За словесно описание на стойностите на коефициента на корелация се използва следната таблица:

Въз основа на горната таблица могат да се направят следните изводи: Има слаба корелация между променливите пол и психика (заключение за силата на зависимостта), променливите са положително корелирани (заключение за посоката на зависимост).

В психическата променлива по-ниските стойности съответстват на отрицателно психическо състояние, а големите стойности на положително. В променливия пол от своя страна стойността "1" съответства на женския пол, а "2" на мъжкия.

Следователно еднопосочността на връзката може да се тълкува по следния начин: студентки оценяват психическото си състояние по-отрицателно от колегите си мъже или най-вероятно те са по-склонни да се съгласят с такава оценка при провеждане на въпросник. корелация между две черти не е непременно същите като функционални или причинни, вижте раздел 15.3 за подробности.

Сега нека проверим корелацията между променливите alter и semester. Нека приложим техниката, описана по-горе. Ще получим следните коефициенти:

Симетрични мерки

Asympt. Std. Грешка (а)

Интервал по интервал

Порядков по ред

Корелация на Спиърман

N валидни случаи

а. Без да се приема нулевата хипотеза.

NS Използване на асимптотичната стандартна грешка, като се приема нулевата хипотеза.

с. Въз основа на нормално приближение.

Тъй като променливите alter и semester са метрични, ще разгледаме коефициента на Пиърсън (момента на продуктите). Това е 0,807. Има силна корелация между променливите alter и semester. Променливите са положително корелирани. Следователно по-големите ученици учат в старшите години, което всъщност не е неочаквано заключение.

Нека проверим социалните и психическите променливи за корелация. Ще получим следните коефициенти:

Симетрични мерки

Asympt. Std. Грешка (а)

Интервал по интервал

Порядков по ред

Корелация на Спиърман

N валидни случаи

а. Без да се приема нулевата хипотеза.

б. Използване на асимптотичната стандартна грешка, като се приема нулевата хипотеза.

с. Въз основа на нормално приближение.

В този случай ще разгледаме коефициента на корелация на Спирман; е -0,703. Съществува умерена до силна корелация между променливите sozial и психика (граница стойност 0,7). Променливите са в отрицателна корелация, тоест колкото по-голяма е стойността на първата променлива, толкова по-малка е стойността на втората и обратно. Тъй като малките стойности на социалната променлива характеризират положително състояние (1 = много добро, 2 = добро) и големи стойности на психиката, отрицателно състояние (1 = изключително нестабилно, 2 = нестабилно), следователно, психологически затруднения до голяма степен се дължат на социални проблеми.

Коефициентът на корелация е степента на връзката между две променливи. Изчислението му дава представа дали има връзка между двата набора от данни. За разлика от регресията, корелацията не предсказва стойностите на количествата. Изчисляването на коефициента обаче е важна стъпка в предварителния статистически анализ. Така например установихме, че коефициентът на корелация между нивото на преките чуждестранни инвестиции и темпа на растеж на БВП е висок. Това ни дава идеята, че за да се осигури просперитет, е необходимо да се създаде благоприятен климат специално за чуждестранните предприемачи. Не толкова очевидно заключение на пръв поглед!

Корелация и причинно-следствена връзка

Може би няма нито една сфера на статистиката, която би се закрепила толкова здраво в живота ни. Коефициентът на корелация се използва във всички области на общественото знание. Основната му опасност се крие във факта, че често се спекулират високите му стойности, за да се убедят хората и да се накарат да повярват в някои заключения. В действителност обаче силната корелация изобщо не показва причинно-следствена връзка между количествата.

Коефициент на корелация: формула на Пиърсън и Спиърман

Има няколко основни индикатора, които характеризират връзката между две променливи. Исторически, първият е коефициентът на линейна корелация на Пиърсън. Провежда се в училище. Тя е разработена от К. Пиърсън и Дж. Юл въз основа на произведенията на о. Галтън. Този коефициент ви позволява да видите връзката между рационалните числа, които се променят рационално. Винаги е по-голямо от -1 и по-малко от 1. Отрицателно число показва обратна връзка. Ако коефициентът е нула, тогава няма връзка между променливите. Равно на положително число - има правопропорционална връзка между изследваните стойности. Коефициентът на корелация на ранга на Спирман опростява изчисленията чрез изграждане на йерархия от променливи стойности.

Връзки между променливи

Корелацията помага да се отговори на два въпроса. Първо, връзката между променливите е положителна или отрицателна. Второ, колко силна е зависимостта. Анализът на корелацията е мощен инструмент, с който можете да получите тази важна информация. Лесно е да се види, че доходите и разходите на домакинствата намаляват и нарастват пропорционално. Тази връзка се счита за положителна. Напротив, когато цената на даден продукт се покачва, търсенето за него пада. Тази връзка се нарича отрицателна. Стойностите на коефициента на корелация са в диапазона между -1 и 1. Нула означава, че няма връзка между изследваните стойности. Колкото по-близо е полученият индикатор до екстремните стойности, толкова по-силна е връзката (отрицателна или положителна). Липсата на зависимост се доказва от коефициента от -0,1 до 0,1. Трябва да се разбере, че такава стойност показва само липсата на линейна връзка.

Характеристики на приложението

Използването на двата индикатора включва определени допускания. Първо, наличието на силна връзка не води до факта, че едно количество определя друго. Възможно е да има трета величина, която определя всяка от тях. Второ, високият коефициент на корелация на Пиърсън не показва причинно-следствена връзка между изследваните променливи. Трето, показва изключително линейна връзка. Корелацията може да се използва за оценка на значими количествени данни (напр. атмосферно налягане, температура на въздуха), а не категории като пол или любим цвят.

Коефициент на множествена корелация

Пиърсън и Спиърман изследват връзката между двете променливи. Но как да действаме, ако има три или дори повече. Тук идва коефициентът на множествена корелация. Така например брутният национален продукт се влияе не само от преките чуждестранни инвестиции, но и от паричната и фискалната политика на държавата, както и от нивото на износа. Темпът на растеж и обемът на БВП са резултат от взаимодействието на редица фактори. Трябва обаче да се разбере, че моделът на множествена корелация се основава на редица опростявания и допускания. Първо, мултиколинеарността между количествата се елиминира. Второ, връзката между зависимите и влияещите променливи се счита за линейна.

Области на използване на корелационния и регресионния анализ

Този метод за намиране на връзката между стойностите се използва широко в статистиката. Най-често се прибягва до три основни случая:

  1. За тестване на причинно-следствената връзка между стойностите на две променливи. В резултат на това изследователят се надява да намери линейна връзка и да изведе формула, която описва тези връзки между количествата. Техните мерни единици могат да бъдат различни.
  2. За да проверите дали има връзка между стойностите. В този случай никой не определя коя променлива е зависима. Може да се окаже, че стойността на двете величини определя някакъв друг фактор.
  3. За да изведем уравнението. В този случай можете просто да замените числа в него и да разберете стойностите на неизвестната променлива.

Човек в търсене на причинно-следствена връзка

Съзнанието е подредено по такъв начин, че определено трябва да обясним събитията, които се случват наоколо. Човек винаги търси връзка между картината на света, в който живее, и информацията, която получава. Често мозъкът създава ред от хаоса. Той лесно може да види причинно-следствена връзка там, където няма такава. Учените трябва специално да се научат да преодоляват тази тенденция. Способността да се оценяват обективно връзките между данните е от съществено значение в академичната кариера.

Медийна пристрастност

Помислете как наличието на корелация може да бъде тълкувано погрешно. Група британски студенти с лошо поведение бяха попитани дали родителите им пушат. Тогава тестът беше публикуван във вестника. Резултатът показа силна връзка между тютюнопушенето на родителите и престъпността на децата им. Професорът, който проведе това проучване, дори предложи да се постави предупреждение върху кутиите цигари за това. Има обаче редица проблеми с това заключение. Първо, корелацията не показва коя от величините е независима. Следователно е напълно възможно да се предположи, че пристрастяването на родителите е причинено от неподчинението на децата. Второ, не може да се каже със сигурност, че и двата проблема не са се появили поради някакъв трети фактор. Например семейства с ниски доходи. Трябва да се отбележи емоционалният аспект на първоначалните констатации на професора, който е провел изследването. Той беше пламенен противник на тютюнопушенето. Затова не е изненадващо, че той интерпретира резултатите от своето изследване по този начин.

заключения

Погрешното тълкуване на корелацията като причинно-следствена връзка между две променливи може да доведе до неудобни грешки в изследването. Проблемът е, че той лежи в самата сърцевина на човешкото съзнание. Много маркетингови трикове се основават на тази функция. Разбирането на разликата между причинно-следствената връзка и корелацията ви позволява да анализирате рационално информация както в ежедневието, така и в професионалната си кариера.

 


Прочети:



Стипендия на правителството на Руската федерация в приоритетни области на модернизация и технологично развитие на руската икономика

Стипендия на правителството на Руската федерация в приоритетни области на модернизация и технологично развитие на руската икономика

Президентската стипендия получи законодателно одобрение още по времето на първия владетел на Русия Б.Н. Елцин. По това време тя е назначена само за...

Помощ за кандидатите: как да получите целево направление за обучение в университет

Помощ за кандидатите: как да получите целево направление за обучение в университет

Здравейте скъпи читатели на сайта на блога. Днес бих искал да напомня или да кажа на кандидатите за целевата посока, нейните плюсове и минуси ...

Подготовка за изпит за прием в mithi

Подготовка за изпит за прием в mithi

МИФИ (Московски инженерно-физически институт) е една от първите научноизследователски образователни институции в Русия. За 75 години МИФИ...

Онлайн лихвен калкулатор

Онлайн лихвен калкулатор

Вграденият математически калкулатор ще ви помогне да извършите най-простите изчисления: умножение и събиране, изваждане и деление ...

feed-image Rss