Реклама

У дома - Вербер Бернар
Метод на малки проби. Статистика с малка извадка. Методи за избор на единици от общата съвкупност

Статистика с малка извадка

Общоприето е, че началото на С. на м. Век. или, както често се нарича, статистиката на "малките n", е положена през първото десетилетие на XX век с публикуването на работата на У. Госет, в която той поставя t-разпределението, постулирано от " студент“, който получи малко по-късно световна слава. По това време Госет работи като статистик в пивоварните Гинес. Едно от задълженията му беше да анализира входящите пратки от бурета с прясно сварен портиер. По причина, която никога не е обяснил, Госет експериментира с идеята за драстично намаляване на броя на пробите, взети от много големия брой бъчви в складовете на пивоварната, за да контролира селективно качеството на портиера. Това го накара да постулира t-разпределението. Тъй като хартата на пивоварната на Гинес забранява публикуването на резултати от изследвания от работниците на Гинес, Госет публикува резултатите от своя експеримент, сравнявайки контрола на качеството на пробите, използвайки t-разпределението за малки проби и традиционното z-разпределение (нормално разпределение) анонимно, под псевдонима Студент - откъде идва името на t-разпределението на Студент).

t-разпределение. Теорията на t-разпределението, подобно на теорията за z-разпределението, се използва за тестване на нулевата хипотеза, че две извадки са просто произволни извадки от една и съща популация и следователно изчислените статистически данни (например средна стойност и стандартно отклонение) са безпристрастни. оценки на параметрите от общото население. Въпреки това, за разлика от теорията на нормалното разпределение, теорията на t-разпределението за малки извадки не изисква априорни познания или точни оценки на математическото очакване и дисперсията на общата съвкупност. Освен това, докато тестването на разликата между средните стойности на две големи извадки за статистическа значимост изисква фундаментално допускане за нормалното разпределение на характеристиките на съвкупността, теорията на t-разпределението не изисква допускания за параметрите.

Добре известно е, че нормално разпределените характеристики се описват с една единствена крива - Гаусовата крива, която удовлетворява следното уравнение:

За t-разпределението цялото семейство от криви се представя със следната формула:

Ето защо уравнението за t включва гама функция, което в математиката означава, че когато n се промени, различна крива ще удовлетвори даденото уравнение.

Степени на свобода

В уравнението за t буквата n означава броя на степените на свобода (df), свързани с оценката на дисперсията на общата съвкупност (S2), която представлява втория момент на всяка генерираща моментна функция, като напр. , уравнението за t-разпределението. В S. броят на степените на свобода показва колко характеристики са останали свободни след частичното им използване в определен тип анализ. В t-разпределението едно от отклоненията от средната стойност на извадката винаги е фиксирано, тъй като сумата от всички такива отклонения трябва да бъде нула. Това се отразява на сумата от квадрати при изчисляване на дисперсията на извадката като безпристрастна оценка на S2 и води до df, равно на броя на измерванията минус едно за всяка извадка. Следователно във формулите и процедурите за изчисляване на t-статистика за проверка на нулевата хипотеза df = n - 2.

F-pacnpe разделяне. Нулевата хипотеза, тествана от t-теста, е, че две проби са взети на случаен принцип от една и съща популация или са взети на случаен принцип от две различни популации със същата дисперсия. Ами ако трябва да анализирате повече групи? Отговорът на този въпрос се търси в продължение на двадесет години, след като Госет открива t-разпределението. Двама от най-видните статистици на ХХ век са участвали пряко в получаването му. Единият е видният английски статистик Р. А. Фишър, който предложи първите теоретици. формулировки, чието разработване доведе до F-разпределение; неговата работа по теория на малките извадки, развиваща идеите на Госет, е публикувана в средата на 20-те години на миналия век (Fisher, 1925). Другият е Джордж Снедекор, един от най-ранните американски статистици, който разработи начин за сравняване на две независими извадки от всякакъв размер чрез изчисляване на съотношението на две оценки на дисперсията. Той нарече това съотношение F-отношение на името на Фишър. Резултати от issled. Snedecor доведе до факта, че F-разпределението започна да се определя като разпределение на съотношението на две статистики c2, всяка със свои собствени степени на свобода:

От това произлиза класическата работа на Фишър за анализ на дисперсията, статистически метод, изрично фокусиран върху анализа на малки проби.

Примерното разпределение F (където n = df) е представено от следното уравнение:

Както при t-разпределението, гама функцията показва, че има семейство от разпределения, които удовлетворяват уравнението за F. В този случай обаче анализът включва две величини на df: броя на степените на свобода за числителя и за знаменателят на F-отношението.

Таблици за оценка на t- и F-статистики. При тестване на нулевата хипотеза с S., базирана на теорията на големите проби, обикновено се изисква само една справочна таблица - таблицата на стандартните отклонения (z), която ви позволява да определите площта под нормалната крива между всякакви две z-стойности по абсцисата. Въпреки това, таблиците за t- и F-разпределенията по необходимост са представени от набор от таблици, тъй като тези таблици се основават на набор от разпределения, получени чрез промяна на броя на степените на свобода. Въпреки че t- и F-разпределението са разпределения на плътността на вероятностите, подобно на нормалното разпределение за големи проби, те се различават от последните по отношение на четирите точки, използвани за тяхното описание. t-разпределението, например, е симетрично (забележете t2 в неговото уравнение) за всички df, но става по-връх, когато размерът на извадката намалява. Пиковите криви (с по-голям от нормалния ексцес) обикновено са по-малко асимптотични (т.е. по-малко се приближават до абсцисата в краищата на разпределението), отколкото кривите с нормален ексцес, като кривата на Гаус. Тази разлика води до забележими несъответствия между точките на абсцисата, съответстващи на стойностите t и z. При df = 5 и двустранно ниво a равно на 0,05, t = 2,57, докато съответното z = 1,96. Следователно t = 2,57 показва статистическа значимост на ниво 5%. Въпреки това, в случай на нормална крива, z = 2,57 (по-точно 2,58) вече ще показва 1% ниво на статистическа значимост. Подобни сравнения могат да се направят с F-разпределението, тъй като t е равно на F, когато броят на пробите е два.

Какво представлява „малка“ извадка?

Едно време беше повдигнат въпросът колко трябва да има извадката, за да се счита за малка. Просто няма категоричен отговор на този въпрос. Въпреки това, df = 30 се счита за условна граница между малка и голяма извадка. Основата за това, до известна степен, на произволно решение е резултат от сравняването на t-разпределението с нормалното разпределение. Както беше отбелязано по-горе, несъответствието между стойностите на t и z има тенденция да се увеличава с намаляване и намалява с увеличаване на df. Всъщност t започва да се доближава до z много преди граничния случай, когато t = z при df = ∞. Прост визуален преглед на табличните стойности на t разкрива, че това приближение става доста бързо от df = 30 и нагоре. Сравнителните стойности на t (при df = 30) и z са равни, съответно: 2,04 и 1,96 за p = 0,05; 2,75 и 2,58 за p = 0,01; 3,65 и 3,29 за p = 0,001.

Други статистики за "малки" извадки

Въпреки че статистическите тестове като t и F са специално проектирани да се прилагат към малки проби, те са еднакво приложими и за големи проби. Съществуват обаче много други статистически методи за анализ на малки проби и често се използват точно за тази цел. Това се отнася за т.нар. непараметрични методи или методи без разпределение. По принцип цифрите на S. в тези методи са предназначени да се прилагат към измервания, получени с помощта на скали, които не отговарят на определението за скали на съотношения или интервали. Най-често това са ординални (ранг) или номинални измервания. Непараметричните S. не изискват предположения за параметрите на разпределението, по-специално за оценките на дисперсията, тъй като порядковите и номиналните скали изключват самото понятие за дисперсия. Поради тази причина непараметричните методи се използват и за измервания, получени чрез интервални и съотношителни скали, когато се анализират малки проби и има възможност да бъдат нарушени основните допускания, необходими за прилагането на параметрични методи. Такива S., които могат разумно да се прилагат към малки проби, включват: тест за точна вероятност на Фишер, двуфакторен непараметричен (ранг) ANOVA на Фридман, коефициент на корелация на ранг на Кендъл, коефициент на съгласуване на Кендъл (W), H-тест на Крускал - Уолъс за непараметрични (ранг) едновариантен анализ на дисперсията, U-тест на Ман-Уитни, тест за медиана, тест за знаци, коефициент на корелация на ранг на Спирман и t-тест на Уилкоксън.

В процеса на оценка на степента на представителност на данните от наблюдението на извадката, въпросът за размера на извадката става важен. примерно преизчисление студент съотношение

Влияе не само върху стойността на границите, които с дадена вероятност няма да надхвърли грешката на извадката, но и върху начините за определяне на тези граници.

При голям брой единици от извадковата съвкупност (), разпределението на случайните грешки на извадката средно в съответствие с Теорема на Ляпунов нормално или се доближава до нормалното с увеличаване на броя на наблюденията.

Вероятността грешка да надхвърли определени граници се оценява въз основа на таблици Интеграл на Лаплас ... Изчисляването на грешката на извадката се основава на стойността на общата дисперсия, тъй като при големи коефициенти, по които се умножава извадката, за да се получи общата дисперсия, не играе голяма роля.

В практиката на статистическите изследвания често се налага да се работи с малки, така наречени малки извадки.

Под малка извадка се разбира такова извадково наблюдение, чийто брой единици не надвишава 30.

Разработването на теория за малка извадка е започнато от английски статистик СРЕЩУ. Госет (отпечатано под псевдонима Студент ) през 1908 г. Той доказа, че оценката на несъответствието между средната стойност на малка извадка и общата средна стойност има специален закон за разпределение.

За да определите възможните граници на грешки, използвайте т.нар t критерий на студента, определя се по формулата

където е мярката за случайни флуктуации в средната стойност на извадката в

малка извадка.

Стойността се изчислява въз основа на извадкови данни от наблюдение:

Тази стойност се използва само за изследваната популация, а не като приблизителна оценка в общата съвкупност.

С малък размер на извадката, разпределението Студентски се различава от нормалното: големите стойности на критерия имат по-голяма вероятност тук, отколкото при нормално разпределение.

Граничната грешка на малка извадка в зависимост от средната грешка е представена като

Но в този случай величината е различно свързана с вероятната оценка, отколкото с голяма извадка.

Според разпределението Студентски , вероятната оценка зависи както от размера, така и от размера на извадката, ако пределната грешка не надвишава средната грешка в малки проби.

Таблица 3.1 Разпределение на вероятностите в малки извадки в зависимост от върху коефициента на доверие и размер на извадката


Както се вижда от раздел. 3.1 , с увеличаване, това разпределение клони към нормално и когато вече се различава малко от него.

Нека покажем как да използваме таблицата за разпределение на ученика.

Да предположим, че едно извадково проучване на работниците в малко предприятие показва, че работниците прекарват време (мин.) за извършване на една от производствените операции:. Нека намерим примерните средни разходи:

Дисперсия на извадката

Оттук и средната грешка на малка извадка

от раздел. 3.1 установяваме, че за коефициента на доверие и размера на малка извадка вероятността е.

По този начин може с вероятност да се твърди, че несъответствието между извадката и общата средна стойност е в диапазона от до, т.е. разликата няма да надвишава () в абсолютна стойност.

Следователно средното време, прекарано в цялата популация, ще варира от до.

Вероятността това предположение да е действително неправилно и грешката по случайни причини да бъде по-голяма от, е равна на:.

Таблица на вероятностите Студентски често се дава в различна форма от тази в Таблица 3.1 ... Смята се, че в някои случаи тази форма е по-удобна за практическа употреба ( раздел. 3.2 ).

От раздел. 3.2 от това следва, че за всеки брой степени на свобода е посочена гранична стойност, която с дадена вероятност няма да бъде превишена поради случайни флуктуации в резултатите от извадката.

Основан на раздел. 3.2 се определят количествата доверителни интервали : и.

Това е областта на тези стойности на общата средна стойност, надхвърлянето на която има много малка вероятност, равна на:

Като доверителна вероятност при двустранна проверка, като правило, или се използва, което обаче не изключва избора на други, които не са изброени в раздел. 3.2 .

Таблица 3.2 Някои значения -Разпределение на учениците

Вероятностите за произволно излизане на изчислената средна стойност извън доверителния интервал ще бъдат съответно равни на и, т.е. са много малки.

Изборът между вероятностите е до известна степен произволен. Този избор до голяма степен се определя от съдържанието на онези задачи, за чието решение се използва малка извадка.

В заключение отбелязваме, че изчисляването на грешките в малка извадка се различава малко от подобни изчисления в голяма извадка. Разликата се състои във факта, че при малка извадка вероятността за нашето одобрение е малко по-малка, отколкото при по-голяма извадка (по-специално в горния пример и съответно).

Всичко това обаче не означава, че можете да използвате малка проба, когато имате нужда от голяма проба. В много случаи несъответствията между установените граници могат да достигнат значителни размери, което едва ли удовлетворява изследователите. Следователно малка извадка трябва да се използва при статистическо изследване на социално-икономическите явления с голяма предпазливост, с подходяща теоретична и практическа обосновка.

Така че заключенията, базирани на резултатите от малка извадка, са от практическо значение само ако разпределението на даден признак в общата популация е нормално или асимптотично нормално. Необходимо е също така да се вземе предвид фактът, че точността на резултатите от малка извадка все още е по-ниска, отколкото при голяма извадка.

Човек може да научи своите способности само като се опита да ги приложи. (Сенека)

Bootstrap, малки проби, приложения за анализ на данни

Основна идея

Методът bootstrap е предложен от Б. Ефрон като развитие на метода на сгъваемите ножове през 1979г.

Нека опишем основната идея на bootstrap.

Целта на анализа на данните е да се получат най-точните избирателеноценяват и разпространяват резултатите сред цялото население.

Техническият термин за числови данни, изградени от извадка, е извадкова статистика.

Основната описателна статистика е избирателенсредна стойност, медиана, стандартно отклонение и т.н.

Обобщените статистически данни като средна извадка, медиана и корелация ще варират от извадка до извадка.

Изследователят трябва да знае размера на тези отклонения в зависимост от популацията. Въз основа на това се изчислява границата на грешка.

Първоначалната картина на всички възможни стойности на извадкова статистика под формата на вероятностно разпределение се нарича извадково разпределение.

Ключът е размерътвземане на проби. Ами ако размерът на извадката е малък? Един интелигентен подход е да произволенизвличане на данни от наличната извадка.

Идеята зад бутстрапа е да се използват резултатите от изчисленията на извадки като „фиктивна съвкупност“, за да се определи извадковото разпределение на дадена статистика. Всъщност анализира голямброят на „призрачните“ проби, наречени начални проби.

Обикновено няколко хиляди извадки се генерират на случаен принцип, от този набор можете да намерите началното разпределение на статистиката, която ни интересува.

И така, да предположим, че имаме селекция, на първата стъпка ще изберем произволно един от елементите на селекцията, ще върнем този елемент към селекцията, отново ще изберем произволно елемент и т.н.

Повтаряме описаната процедура за произволен избор n пъти.

Буутстрапът извършва произволен избор с връщане,избраните членове на оригиналната селекция се връщав селекцията и по-нататък може да бъде избран отново.

Формално на всяка стъпка избираме елемент от оригиналната извадка с вероятност 1 / n.

Общо имаме n елемента от оригиналната извадка, вероятността да се получи извадка с числа (N 1 ... Nn), където Ni варира от 0 до n, се описва с полиномно разпределение.

Генерират се няколко хиляди такива проби, което е напълно постижимо за съвременните компютри.

За всяка извадка се изгражда оценка на количеството, представляващо интерес, след което оценките се осредняват.

Тъй като има много извадки, е възможно да се конструира емпирична функция на разпределение на оценките, след това да се изчислят квантилите и да се изчисли доверителен интервал.

Ясно е, че методът за стартиране е модификация на метода на Монте Карло.

Ако се генерират проби без връщанеелементи, се получава добре познатият метод на сгъваем нож.

Въпросът е: защо да правим това и кога е разумно методът да се използва в реалния анализ на данни?

В началния процес не получаваме нова информация, но използваме наличните данни разумно, въз основа на поставената задача.

Например може да се използва bootstrap за малъкпроби, за оценка на медианата, корелации, конструиране на доверителни интервали и в други ситуации.

Оригиналната работа на Ефрон разглежда оценки на корелация на двойки за размер на извадката от n = 15.

B = 1000 стартираща репликация се генерира.

На базата на получените коефициенти ro 1… ro B се изграждат обща оценка на коефициента на корелация и оценка на стандартното отклонение.

Стандартната грешка на коефициента на корелация на извадката, изчислена с помощта на нормалното приближение, е:

където коефициентът на корелация е 0,776, размерът на оригиналната извадка е n = 15.

Първоначалната оценка на стандартната грешка е 0,127, вижте Efron, Gall Gong, 1982.

Теоретична подготовка

Нека бъде целевият параметър на изследването, например средният доход в избраното общество.

За произволна извадка с размер получаваме набор от данни. Нека бъде съответната извадкова статистика

За повечето примерни статистически данни на адрес голямстойност (> 30), разпределението на извадката е нормална крива с център и стандартно отклонение, където положителен параметър зависи от популацията и вида на статистиката

Този класически резултат е известен като централна гранична теорема.

Често има сериозни технически трудности при оценката на необходимото стандартно отклонение от данните.

Например, ако Медианаили извадкова корелация.

Методът за стартиране преодолява тези трудности.

Идеята е проста: обозначаваме с произволна стойност, която е същата статистика, изчислена от началната извадка, която е получена от оригиналната извадка

Какво ще кажете за разпределението на извадката, ако „оригиналната“ извадка е фиксирана?

В границата разпределението на извадката също е камбановидно с параметри и

По този начин началното разпределение е добро приближение на разпределението на извадката

Имайте предвид, че когато преминаваме от една извадка към друга, се променя само изразът, тъй като се изчислява от

Това по същество е начална версия на централната пределна теорема.

Установено е също, че ако ограничителното разпределение на извадката на статистическа функция не включва неизвестни популации, първоначалното разпределение позволява да се получи по-добро приближение към разпределението на извадката от централната гранична теорема.

По-специално, когато статистическата функция има формата, където чрез означава истинската или извадкова оценка на стандартната грешка, докато пределното разпределение на извадката обикновено е стандартно нормално.

Този ефект се нарича начална корекция от втори ред.

Нека т.е. средната за населението, т.е. средна стойност за извадката; е стандартното отклонение в популацията, е стандартното отклонение на извадката, изчислено от първоначалните данни, и е изчисленото от началната извадка.

Тогава извадковото разпределение на количеството където, ще бъде апроксимирано от началното разпределение, където е средното за началната извадка,.

По същия начин, разпределението на извадката ще бъде апроксимирано от началното разпределение, където.

Първите резултати от корекция от втори ред са публикувани от Babu и Singh през 1981-83.

Bootstrap приложения

Апроксимация на стандартната грешка на извадковата оценка

Да предположим, че за популацията параметърът е известен

Нека е оценка, направена на базата на произволна извадка с размер, т.е. това е функция на Тъй като извадката се променя в набора от всички възможни проби, за оценка на стандартната грешка се използва следният подход:

Нека да изчислим, използвайки същата формула, използвана за, но този път въз основа на различни проби за стартиране с размер всяка. Грубо казано, може да се вземе, ако не е много голям. В този случай може да се сведе до нвътрешен н... Тогава може да се определи, изхождайки всъщност от същността на метода за стартиране: популацията (извадката) се заменя с емпирична популация (извадка).

Байесова корекция с помощта на метода за стартиране

Средната стойност на извадковото разпределение често зависи от обикновено както за голямо, т.е. байесово приближение:

къде са началните копия. Тогава коригираната стойност ще бъде -

Струва си да се отбележи, че предишният метод за повторна семплиране, наречен метод на ножа, е по-популярен.

Доверителни интервали

Доверителните интервали (CI) за даден параметър са диапазони, базирани на извадка.

Този диапазон има свойството, че стойността му принадлежи с много висока (предварително определена) вероятност. Това се нарича ниво на значимост. Разбира се, тази вероятност трябва да се отнася за всяка извадка от възможните, тъй като всяка проба допринася за определянето на доверителния интервал. Двете най-често използвани нива на значимост са 95% и 99%. Тук ще се ограничим до 95%.

Традиционно CI зависят от извадковото разпределение на стойността по-точно в границата. Има два основни типа доверителни интервали, които могат да бъдат конструирани с помощта на bootstrap.

Процентилен метод

Този метод вече беше споменат във въведението, той е много популярен поради своята простота и естественост. Да предположим, че имаме 1000 начални копия, обозначаваме ги с Тогава стойностите от диапазона ще попаднат в доверителния интервал. Връщайки се към теоретичната обосновка на метода, заслужава да се отбележи, че той изисква симетрия на извадковото разпределение наоколо. Причината за това е, че методът приближава разпределението на извадката използвайки началното разпределение, въпреки че логично се оказва, че то трябва да бъде апроксимирано със стойност, която е противоположна по знак.

Центриран метод на персентил за стартиране

Да предположим, че разпределението на извадката е апроксимирано с помощта на началното разпределение, тоест, както първоначално се приема при първоначалното стартиране. Нека обозначим 100-ия персентил (при повторения за стартиране) чрез Тогава предположението, че стойността е в диапазона от до, ще бъде правилно с вероятност от 95%. Същият израз може лесно да бъде преобразуван в подобен за диапазона от до. Този интервал се нарича центриран доверителен интервал чрез персентили за първоначално стартиране (при 95% ниво на доверие).

Bootstrap-t тест

Както вече беше отбелязано, bootstrap използва функция на формата, където има извадкова оценка на стандартната грешка

Това дава допълнителна прецизност.

Нека вземем стандартната t-статистика като основен пример (оттук и името на метода): това е специален случай, когато (средна популация), (средна извадка) и е стандартното отклонение на извадката. Аналогът за стартиране на тази функция е където се изчислява по същия начин, както само за началната извадка.

Нека да обозначим 100-ия персентил на стартиране с и да приемем, че стойността се намира в интервала

Използване на равенството можете да пренапишете предишното твърдение, т.е. се намира в интервала

Този интервал се нарича начален t-доверителен интервал за ниво от 95%.

В литературата се използва за постигане на по-голяма точност от предишния подход.

Пример за реални данни

Вземете за първи пример данни от Hollander и Wolfe 1999, стр. 63, които представят ефекта на светлината върху скоростта на излюпване.

Стандартната квадратична диаграма предполага, че няма нормалност в данните за населението. Извършихме начален анализ на медианата и средната стойност.

Отделно трябва да се отбележи, че няма симетрия в началната t-хистограма, която се различава от стандартната гранична крива. 95% доверителни интервали за медианата и средната стойност (изчислени с помощта на метода на началния процентил) приблизително покриват диапазона

Този диапазон представлява общата разлика (натрупване) в резултатите от скоростта на излюпване спрямо осветлението.

Като втори пример, разгледайте данните от Devore 2003, стр. 553, които разглеждат корелацията между биохимичното търсене на кислород (BOD) и хидростатичното претегляне (HW) на професионалните футболисти.

2D данните се състоят от двойки и двойките могат да бъдат избрани на случаен принцип по време на повторно семплиране. Например вземете първо, след това и т.н.

На фигурата графиката на кутията с мустаци показва липсата на нормалност за основните популации. Хистограмите на корелация, изчислени от 2D начални данни, са изкривени (изместени наляво).

Поради тази причина в този случай е по-подходящ методът на центриран персентил на стартиране.

Анализът разкри, че измерванията са корелирани за най-малко 78% от населението.

Данни за пример 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Данни например 2:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

В литературата често се предлагат различни схеми за стартиране, които биха могли да дадат надеждни резултати в различни статистически ситуации.

Това, което беше обсъдено по-горе, са само най-основните елементи, а всъщност има много други опции за схеми. Например кой метод е най-подходящ за двуетапно вземане на проби или стратифицирано вземане на проби?

В този случай не е трудно да се измисли естествена схема. Зареждането в случай на данни от регресионен модел обикновено получава много внимание. Има два основни метода: при първия, ковариацията и променливите на отговора се преизчисляват заедно (сдвоено начално стартиране), при втория зареждането се извършва от остатъци (остатъчно зареждане).

Методът по двойки остава правилен (в смисъл на резултатите за), дори ако дисперсиите на грешките в моделите не са равни. Вторият метод в този случай е неправилен. Този недостатък се компенсира от факта, че такава схема осигурява допълнителна прецизност при оценката на стандартната грешка.

Много по-трудно е да се стартират данни от времеви серии.

Анализът на времевите редове обаче е една от ключовите области в иконометрията. Тук могат да се разграничат две основни трудности: първо, данните за времеви редове имат свойството да бъдат последователно зависими. Тоест зависи от и т.н.

Второ, статистическата съвкупност се променя с течение на времето, тоест се появява нестационарност.

За това са разработени методи, които прехвърлят зависимостта в изходните данни към образци за стартиране, по-специално блокова диаграма.

Вместо bootstrap, пробата се изгражда незабавно блокданни, които запазват зависимостите от оригиналната извадка.

В момента се извършват доста изследвания в областта на прилагането на bootstrap към раздели от иконометрията; като цяло методът се развива активно.

В практиката на статистическите изследвания често се налага да се справяме малки проби които имат обем под 30 единици. Пробите от повече от 100 единици обикновено се наричат ​​големи.

Обикновено малките проби се използват в случаите, когато е невъзможно или непрактично да се използва голяма проба. С такива проби човек трябва да се справя, например, при анкетиране на туристи и посетители на хотела.

Големината на грешката на малка извадка се определя от формули, които се различават от формулите за относително голям размер на извадката ().

С малък размер на извадката нтрябва да се вземе предвид връзката между извадката и общата дисперсия:

Тъй като фракцията е съществена за малка извадка, дисперсията се изчислява, като се вземе предвид т.нар брой степени на свобода ... Под него се разбира броят на опциите, които могат да приемат произволни стойности, без да променят стойността на средната стойност.

Средната грешка на малка извадка се определя по формулата:

Граничната грешка на извадката за средната стойност и пропорцията се намира подобно на случая на голяма извадка:

където t е коефициентът на достоверност в зависимост от даденото ниво на значимост и броя на степените на свобода (Приложение 5).

Стойностите на коефициента зависят не само от даденото ниво на доверие, но и от размера на извадката н... За индивидуални стойности на t и n нивото на доверие се определя от разпределението на Студент, което съдържа разпределенията на стандартизираните отклонения:

Коментирайте.С увеличаване на размера на извадката, разпределението на Студент се доближава до нормалното разпределение: for н= 20, то вече се различава малко от нормалното разпределение. При провеждане на малки извадкови изследвания трябва да се има предвид, че колкото по-малък е размерът на извадката н, толкова по-голяма е разликата между t разпределението на Студент и нормалното разпределение. Например, за n мин. = 4, тази разлика е много значителна, което показва намаляване на точността на резултатите от малка извадка.

  • 6. Видове статистически групировки, тяхната познавателна стойност.
  • 7. Статистически таблици: видове, правила за изграждане, техники на четене
  • 8.Абсолютни стойности: видове, когнитивна стойност. Условия за научно използване на абсолютни и относителни показатели.
  • 9. Средни стойности: съдържание, видове, видове, научни условия на използване.
  • 11. Свойства на дисперсията. Правилото за събиране (разлагане) на дисперсията и използването му в статистическия анализ.
  • 12. Видове статистически графики за съдържанието на решаваните задачи и методи на изграждане.
  • 13. Поредици от динамика: видове, показатели за анализ.
  • 14. Методи за идентифициране на тенденциите във времеви редове.
  • 15. Индекси: определение, основни елементи на индексите, задачи, решавани с помощта на индекси, индексна система в статистиката.
  • 16. Правила за изграждане на динамични и териториални индекси.
  • 17. Основи на теорията на извадковия метод.
  • 18. Теория на малките проби.
  • 19. Методи за избор на единици в извадката.
  • 20. Видове връзки, статистически методи за анализ на връзките, концепцията за корелация.
  • 21. Съдържание на корелационния анализ, корелационни модели.
  • 22. Оценка на здравината (херметичността) на корелационната връзка.
  • 23. Системата от показатели на социално-икономическата статистика.
  • 24. Основните групировки и класификации в социално-икономическата статистика.
  • 25. Национално богатство: категория съдържание и състав.
  • 26. Поддържане на имотния регистър. Показатели за състава на земята по собственост, предназначение и видове земя.
  • 27. Класификация на дълготрайните активи, методи за оценка и преоценка, показатели за движение, състояние и използване.
  • 28. Задачите на трудовата статистика. Понятието и съдържанието на основните категории на пазара на труда.
  • 29. Статистика за използването на работната сила и работното време.
  • 30. Показатели за производителност на труда и методи за анализ.
  • 31. Показатели за растениевъдство и добив на земеделска продукция. Посеви и земи.
  • 32. Показатели за производство на животновъдни продукти и продуктивност на селскостопанските животни.
  • 33. Статистика на социалните разходи и производствените разходи.
  • 34. Статистика на заплатите и разходите за труд.
  • 35. Статистика на брутната продукция и доходите.
  • 36. Показатели за движение и продажби на селскостопанска продукция.
  • 37. Задачите на статистическия анализ на земеделските предприятия.
  • 38. Статистика на цените и стоките на секторите на националната икономика: задачи и методи за анализ.
  • 39. Статистика на пазара на стоки и услуги.
  • 40. Статистика на показателите на общественото производство.
  • 41. Статистически анализ на потребителските цени.
  • 42. Статистика на инфлацията и основните показатели за нейната оценка.
  • 43. Задачи на статистиката на финансите на предприятията.
  • 44. Основни показатели за финансовите резултати на предприятията.
  • 45. Задачи на статистиката на държавния бюджет.
  • 46. ​​Системата от показатели на статистиката на държавния бюджет.
  • 47. Системата от показатели на статистиката на паричното обращение.
  • 48. Статистика на състава и структурата на паричното предлагане в страната.
  • 49. Основни задачи на банковата статистика.
  • 50. Основни показатели на банковата статистика.
  • 51. Понятие и класификация на кредита. Задачите на неговото статистическо изследване.
  • 52. Системата от показатели на кредитната статистика.
  • 53. Основни показатели и методи за анализ на спестовния бизнес.
  • 54. Задачи на статистиката на фондовия пазар и ценните книжа.
  • 56. Статистика на стоковите борси: задачи и система от показатели.
  • 57.Система от национални сметки: понятия, основни категории и класификация.
  • 58. Основни принципи на изграждане на SNS.
  • 59. Основни макроикономически показатели - съдържание, методи за определяне.
  • 60. Междусекторен баланс: понятия, задачи, видове моб.
  • 62. Статистика на доходите и разходите на населението
  • 18. Теория на малките проби.

    При голям брой извадкови единици (n> 100) разпределението на случайните грешки в средната извадка в съответствие с теоремата на А. М. Ляпунов е нормално или се доближава до нормалното с увеличаване на броя на наблюденията.

    Въпреки това, в практиката на статистическите изследвания в пазарна икономика все по-често се налага да се работи с малки извадки.

    Малка извадка е такова извадково наблюдение, чийто брой единици не надвишава 30.

    При оценка на резултатите от малка извадка не се използва размерът на генералната съвкупност. За да се определят възможните граници на грешки, се използва t тестът на Студент.

    Стойността на σ се изчислява въз основа на данните от извадковото наблюдение.

    Тази стойност се използва само за изследваната съвкупност, а не като приблизителна оценка на σ в общата съвкупност.

    Вероятната оценка на резултатите от малка извадка се различава от оценката в голяма извадка по това, че при малък брой наблюдения разпределението на вероятностите за средната стойност зависи от броя на избраните единици.

    Въпреки това, за малка извадка, стойността на коефициента на доверие t е различно свързана с вероятностната оценка, отколкото за голяма извадка (тъй като законът за разпределение се различава от нормалния).

    Според закона за разпределение, установен от Студент, вероятната грешка на разпределението зависи както от стойността на коефициента на доверие t, така и от размера на извадката B.

    Средната грешка на малка извадка се изчислява по формулата:

    където е дисперсията на малка извадка.

    В MV коефициентът n / (n-1) трябва да се вземе предвид и трябва да бъде коригиран. При определяне на дисперсията S2, броят на степените на свобода е равен на:

    .

    Граничната грешка на малка извадка се определя от формулата

    В този случай стойността на коефициента на доверие t зависи не само от дадената доверителна вероятност, но и от броя на извадковите единици n. За индивидуални стойности на t и n, вероятността за доверие на малка извадка се определя с помощта на специални таблици на Студент, които дават разпределенията на стандартизираните отклонения:

    Вероятностната оценка на резултатите от MV се различава от оценката в BV по това, че при малък брой наблюдения разпределението на вероятностите за средната стойност зависи от броя на избраните единици

    19. Методи за избор на единици в извадката.

    1. Пробата трябва да е достатъчно голяма по размер.

    2. Структурата на извадката трябва да отразява най-добре структурата на генералната съвкупност

    3. Методът на подбор трябва да е случаен

    В зависимост от това дали избраните единици участват в извадката, се прави разлика между метод – неповтарящ се и повтарящ се.

    Неповторяем подбор е такъв подбор, при който единицата, попаднала в извадката, не се връща в съвкупността, от която се извършва по-нататъшна селекция.

    Изчисляване на средната грешка на неповтарящата се произволна извадка:

    Изчисляване на пределната грешка на неповтарящата се произволна извадка:

    При повторна селекция единицата, попаднала в извадката, след регистриране на наблюдаваните признаци се връща в първоначалната (генерална) съвкупност за участие в по-нататъшната процедура за подбор.

    Изчисляването на средната грешка на многократното просто произволно вземане на проби се извършва, както следва:

    Изчисляване на пределната грешка при многократно произволно вземане на проби:

    Видът на формиране на извадковата съвкупност се подразделя на - индивидуална, групова и комбинирана.

    Метод на подбор – определя специфичен механизъм за подбор на единици от генералната съвкупност и се подразделя на: фактически – произволен; механични; типичен; сериен; комбинирани.

    Всъщност - произволнонай-разпространеният метод за подбор в произволна извадка, нарича се още методът на теглене на жребий, при който се изготвя билет с пореден номер за всяка единица от статистическата съвкупност. Освен това, необходимият брой единици от статистическата съвкупност се избира на случаен принцип. При тези условия всеки от тях има еднаква вероятност да бъде включен в извадката.

    Механично вземане на проби... Използва се в случаите, когато генералната съвкупност е подредена по някакъв начин, тоест има определена последователност в подреждането на единиците.

    За да се определи средната грешка на механичното вземане на проби, се използва формулата за средната грешка в случай на действително произволно неповтарящо се вземане на проби.

    Типичен подбор... Използва се, когато всички единици от генералната съвкупност могат да бъдат разделени на няколко типични групи. Типичният подбор включва вземане на проби от всяка група по подходящ случаен или механичен начин.

    За типична извадка стойността на стандартната грешка зависи от точността на определяне на средните за групата. И така, във формулата за пределната грешка на типична извадка се взема предвид средната стойност на груповите дисперсии, т.е.

    Сериен избор... Използва се в случаите, когато единиците от съвкупността се обединяват в малки групи или серии. Същността на серийното вземане на проби всъщност е произволен или механичен подбор на серии, в рамките на които се извършва непрекъснато изследване на единици.

    При серийно вземане на проби стойността на грешката на извадката не зависи от броя на изследваните единици, а от броя на изследваните серии (и) и от стойността на междугруповата дисперсия:

    Комбиниран изборможе да премине през една или повече стъпки. Извадката се нарича едноетапна, ако се изследват единиците от съвкупността, които са избрани веднъж.

    Пробата се нарича многостепенна, ако подборът на съвкупност преминава през етапи, последователни етапи и всеки етап, етапът на подбор има своя собствена единица за подбор.

    "
     


    Прочети:



    Презентация "Наполеон" по история - проект, доклад

    Презентация

    Слайд 2 На име Луи-Наполеон Бонапарт. Първият президент на Френската република от 20 декември 1848 г. до 1 декември 1852 г., император на Франция от ...

    Презентация - Бордът на Иван IV Грозни

    Презентация - Бордът на Иван IV Грозни

    Първият руски цар Иван IV Василиевич Раждане През август 1530 г. се раждат московският княз Василий III и съпругата му Елена Глинская ...

    Подобни термини "Разширяване на скоби и намаляване на подобни термини"

    Подобни термини

    Колко пъти първото число е по-голямо от второто. Съотношението на масите. Съотношението показва колко пъти първото число е по-голямо от второто. Загрявка. Отговорът може да бъде...

    обобщаване на преподавателския опит

    обобщаване на преподавателския опит

    На 3 юни 2016 г. в предучилищна институция се проведе заключителен педагогически съвет, на който беше направен анализ на дейността на институцията за образователната 2015-2016 г. ...

    feed-image Rss