ev - werber bernard
Küçük numune yöntemi. Küçük örnek istatistikleri. Genel popülasyondan birimleri seçme yöntemleri

Küçük örnek istatistikleri

S. m.'nin başlangıcı olduğu genel olarak kabul edilir. ya da genellikle "küçük n" olarak adlandırılan istatistikler, 20. yüzyılın ilk on yılında, W. Gosset'in "öğrenci" tarafından öne sürülen t-dağılımını yerleştirdiği çalışmasının yayınlanmasıyla kurulmuştur. sonra dünya çapında ün kazandı. O sırada Gosset, Guinness bira fabrikalarında istatistikçi olarak çalışıyordu. Görevlerinden biri, taze demlenmiş şişman fıçıların ardışık partilerini analiz etmekti. Gosset, asla tam olarak açıklamadığı nedenlerden dolayı, hamalın kalitesini rastgele kontrol etmek için bira fabrikasının depolarındaki çok sayıda fıçıdan alınan numune sayısını büyük ölçüde azaltma fikrini denedi. Bu onun t-dağılımını varsaymasına yol açtı. Guinness bira fabrikalarının tüzüğü, çalışanlarının çalışmanın sonuçlarını yayınlamasını yasakladığından, Gosset, küçük örnekli bir t-dağılımı ve geleneksel bir z-dağılımı (normal dağıtım) kullanarak örnekleme kalite kontrolünü karşılaştıran deneyinin sonuçlarını, takma ad "Öğrenci" (Öğrenci - t-Student'in dağıtımının adı nereden geldi).

t-dağılımı. t-dağılımı teorisi, z-dağılımı teorisi gibi, iki örneğin aynı popülasyondan rastgele örnekler olduğu ve bu nedenle hesaplanan istatistiklerin (örneğin ortalama ve standart sapma) tarafsız olduğu boş hipotezini test etmek için kullanılır. Genel popülasyonun parametreleri. Bununla birlikte, normal dağılım teorisinden farklı olarak, küçük örnekler için t-dağılımı teorisi, popülasyonun ortalaması ve varyansına ilişkin ön bilgi veya kesin tahminler gerektirmez. Ayrıca, istatistiksel anlamlılık için iki büyük örneğin ortalamaları arasındaki farkı test etmek, popülasyonun özelliklerinin normal dağılımı hakkında temel bir varsayım gerektirse de, t-dağılım teorisi parametreler hakkında varsayımlar gerektirmez.

Normal olarak dağıtılan özelliklerin tek bir eğri ile tanımlandığı iyi bilinmektedir - aşağıdaki denklemi sağlayan Gauss eğrisi:

Bir t-dağılımı ile, bütün bir eğri ailesi aşağıdaki formülle temsil edilir:

Bu nedenle t denklemi, matematikte n değiştikçe başka bir eğrinin verilen denklemi karşılayacağı anlamına gelen gama fonksiyonunu içerir.

Özgürlük derecesi

t denkleminde, n, t-dağılımı denklemi gibi herhangi bir moment üretme fonksiyonunun ikinci momenti olan popülasyon varyans tahmini (S2) ile ilişkili serbestlik derecesi (df) sayısını belirtir. S.'de, serbestlik derecesi sayısı, belirli bir analiz türünde kısmi kullanımlarından sonra kaç özelliğin serbest kaldığını gösterir. Bir t dağılımında, tüm bu tür sapmaların toplamı sıfıra eşit olması gerektiğinden, örnek ortalamasından sapmalardan biri her zaman sabittir. Bu, S2 parametresinin yansız bir tahmincisi olarak numune varyansını hesaplarken karelerin toplamını etkiler ve df'nin her numune için ölçüm sayısı eksi bire eşit olmasıyla sonuçlanır. Bu nedenle, df = n - 2 boş hipotezini test etmek için t istatistiklerini hesaplama formülleri ve prosedürlerinde.

F-uzay bölümü. T testi ile test edilen boş hipotez, iki örneğin aynı popülasyondan rastgele veya aynı varyansa sahip iki farklı popülasyondan rastgele seçilmiş olmasıdır. Peki ya daha fazla grubu analiz etmeniz gerekirse? Bu sorunun cevabı, Gosset'in t-dağılımını keşfetmesinden sonraki yirmi yıl boyunca arandı. 20. yüzyılın en önde gelen istatistikçilerinden ikisi, doğrudan üretime dahil oldu. Bir - ilk teoriyi öneren en büyük İngiliz istatistikçi R. A. Fisher. gelişimi F dağılımına yol açan formülasyonlar; Gosset'in fikirlerini geliştiren küçük örnekler teorisi üzerine çalışması 1920'lerin ortalarında yayınlandı (Fisher, 1925). Bir diğeri, iki varyans tahmininin oranını hesaplayarak herhangi bir büyüklükteki iki bağımsız örneği karşılaştırmanın bir yolunu geliştiren ilk Amerikalı istatistikçilerden biri olan George Snedecor'dur. Bu orana Fischer'den sonra F oranı adını verdi. Araştırma sonuçları. Snedekor, F dağılımının, her biri kendi serbestlik derecesine sahip iki istatistiğin c2 oranının dağılımı olarak belirtilmeye başlamasına yol açtı:

Bundan Fisher'in varyans analizi üzerine klasik çalışması geldi; bu, açıkça küçük örneklerin analizine yönelik istatistiksel bir teknikti.

Örnekleme dağılımı F (burada n = df) aşağıdaki denklem ile temsil edilir:

t-dağılımı durumunda olduğu gibi, gama fonksiyonu, F denklemini sağlayan bir dağılım ailesi olduğunu gösterir. Ancak bu durumda, analiz iki df niceliği içerir: için serbestlik derecesi sayısı. pay ve F oranının paydası için.

t ve F istatistiklerini tahmin etmek için tablolar. Büyük örnekler teorisine dayanan C. kullanarak boş hipotezi test ederken, genellikle yalnızca bir referans tablosu gereklidir - normal sapmalar tablosu (z), bu, herhangi iki değer arasındaki normal eğrinin altındaki alanı belirlemenizi sağlar. x ekseninde z. Ancak, t- ve F-dağılımları için tablolar, bu tablolar, serbestlik derecelerinin sayısının değiştirilmesinden kaynaklanan çoklu dağılımlara dayandığından, zorunlu olarak bir dizi tablo halinde sunulur. t ve F dağılımları, büyük örnekler için normal dağılım gibi olasılık yoğunluk dağılımları olsa da, onları tanımlamak için kullanılan dört moment açısından ikincisinden farklıdır. Örneğin t-dağılımı, tüm df için simetriktir (denklemindeki t2'ye dikkat edin), ancak örnek boyutu azaldıkça giderek daha fazla zirve yapar. Doruk eğriler (normal basıklıktan daha büyük), Gauss eğrisi gibi normal basıklığa sahip eğrilerden daha az asimptotik (yani, dağılımın uçlarında x eksenine daha yakın) olma eğilimindedir. Bu fark, t ve z değerlerine karşılık gelen x ekseni üzerindeki noktalar arasında gözle görülür farklılıklara yol açar. df = 5 ve iki taraflı a düzeyi 0,05'e eşit olduğunda, t = 2,57, buna karşılık gelen z = 1,96. Bu nedenle, t = 2.57, %5 düzeyinde istatistiksel anlamlılığı gösterir. Bununla birlikte, normal bir eğri durumunda, z = 2.57 (daha kesin olarak 2.58), zaten %1'lik bir istatistiksel anlamlılık seviyesini gösterir. Örnek sayısı iki olduğunda t, F'ye eşit olduğundan, F-dağılımı ile de benzer karşılaştırmalar yapılabilir.

"Küçük" bir numuneyi ne oluşturur?

Bir zamanlar, örneğin küçük sayılabilmesi için ne kadar büyük olması gerektiği sorusu gündeme geldi. Bu sorunun kesin bir cevabı yok. Bununla birlikte, df = 30'u küçük ve büyük bir örnek arasında koşullu bir sınır olarak kabul etmek gelenekseldir.Bu biraz keyfi kararın temeli, t-dağılımını normal dağılımla karşılaştırmanın sonucudur. Yukarıda belirtildiği gibi, t ​​ve z değerleri arasındaki fark, artan df ile azalma ve azalma ile artma eğilimindedir. Aslında, df = ∞ için t = z olduğunda t, sınırlayıcı durumdan çok önce z'ye yaklaşmaya başlar. t'nin tablo değerlerinin basit bir görsel incelemesi, df = 30 ve üstünden başlayarak bu yaklaşımın oldukça hızlı hale geldiğini görmenizi sağlar. t (df = 30'da) ve z'nin karşılaştırmalı değerleri sırasıyla: p = 0.05 için 2.04 ve 1.96; p = 0.01 için 2.75 ve 2.58; p = 0,001 için 3,65 ve 3,29.

"Küçük" örnekler için diğer istatistikler

t ve F gibi istatistiksel testler özellikle küçük numunelere uygulanacak şekilde tasarlanmış olsa da, büyük numunelere eşit derecede uygulanabilirler. Bununla birlikte, küçük örneklerin analizi için tasarlanmış ve genellikle bu amaç için kullanılan birçok başka istatistiksel yöntem vardır. Sözde demek istiyorlar. parametrik olmayan veya dağıtımdan bağımsız yöntemler. Temel olarak, bu yöntemlerde görünen S., oran veya aralık ölçeklerinin tanımını karşılamayan ölçekler kullanılarak elde edilen ölçümlere uygulanmak üzere tasarlanmıştır. Çoğu zaman bunlar sıralı (sıra) veya nominal ölçümlerdir. Parametrik olmayan S., özellikle varyans tahminleriyle ilgili olarak, dağılımın parametreleri hakkında varsayımlar gerektirmez, çünkü sıralı ve nominal ölçekler, varyans kavramını dışlar. Bu nedenle, küçük örnekler analiz edildiğinde aralık ve oran ölçekleri kullanılarak elde edilen ölçümler için parametrik olmayan yöntemler de kullanılmaktadır ve parametrik yöntemlerin uygulanması için gerekli temel varsayımların ihlal edilme olasılığı vardır. Küçük örneklere makul bir şekilde uygulanabilen bu tür C'ler arasında şunlar bulunur: Fisher'in kesin olasılık testi, Friedman'ın iki faktörlü parametrik olmayan (sıra) varyans analizi, Kendall'ın sıra korelasyon katsayısı t, Kendall'ın uyum katsayısı (W), Kruskal'ın H-kriteri - Parametrik olmayan (sıra) tek yönlü varyans analizi için Wallace, Mann-Whitney U-testi, medyan testi, işaret testi, Spearman's rank korelasyon katsayısı r ve Wilcoxon's t-testi.

Örnek gözlem verilerinin temsil derecesinin değerlendirilmesi sürecinde, örneklem büyüklüğü sorusu önem kazanmaktadır. örnek dönüşüm katsayısı öğrencisi

Örnekleme hatasının belirli bir olasılıkla aşmayacağı limitlerin büyüklüğünü değil, aynı zamanda bu limitleri belirleme yöntemlerini de belirler.

Çok sayıda örnekleme birimiyle (), örneğin rastgele hatalarının dağılımı, Lyapunov teoremi normaldir veya gözlem sayısı arttıkça normale yaklaşır.

Belirli sınırların ötesine geçen bir hata olasılığı, tablolar temelinde tahmin edilir. Laplace integrali . Örnekleme hatasının hesaplanması genel varyansın değerine dayanır, çünkü genel varyansı elde etmek için örnek varyansının çarpıldığı katsayı büyük bir rol oynamaz.

İstatistiksel araştırma pratiğinde, genellikle küçük, sözde küçük örneklerle karşılaşılır.

Küçük bir örnek, birim sayısı 30'u geçmeyen böyle bir örnek gözlemdir.

Küçük örnekleme teorisinin gelişimi bir İngiliz istatistikçi tarafından başlatıldı. VS. gosset (takma adla yayınlanmıştır Öğrenci ) 1908'de. Küçük bir örneğin ortalaması ile genel ortalama arasındaki tutarsızlığın tahmininin özel bir dağıtım yasası olduğunu kanıtladı.

Olası hata paylarını belirlemek için, sözde Öğrenci kriteri, formül tarafından belirlenir

örnek ortalamanın rastgele dalgalanmalarının bir ölçüsü nerede

küçük örnek.

Değer, örnek gözlem verileri temelinde hesaplanır:

Bu değer yalnızca çalışma popülasyonu için kullanılır ve genel popülasyonda yaklaşık bir tahmin olarak kullanılmaz.

Küçük bir örneklem büyüklüğü ile dağılım Öğrenci normalden farklıdır: kriterin büyük değerleri burada normal dağılıma göre daha yüksek bir olasılığa sahiptir.

Ortalama hatanın bir fonksiyonu olarak küçük bir örneğin marjinal hatası şu şekilde sunulur:

Ancak bu durumda, büyüklük, büyük bir örneklemden farklı olarak olası tahminle ilişkilidir.

dağılıma göre Öğrenci , olası tahmin, küçük örneklerde marjinal hata ortalama hatayı aşmıyorsa, örneğin boyutuna ve boyutuna bağlıdır.

Tablo 3.1 Küçük örneklerde olasılık dağılımı güven katsayısından ve örnek boyutu


görüldüğü gibi sekme. 3.1 , bu dağılımın artmasıyla normal olana yönelir ve , zaten ondan çok az farklıdır.

Öğrenci dağıtım tablosunun nasıl kullanılacağını gösterelim.

Küçük bir işletmedeki işçilerle ilgili örnek bir anketin, işçilerin üretim operasyonlarından birinde zaman (min.) harcadıklarını gösterdiğini varsayalım: . Örnek ortalama maliyetleri bulun:

örnek varyans

Dolayısıyla küçük bir örneğin ortalama hatası

İle sekme. 3.1 küçük bir örneğin güven katsayısı ve boyutu için olasılığın eşit olduğunu bulduk.

Bu nedenle, örneklem ile genel ortalama arasındaki tutarsızlığın ile aralığında olduğu, yani. fark mutlak değerde () aşmayacaktır.

Bu nedenle, tüm popülasyonda harcanan ortalama süre - ile aralığında olacaktır.

Bu varsayımın gerçekten yanlış olma olasılığı ve rastgele nedenlerden kaynaklanan hata şundan daha büyük olacaktır: .

olasılık tablosu Öğrenci genellikle farklı bir biçimde sunulur tablo 3.1 . Bazı durumlarda bu formun pratik kullanım için daha uygun olduğuna inanılmaktadır ( sekme. 3.2 ).

İtibaren sekme. 3.2 her bir serbestlik derecesi sayısı için, numune sonuçlarındaki rastgele dalgalanmalar nedeniyle belirli bir olasılıkla aşılmayacak olan bir sınır değer belirtilir.

Göre sekme. 3.2 miktarlar belirlenir güvenilirlik aralığı : ve.

Bu, genel ortalamanın, ötesine geçen, çok küçük bir olasılığa sahip olan, aşağıdakilere eşit olan değerlerin alanıdır:

İki taraflı bir kontrolde bir güven düzeyi olarak, genellikle veya kullanırlar, ancak bu, aşağıda listelenmeyen diğerlerinin seçimini hariç tutmaz. sekme. 3.2 .

Tablo 3.2 Bazı Anlamlar -Öğrenci dağılımları

Tahmini ortalama değerin güven aralığı sınırlarının ötesinde rastgele çıkma olasılıkları sırasıyla eşit olacaktır ve yani. çok küçükler.

Olasılıklar ve arasındaki seçim bir dereceye kadar keyfidir. Bu seçim, büyük ölçüde, küçük bir örneğin kullanıldığı görevlerin içeriğine göre belirlenir.

Sonuç olarak, küçük bir örneklemdeki hataların hesaplanmasının, büyük bir örneklemdeki benzer hesaplamalardan çok az farklı olduğuna dikkat çekiyoruz. Aradaki fark, küçük bir örneklemle, iddiamızın olasılığının daha büyük bir örneklemden (özellikle yukarıdaki örnekte ve sırasıyla) biraz daha düşük olmasıdır.

Ancak tüm bunlar, büyük bir örneğe ihtiyacınız olduğunda küçük bir örnek kullanabileceğiniz anlamına gelmez. Birçok durumda, bulunan limitler arasındaki farklılıklar, araştırmacıları pek tatmin etmeyen önemli boyutlara ulaşabilir. Bu nedenle, sosyo-ekonomik olayların istatistiksel bir çalışmasında küçük bir örneklem, uygun teorik ve pratik gerekçelerle büyük bir dikkatle kullanılmalıdır.

Bu nedenle, küçük bir örneğin sonuçlarına dayanan sonuçlar, yalnızca özelliğin genel popülasyondaki dağılımının normal veya asimptotik olarak normal olması koşuluyla pratik öneme sahiptir. Küçük bir numunenin sonuçlarının doğruluğunun hala büyük bir numuneden daha düşük olduğu gerçeğini de hesaba katmak gerekir.

Bir kişi yeteneklerini ancak uygulamaya çalışarak tanıyabilir. (Seneca)

Bootstrap, küçük örnekler, veri analizinde uygulama

Ana fikir

Bootstrap yöntemi, 1979 yılında B. Efron tarafından jackknife yönteminin bir gelişimi olarak önerildi.

Bootstrap'ın ana fikrini açıklayalım.

Veri analizinin amacı, en doğru sonucu elde etmektir. seçici tahmin eder ve sonuçları tüm popülasyona yayar.

Bir numuneden alınan sayısal veriler için teknik terim, numune istatistikleridir.

Ana tanımlayıcı istatistikler şunlardır: seçici ortalama, medyan, standart sapma, vb.

Örnek ortalaması, medyan, korelasyon gibi elde edilen istatistikler örnekten örneğe değişecektir.

Araştırmacı, popülasyona bağlı olarak bu sapmaların boyutunu bilmelidir. Buna göre hata payı hesaplanır.

Olasılık dağılımı şeklinde bir örnek istatistiğinin tüm olası değerlerinin ilk resmine örnek dağılımı denir.

anahtar boyutörnekler. Örnek boyutu küçükse ne olur? Makul bir yaklaşım, rastgele mevcut örnekten veri ayıklayın.

Önyükleme fikri, istatistiğin örnek dağılımını belirlemek için örnek hesaplamaların sonuçlarını “kukla popülasyon” olarak kullanmaktır. Aslında, analiz eder büyükönyükleme örnekleri adı verilen "hayalet" örneklerin sayısı.

Genellikle birkaç bin örnek rastgele oluşturulur, bu kümeden ilgilendiğimiz istatistiklerin önyükleme dağılımını bulabiliriz.

Diyelim ki bir örneğimiz var, ilk adımda örnek öğelerden birini rastgele seçiyoruz, bu öğeyi örneğe döndürüyoruz, öğeyi rastgele tekrar seçiyoruz vb.

Açıklanan rastgele seçim prosedürünü n kez tekrarlayalım.

Bootstrap'da rastgele bir seçim yapılır. dönüş, orijinal numunenin seçilmiş elemanları İadelerörneğe ve daha sonra tekrar seçilebilir.

Resmi olarak, her adımda, 1/n olasılığıyla orijinal örneğin bir öğesini seçeriz.

Toplamda, ilk numunenin n elemanına sahibiz, Ni'nin 0 ile n arasında değiştiği sayılarla (N 1 ... Nn ) bir numune elde etme olasılığı, bir polinom dağılımı ile tanımlanır.

Modern bilgisayarlar için oldukça ulaşılabilir olan bu tür birkaç bin örnek üretilir.

Her bir numune için, ilgilenilen miktarın bir tahmini oluşturulur, ardından tahminlerin ortalaması alınır.

Birçok örnek olduğu için, tahminlerin ampirik bir dağılım fonksiyonunu oluşturmak, ardından nicelikleri hesaplamak ve güven aralığını hesaplamak mümkündür.

Bootstrap yönteminin Monte Carlo yönteminin bir modifikasyonu olduğu açıktır.

Örnekler oluşturulursa iade yok elemanlar, daha sonra iyi bilinen jackknife yöntemi elde edilir.

Soru: Bunu neden yapıyorsunuz ve yöntemi gerçek veri analizinde kullanmak ne zaman mantıklı?

Önyüklemede yeni bilgi almıyoruz, ancak elimizdeki göreve göre mevcut verileri akıllıca kullanıyoruz.

Örneğin, önyükleme yapmak için kullanılabilir küçük medyan tahminleri, korelasyonlar, güven aralıklarının oluşturulması ve diğer durumlar için örnekler.

Efron'un orijinal makalesi, n = 15'lik bir örneklem boyutu için ikili korelasyon tahminlerini ele aldı.

B = 1000 önyükleme örneği oluşturulur (önyükleme çoğaltması).

Elde edilen ro 1 … ro B katsayılarına dayanarak, korelasyon katsayısının genel bir tahmini ve standart sapmanın bir tahmini oluşturulur.

Normal yaklaşım kullanılarak hesaplanan örnek korelasyon katsayısının standart hatası:

korelasyon katsayısının 0.776 olduğu yerde, ilk örnek boyutu n = 15'tir.

Standart hatanın önyükleme tahmini 0.127'dir, bkz. Efron, Gall Gong, 1982.

Teorik arka plan

Çalışmanın hedef parametresi, örneğin seçilen toplumdaki ortalama gelir olsun.

Rastgele bir boyut örneği için bir veri seti elde ederiz.Karşılık gelen örnek istatistiği olsun

Çoğu örnek istatistik için büyük değer (>30) örnekleme dağılımı, pozitif parametrenin popülasyona ve istatistiklerin türüne bağlı olduğu, merkezi ve standart sapması olan normal bir eğridir.

Bu klasik sonuç, merkezi limit teoremi olarak bilinir.

Verilerden gerekli standart sapmayı tahmin etmede genellikle önemli teknik zorluklar vardır.

örneğin, eğer medyan veya örnek korelasyon.

Önyükleme yöntemi bu zorlukların üstesinden gelir.

Fikir basit: orijinal örnekten elde edilen önyükleme örneğinden hesaplanan aynı istatistikleri temsil eden keyfi bir değerle ifade edin

“Orijinal” örnek sabit ise örnekleme dağılımı hakkında ne söylenebilir?

Limitte, örnekleme dağılımı da parametrelerle çan şeklindedir ve

Böylece, önyükleme dağılımı, örnekleme dağılımına iyi bir şekilde yaklaşır.

Bir örnekten diğerine geçtiğimizde, yalnızca ifadede değişiklik olduğuna dikkat edin, çünkü şundan hesaplanmıştır:

Bu, esasen merkezi limit teoreminin bir önyükleme versiyonudur.

Ayrıca bir istatistiksel fonksiyonun limit örnekleme dağılımı popülasyon bilinmeyenlerini içermiyorsa, önyükleme dağılımının örnekleme dağılımına merkezi limit teoreminden daha iyi bir yaklaşım sağladığı da bulundu.

Özellikle, istatistiksel fonksiyon, standart hatanın doğru veya örnek tahminini gösteren bir forma sahip olduğunda, marjinal örnek dağılımı genellikle standart normaldir.

Bu etki, önyükleme kullanarak ikinci dereceden düzeltme olarak adlandırılır.

Yani nüfus ortalaması vb. örnek ortalama; popülasyon standart sapması, orijinal verilerden hesaplanan örnek standart sapması ve önyükleme örneğinden hesaplanır.

Daha sonra, burada değerin örnek dağılımı, önyükleme dağılımı ile yaklaşıklaştırılacaktır, burada önyükleme örneği üzerinden ortalama, .

Benzer şekilde, örnekleme dağılımı, burada önyükleme dağılımı ile yaklaşık olarak hesaplanacaktır.

İkinci derece düzeltme ile ilgili ilk sonuçlar, 1981-83'te Babu ve Singh tarafından yayınlandı.

Önyükleme uygulamaları

Örnek bir tahminin standart hatasının yaklaşıklığı

Parametrenin popülasyon için bilindiğini varsayalım

Rastgele bir boyut örneğine dayalı bir tahmin olsun. Numune, olası tüm numuneler kümesi üzerinde değişiklik gösterdiğinden, standart hatayı tahmin etmek için aşağıdaki yaklaşım kullanılır:

Kullanılan formülün aynısını kullanarak, ancak bu sefer her biri farklı önyükleme boyutu örneklerine dayalı olarak hesaplayın. Kabaca söylemek gerekirse, çok büyük değilse kabul edilebilir. Bu durumda, azaltılabilir n içinde n. Daha sonra, aslında, önyükleme yönteminin özünden yola çıkarak belirlenebilir: popülasyon (örnek), ampirik bir popülasyon (örnek) ile değiştirilir.

Önyükleme yöntemini kullanarak Bayes düzeltmesi

Bir örnek dağılımının ortalaması genellikle genellikle büyük, yani Bayes yaklaşımına bağlıdır:

önyükleme kopyası nerede. Ardından ayarlanan değer -

Jackknife yöntemi olarak adlandırılan önceki yeniden örnekleme yönteminin daha popüler olduğunu belirtmekte fayda var.

Güvenilirlik aralığı

Belirli bir parametre için güven aralıkları (CI), numuneye dayalı aralıklardır.

Bu aralık, çok yüksek (önceden ayarlanmış) bir olasılığa sahip bir değerin kendisine ait olma özelliğine sahiptir. Buna önem düzeyi denir. Elbette, bu olasılık olası olanların herhangi bir örneğine uygulanmalıdır, çünkü her örnek güven aralığının belirlenmesine katkıda bulunur. En sık kullanılan iki anlamlılık düzeyi %95 ve %99'dur. Burada kendimizi %95 değeriyle sınırlayacağız.

Geleneksel olarak CI, limitte daha kesin olarak miktarın örnek dağılımına bağlıdır. Önyükleme ile oluşturulabilecek iki ana tür güven aralığı vardır.

yüzdelik yöntemi

Bu yöntem girişte zaten belirtilmişti, sadeliği ve doğallığı nedeniyle çok popüler. 1000 önyükleme kopyamız olduğunu varsayalım, bunları şöyle gösterelim: Daha sonra aralıktaki değerler güven aralığına düşecektir. Yöntemin teorik gerekçesine dönersek, etrafında örnekleme dağılımının simetrisini gerektirdiğini belirtmekte fayda var. Bunun nedeni, örnekleme dağılımının yöntemde yaklaşık olmasıdır. önyükleme dağılımını kullanarak, işaretin tersi olan bir değere yaklaşılmalıdır.

Ortalanmış önyükleme yüzdesi yöntemi

Örnekleme dağılımının, önyükleme dağılımıyla, yani başlangıçta önyüklemede amaçlandığı gibi yaklaşık olduğunu varsayın. 100. yüzdelik dilimini (önyükleme tekrarlarında) olarak gösterelim. O zaman değerin ile aralığında olduğu varsayımı %95 olasılıkla doğru olacaktır. Aynı ifade, ile arasındaki aralık için kolaylıkla benzer bir ifadeye dönüştürülür. Bu aralığa, önyükleme yüzdelikleri için ortalanmış güven aralığı denir (%95 anlamlılık düzeyinde).

önyükleme-t kriteri

Daha önce belirtildiği gibi, önyükleme, standart hatanın örnek bir tahmininin bulunduğu formun bir işlevini kullanır.

Bu ek hassasiyet sağlar.

Temel bir örnek olarak, standart t istatistiğini alalım (yöntemin adı buradan gelir): yani (popülasyon ortalaması), (örnek ortalaması) ve - örnek standart sapmasının olduğu özel durum. Böyle bir işlevin önyükleme analogu burada yalnızca önyükleme örneğiyle aynı şekilde hesaplanır.

100. önyükleme yüzdesini ile gösterelim ve değerin aralıkta olduğunu varsayalım.

eşitliği kullanma önceki ifadeyi yeniden yazabilirsiniz, yani. aralıkta yatıyor

Bu boşluk, %95 düzeyindeki için önyükleme t-güven aralığı olarak adlandırılır.

Literatürde önceki yaklaşımdan daha fazla doğruluk elde etmek için kullanılır.

Gerçek Veri Örneği

İlk örnek olarak, ışığın civcivlerin yumurtadan çıkma hızına etkisi olan Hollander ve Wolfe 1999, s.63'teki verileri alın.

Standart kutu grafiği, popülasyon verileri arasında normallik olmadığını varsayar. Medyan ve ortalamanın bir önyükleme analizi gerçekleştirdik.

Ayrı olarak, standart sınır eğrisinden farklı olan önyükleme t-histogramındaki simetri eksikliğine dikkat etmek önemlidir. Medyan ve ortalama için %95 güven aralıkları (önyükleme yüzdesi yöntemi kullanılarak hesaplanmıştır) kabaca aralığı kapsar

Bu aralık, arka ışığa bağlı olarak civciv çıkış oranı sonuçlarındaki genel farkı (artışı) temsil eder.

İkinci bir örnek olarak, profesyonel futbolcuların Biyokimyasal Oksijen İhtiyacı (BOD) ve Hidrostatik Ağırlık (HW) sonuçları arasındaki korelasyona bakan Devore 2003, sayfa 553'teki verileri ele alalım.

İki boyutlu veriler çiftlerden oluşur ve önyükleme yeniden örneklemesi sırasında çiftler serbestçe seçilebilir. Örneğin, önce al, sonra vb.

Şekilde, kutu bıyık grafiği, ana popülasyonlar için normallik eksikliğini göstermektedir. 2B önyükleme verilerinden hesaplanan korelasyon histogramları asimetriktir (sola kaydırılır).

Bu nedenle, bu durumda ortalanmış önyükleme yüzdesi yöntemi daha uygundur.

Analiz sonucunda, ölçümlerin nüfusun en az %78'i için korele olduğu ortaya çıktı.

Veri örneğin 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Örnek 2 için veriler:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

Literatür genellikle, farklı istatistiksel durumlarda güvenilir sonuçlar verebilen, önyükleme için farklı şemalar önerir.

Yukarıda tartışılanlar yalnızca en temel unsurlardır ve aslında birçok başka devre seçeneği vardır. Örneğin, iki aşamalı örnekleme veya tabakalı örnekleme durumunda hangi yöntemin kullanılması daha iyidir?

Bu durumda, doğal bir şema icat etmek zor değildir. Regresyon modelleriyle veri durumunda önyükleme genellikle çok fazla dikkat çekiyor. İki ana yöntem vardır: ilkinde kovaryanslar ve yanıt değişkenleri birlikte yeniden örneklenir (eşli önyükleme), ikincisinde artıklar üzerinde önyükleme yapılır (artık önyükleme).

Modellerdeki hata varyansları eşit olmasa bile çift yöntemi ( 'deki sonuçlar açısından) doğru kalır. Bu durumda ikinci yöntem yanlıştır. Bu dezavantaj, böyle bir şemanın standart hatanın tahmininde ek doğruluk sağlamasıyla telafi edilir.

Zaman serisi verilerine önyükleme uygulamak çok daha zordur.

Ancak zaman serisi analizi, ekonometrideki kilit alanlardan biridir. Burada iki ana zorluk ayırt edilebilir: birincisi, zaman serisi verileri sıralı olarak bağımlı olma özelliğine sahiptir. Yani, bağlıdır vb.

İkincisi, istatistiksel popülasyon zamanla değişir, yani durağan olmama ortaya çıkar.

Bunun için kaynak verilerdeki bağımlılığı özellikle blok diyagram olmak üzere önyükleme örneklerine aktaran yöntemler geliştirilmiştir.

Önyükleme seçimi yerine hemen oluşturulur engellemek orijinal örnekten bağımlılıkları koruyan veriler.

Ekonometri bölümlerine önyükleme uygulaması alanında, şu anda oldukça fazla araştırma yapılmakta, genel olarak yöntem aktif olarak geliştirilmektedir.

İstatistiksel araştırma pratiğinde, sıklıkla karşılaşılır. küçük örnekler 30 birimden daha az bir hacme sahip olan. Büyük numuneler genellikle 100 birimden daha büyük numuneleri içerir.

Tipik olarak, büyük bir numunenin kullanılmasının imkansız veya pratik olmadığı durumlarda küçük numuneler kullanılır. Örneğin turistler ve otel ziyaretçilerini incelerken bu tür örneklerle uğraşmak gerekir.

Küçük bir örneğin hata değeri, nispeten büyük bir örneklem büyüklüğü () için formüllerden farklı formüllerle belirlenir.

Küçük bir örneklem büyüklüğü ile nörneklem ve genel varyans arasındaki ilişki dikkate alınmalıdır:

Kesir küçük bir örneklemle önemli olduğundan, varyansın hesaplanması sözde dikkate alınarak yapılır. serbestlik derecesi sayısı . Ortalamanın değerini değiştirmeden keyfi değerler alabilen seçeneklerin sayısı olarak anlaşılmaktadır.

Küçük bir örneğin ortalama hatası aşağıdaki formülle belirlenir:

Ortalama ve orantı için marjinal örnekleme hatası, büyük bir örneklem durumuna benzer şekilde bulunur:

burada t, verilen önem düzeyine ve serbestlik derecesi sayısına bağlı olan güven faktörüdür (Ek 5).

Katsayının değerleri sadece verilen güven olasılığına değil, aynı zamanda örneklem büyüklüğüne de bağlıdır. n. Bireysel t ve n değerleri için, güven olasılığı, standartlaştırılmış sapmaların dağılımlarını içeren Öğrenci dağılımı ile belirlenir:

Yorum Yap.Örneklem büyüklüğü arttıkça Student dağılımı normal dağılıma yaklaşır: n=20, zaten normal dağılımdan çok az farklıdır. Küçük örneklem anketleri yapılırken, örneklem büyüklüğü ne kadar küçükse o kadar küçük olduğu dikkate alınmalıdır. n, Student dağılımı ile normal dağılım arasındaki fark o kadar büyük olur. Örneğin, ne zaman n dk. = 4, bu fark oldukça önemlidir, bu da küçük bir numunenin sonuçlarının doğruluğunda bir düşüş olduğunu gösterir.

  • 6. İstatistiksel gruplama türleri, bilişsel önemi.
  • 7. İstatistiksel tablolar: türleri, yapım kuralları, okuma teknikleri
  • 8. Mutlak değerler: türleri, bilişsel değer. Mutlak ve göreceli göstergelerin bilimsel kullanımı için koşullar.
  • 9. Ortalama değerler: içerik, türler, türler, bilimsel uygulama koşulları.
  • 11. Dağılma özellikleri. Varyans toplama (ayrıştırma) kuralı ve istatistiksel analizde kullanımı.
  • 12. Çözülecek görevlerin içeriğine ve yapım yöntemlerine göre istatistiksel grafik türleri.
  • 13. Dinamik diziler: türleri, analiz göstergeleri.
  • 14. Zaman serilerindeki eğilimleri belirleme yöntemleri.
  • 15. İndeksler: tanımı, indekslerin ana unsurları, indeksler yardımıyla çözülen görevler, istatistikte indeksler sistemi.
  • 16. Dinamik ve bölgesel endeksler oluşturmaya yönelik kurallar.
  • 17. Örnekleme yöntemi teorisinin temelleri.
  • 18. Küçük örnekler teorisi.
  • 19. Numunedeki birimleri seçme yöntemleri.
  • 20. İlişki türleri, ilişkileri analiz etmek için istatistiksel yöntemler, korelasyon kavramı.
  • 21.Korelasyon analizinin içeriği, korelasyon modelleri.
  • 22. Korelasyonun gücünün (sıkılığının) değerlendirilmesi.
  • 23. Sosyo-ekonomik istatistik göstergeleri sistemi.
  • 24. Sosyo-ekonomik istatistiklerde temel gruplamalar ve sınıflandırmalar.
  • 25. Ulusal zenginlik: kategorinin içeriği ve bileşimi.
  • 26. Tapu sicilinin içeriği. Mülkiyet, amaç ve arazi türlerine göre arazi bileşiminin göstergeleri.
  • 27. Sabit kıymetlerin sınıflandırılması, değerlendirme ve yeniden değerleme yöntemleri, hareket, durum ve kullanım göstergeleri.
  • 28. İş istatistiklerinin görevleri. İşgücü piyasasının ana kategorilerinin kavramı ve içeriği.
  • 29. İşgücü kullanımına ve çalışma süresine ilişkin istatistikler.
  • 30. Emek verimliliği göstergeleri ve analiz yöntemleri.
  • 31. Mahsul üretimi ve mahsul verimi göstergeleri. Kültürler ve topraklar.
  • 32. Çiftlik hayvanlarının besi hayvanı üretimi ve üretkenliği göstergeleri.
  • 33. Sosyal maliyetler ve üretim maliyetleri istatistikleri.
  • 34. Ücret ve işçilik maliyetleri istatistikleri.
  • 35. Brüt çıktı ve gelir istatistikleri.
  • 36. Tarım ürünlerinin hareket ve satış göstergeleri.
  • 37. Tarım işletmelerinin istatistiksel analizinin görevleri.
  • 38. Ulusal ekonomi sektörlerinin fiyat ve mal istatistikleri: görevler ve analiz yöntemleri.
  • 39. Mal ve hizmet piyasası istatistikleri.
  • 40. Sosyal üretim göstergelerinin istatistikleri.
  • 41. Tüketici piyasası fiyatlarının istatistiksel analizi.
  • 42. Enflasyon istatistikleri ve değerlendirmesinin ana göstergeleri.
  • 43. İşletme finansmanı istatistiklerinin görevleri.
  • 44.İşletmelerin finansal sonuçlarının ana göstergeleri.
  • 45.Devlet bütçe istatistiklerinin görevleri.
  • 46. ​​​​Devlet bütçe istatistikleri göstergeleri sistemi.
  • 47. Parasal dolaşım istatistikleri göstergeleri sistemi.
  • 48. Ülkedeki para arzının bileşimi ve yapısı ile ilgili istatistikler.
  • 49. Bankacılık istatistiklerinin temel görevleri.
  • 50.Bankacılık istatistiklerinin temel göstergeleri.
  • 51. Kredi kavramı ve sınıflandırılması. İstatistiksel çalışmasının görevleri.
  • 52. Kredi istatistikleri göstergeleri sistemi.
  • 53. Tasarruf işinin temel göstergeleri ve analiz yöntemleri.
  • 54. Borsa ve menkul kıymet istatistiklerinin görevleri.
  • 56. Ticaret borsalarının istatistikleri: görevler ve göstergeler sistemi.
  • 57. Ulusal hesaplar sistemi: kavramlar, ana kategoriler ve sınıflandırma.
  • 58.SNS oluşturmak için temel ilkeler.
  • 59. Temel makroekonomik göstergeler - içerik, belirleme yöntemleri.
  • 60. Sektörler arası denge: kavramlar, görevler, mafya türleri.
  • 62. Nüfusun gelir ve gider istatistikleri
  • 18. Küçük örnekler teorisi.

    Çok sayıda örnekleme birimiyle (n > 100), örnek ortalamasındaki rastgele hataların dağılımı, A.M. Lyapunov teoremine göre normaldir veya gözlem sayısı arttıkça normale yaklaşır.

    Bununla birlikte, bir piyasa ekonomisinde istatistiksel araştırma pratiğinde, küçük örneklerle uğraşmak giderek daha fazla gerekli olmaktadır.

    Küçük bir örnek, birim sayısı 30'u geçmeyen böyle bir örnek gözlemdir.

    Küçük bir örneklemin sonuçları değerlendirilirken genel popülasyonun büyüklüğü kullanılmaz. Olası hata paylarını belirlemek için Student kriteri kullanılır.

    σ değeri, örnek gözlem verileri temelinde hesaplanır.

    Bu değer yalnızca çalışılan popülasyon için kullanılır ve genel popülasyonda σ'nın yaklaşık bir tahmini olarak kullanılmaz.

    Küçük bir numunenin sonuçlarının olasılıksal tahmini, büyük bir numunedeki tahminden farklıdır, çünkü az sayıda gözlemle, ortalama için olasılık dağılımı seçilen birimlerin sayısına bağlıdır.

    Bununla birlikte, küçük bir örneklem için, güven katsayısı t'nin değeri, büyük bir örneklemden farklı bir şekilde olasılık tahmini ile ilişkilidir (çünkü dağılım yasası normal olandan farklıdır).

    Student tarafından oluşturulan dağıtım yasasına göre, olası dağılım hatası hem güven katsayısı t'nin değerine hem de örneklem büyüklüğü B'ye bağlıdır.

    Küçük bir örneğin ortalama hatası aşağıdaki formülle hesaplanır:

    küçük bir örneğin varyansı nerede.

    MW'de n / (n-1) katsayısı dikkate alınmalı ve düzeltilmelidir. S2 varyansını belirlerken, serbestlik derecesi sayısı:

    .

    Küçük bir örneğin marjinal hatası, formülle belirlenir.

    Bu durumda, güven katsayısı t'nin değeri yalnızca verilen güven olasılığına değil, aynı zamanda n örnek birimlerinin sayısına da bağlıdır. Bireysel t ve n değerleri için, küçük bir örneğin güven olasılığı, standart sapma dağılımlarının verildiği özel Öğrenci tabloları ile belirlenir:

    SW sonuçlarının olasılık değerlendirmesi, BV'deki değerlendirmeden farklıdır, çünkü az sayıda gözlemle, ortalama için olasılık dağılımı seçilen birimlerin sayısına bağlıdır.

    19. Numunedeki birimleri seçme yöntemleri.

    1. Numune yeterince büyük olmalıdır.

    2. Örnek popülasyonun yapısı, genel popülasyonun yapısını en iyi şekilde yansıtmalıdır.

    3. Seçim yöntemi rastgele olmalıdır

    Seçilen birimlerin örneğe katılıp katılmadığına bağlı olarak, yöntem ayırt edilir - tekrarlayıcı değildir ve tekrarlanır.

    Tekrarlı olmayan seçim, örneğe düşen birimin daha sonraki seçimin gerçekleştirileceği popülasyona geri gönderilmediği bir seçimdir.

    Tekrarlamayan rastgele bir örneğin ortalama hatasının hesaplanması:

    Tekrarlamayan rastgele örneklemenin marjinal hatasının hesaplanması:

    Yeniden seçim sırasında, örneğe düşen birim, gözlemlenen özellikleri kaydettikten sonra, sonraki seçim prosedürüne katılmak için orijinal (genel) popülasyona geri döner.

    Tekrarlanan basit rastgele örneklemenin ortalama hatasının hesaplanması aşağıdaki gibi yapılır:

    Tekrarlanan rastgele örneklemenin marjinal hatasının hesaplanması:

    Numune oluşturma türü ayrılır - bireysel, grup ve birleşik.

    Seçim yöntemi - genel popülasyondan örnekleme birimleri için belirli bir mekanizma belirler ve şu bölümlere ayrılır: fiilen - rastgele; mekanik; tipik; seri; kombine.

    Aslında, rastgele Rastgele bir örneklemde en yaygın seçim yöntemi, istatistiksel popülasyonun her birimi için seri numaralı bir biletin hazırlandığı piyango yöntemi olarak da adlandırılır. Daha sonra, istatistiksel popülasyonun gerekli sayıda birimi rastgele seçilir. Bu koşullar altında, her birinin örnekleme dahil edilme olasılığı aynıdır.

    mekanik örnekleme. Genel popülasyonun bir şekilde düzenli olduğu, yani birimlerin düzenlenmesinde belirli bir sıra olduğu durumlarda kullanılır.

    Mekanik örneklemenin ortalama hatasını belirlemek için, tekrarlamayan uygun rastgele seçim için ortalama hatanın formülü kullanılır.

    tipik seçim. Genel popülasyonun tüm birimleri birkaç tipik gruba bölünebildiğinde kullanılır. Tipik seçim, rastgele veya mekanik olarak her gruptan birimlerin seçimini içerir.

    Tipik bir örnek için standart hatanın değeri, grup ortalamalarının belirlenmesinin doğruluğuna bağlıdır. Bu nedenle, tipik bir örneğin marjinal hatası formülünde, grup varyanslarının ortalaması dikkate alınır, yani.

    seri seçim. Nüfus birimlerinin küçük gruplar veya seriler halinde birleştirildiği durumlarda kullanılır. Seri örneklemenin özü, tam bir birim araştırmasının gerçekleştirildiği gerçek rastgele veya mekanik seri seçiminde yatmaktadır.

    Seri örnekleme ile örnekleme hatasının boyutu, çalışılan birim sayısına değil, incelenen serilerin sayısına ve gruplar arası varyansın değerine bağlıdır:

    Kombine seçim bir veya daha fazla adımdan geçebilir. Bir kez seçilen popülasyonun birimleri çalışmaya tabi tutulursa, bir örnek tek aşamalı olarak adlandırılır.

    örnek denir çok aşamalı, popülasyonun seçimi aşamalardan, ardışık aşamalardan ve her aşamadan geçiyorsa, seçim aşamasının kendi seçim birimi vardır.

    "
     


    Okumak:



    5 momentum jet tahrikinin korunumu yasası

    5 momentum jet tahrikinin korunumu yasası

    uzay araştırması. Yarı iletken diyot, p-p - geçişi ve özellikleri. Yarı iletken cihazların kullanımı. Uygulama görevi 1...

    Hırslı kişi, nedir?

    Hırslı kişi, nedir?

    Okuma süresi: 5 dakika Hırs, bir kişinin yüksek bir pozisyon, belirli onurlar elde etme, gözle görülür başarı elde etme arzusudur ...

    Ekolokasyon ve benzer cihazların isimleri

    Ekolokasyon ve benzer cihazların isimleri

    Konuyla ilgili mesaj: “ECHO, ECHOLOADER, ECHOLOCATION” Rusya Federasyonu Savunma Bakanlığı, Sivastopol ECHO'nun 8 numaralı ortaokulu Andrey Kosogorov'un sınıfındaki 9 B öğrencilerinin çalışmaları (içindeki perisi Echo adına) ...

    Hırs ve kibir nedir

    Hırs ve kibir nedir

    , bilgi veya güç . Amaçlı olmanın aksine, hırs, bir kişinin özgecil hedeflerinden ziyade kişisel hedeflerine yöneliktir. Farklı...

    besleme resmi RSS