Öncelikle nicel araştırmalarda hedef popülasyon (target population) hakkında çıkarımlarda bulunmak istiyorsak mutlaka olasılıklı örnekleme yöntem veya yöntemlerinin kullanılması gerektiğini belirtelim. Çünkü yapılan tezlerde, yayınlanan bazı makalelerde ya da araştırma raporlarında bu konuya yeterince önem verilmediği ve yada konunun yeterince bilinmediği görülmektedir. Bu durum yapılan bilimsel çalışmanın niteliğinin sorgulanmasına neden olmaktadır.
Olasılıklı örneklemede temel felsefe popülasyonu oluşturan her popülasyon biriminin örnekleme seçilme şansının eşit olmasıdır. Olasılıklı örnekleme yöntemlerinden biri olan tabakalı örnekleme (stratified sampling)’de, popülasyon ya da evren, tabaka adı verilen üst üste binmeyen gruplara bölünür ve her tabaka içindeki bazı tasarımlarla bir örneklem seçilir. Tabakalı örnekleme tasarımları, popülasyondaki her örnekleme birimi için bilinen belirli bir özelliğe dayalı olarak bir popülasyonun tabakalara bölünmesini ve ardından her bir tabakadan bağımsız olarak örneklemlerin seçilmesini içerir. Bu tasarım, farklı tabakalarda örnekleme yöntemlerine esneklik kazandırır ve her tabaka göreceli olarak kendi içerisinde homojen birimlerden oluştuğunda, hedef parametrelerin tahminlerinde iyi kesinlik (precision) elde edilir.
Tabakalı örnekleme tasarımı, popülasyonun belirli bölümlerinin kolayca hedeflenmesini de sağlar. Örneğin, coğrafi bölgeler, habitat türü, yükseklik veya toprak türü gibi bilinen bazı değişkenler aracılığıyla benzer bölgelere ayrılabilir. Bir başka örnek, bir fabrikada monte edilen kusurlu ürünlerin oranlarını belirlemek olabilir. Bu durumda, örnekleme, üretim hatları, fabrika vb. faktörlere göre tabakalandırılabilir. Hatta COVID-19 pandemisinden örnek vermek gerekirse illeri COVID-19 vaka sayılarına göre 4 farklı şekilde tabakalandırabiliriz. Örneğin, mavi rengin az riskli, sarı rengin orta riskli, turuncu rengin yüksek riskli ve kırmızı rengin çok yüksek riskli iller olmak üzere Türkiye’yi 4 farklı tabakaya ayırabiliriz.
Tabakalı örnekleme genellikle tabakalar arasında eşit tahsis ile yapılır. Bu, örneklemdeki tabaka oranlarının popülasyondaki karşılık gelen oranları temsil etmediği anlamına gelir. Bu sorunu çözmek için, her tabaka için o tabaka büyüklüğünün toplam popülasyona oranı (sampling fraction (f)=n/N) olarak tanımlanan tabaka ağırlıkları dikkate alınarak örneklem büyüklüklerinin belirlenmesi gerekir. Bu yapıldığında, her tabaka için tahminler yanlılık (bias) içermez ve ilgili tabaka büyüklükleri ile çarpılan tabaka ağırlıkları (diğer bir ifadeyle f) tabaka büyüklükleri toplamına eşit olan popülasyon (N) tahminleri de yansız olur. Her tabaka için tarafsız bir tahmincinin varlığı, aynı tasarım için tabakadaki tüm olası örneklemler üzerindeki tahminlerin ortalamasının, tahmin edilen gerçek parametreye eşit olduğu anlamına gelir. Tabaka ağırlıkları doğru bir şekilde hesaplanmazsa, tahminde yanlılığa neden olur. Genel olarak, uygun tabakalı bir örneklemin ağırlıklı ortalaması, popülasyondan basit tekrarsız tesadüfi örnekleme (SRSWOR) ile çekilen örneklemin aritmetik ortalamasından daha az değişkenliğe yani varyansa sahiptir. Tabaka ağırlıkları, tabakalı veriler için varyans tahmininde de kullanılabilir.
Tabakalı örneklemenin mantıklı olacağı birkaç ek örnek düşünebilir misiniz? Tabakalı örneklemede amaç, tabakalar içinde homojenliği yani varyansı azaltmaktır. Tabakalar arasında ise heterojenlik söz konusudur. Tabakalı örnekleme çeşitli avantajları nedeniyle çoğu büyük ölçekli araştırmada kullanılmaktadır.
Tabakalı örneklemenin avantajları nelerdir?
- Alt popülasyonların tahmini: Nüfus özelliklerinin tahminlerinin sadece tüm popülasyon için değil, aynı zamanda farklı alt popülasyonları için gerekli olduğu durumlarda, bu tür alt popülasyonlar tabaka olarak ele alınmalıdır. Örneğin, ulusal bir işsizlik anketinde, hükümet tüm ülke için ve il düzeyinde işsizlik rakamlarını tahmin etmekle ilgilenebilir. Bu durumda her il bir tabaka olarak alınabilir.
- İdari uygunluk: Araştırmayı yürüten kurum, araştırmanın verimli bir şekilde denetlenebilmesi için nüfusu tabakalı hale getirebilir. Örneğin kurum, her tabaka için ayrı ayrı araştırma yapmak üzere ayrı denetmenler atayabilir.
- Örneklemin popülasyonu temsil kapasitesi: Tabakalı örneklemede, tabakaların oluşturulması ve örneklemlerin farklı tabakalara atanması, örneklemin çalışılan özelliklere göre popülasyonu temsil edebileceği şekilde yapılabilir. Örneğin, Türkiye’de farklı etnik grupları temsil eden bir okuldan öğrenci örneklemini seçmek istersek, okulun tamamından basit tesadüfi örnekleme (SRSWOR) ile seçilen örneklem temsil edici olmayabilir. Bu durumda, tabaka olarak farklı etnik gruplarını kullanan tabakalı bir örneklemenin, tüm okuldan alınan bir SRSWOR örnekleminden daha temsili bir örneklem olması beklenir.
- Etkinlik: Tabakalı örneklemede, her bir tabakanın çalışılan özelliğe göre homojen hale gelmesini sağlayacak şekilde tabakalar oluşturarak tahminlerin etkinliği artırılabilir. İlgili tabakalara uygun örnekleme şemaları, tahmin edicilerin etkinliklerini artırabilir.
- İyileştirilmiş veri kalitesi: Farklı tabakalarda farklı araştırmacılar kullanılarak iyileştirilmiş veri kalitesi elde edilebilir. Örneğin, yerel dilleri bilen araştırmacılar kırsal alanlarda görevlendirilebilirken, kentsel alanlarda İngilizce bilen araştırmacılar daha avantajlı olabilir.
- Maliyet: Araştırmada gözlem başına maliyet, popülasyon unsurlarının uygun tabakalara ayrılmasıyla azaltılabilir.
Tabakalı örneklemede notasyonlar şöyledir:
L = tabaka sayısı
Nh = her h. tabakadaki popülasyon büyüklüğü
nh = her h. tabakadan çekilen örneklem büyüklüğü
N = popülasyondaki toplam birim sayısı ya da popülasyon büyüklüğü, yani N1 + N2 + … + NL
Kafamızda canlanması adına tabakalı örnekleme yöntemi Şekil 1 üzerinde gösterilmiştir. Şekil 1’de SRSWOR ifadesi basit tesadüfi tekrarsız örnekleme anlamına gelmekte olup bu örnekleme tekniğinin literatürdeki kısaltılışıdır. Şekil 1 tabakalı örneklemeyi ortaya koysa da biraz bahsetmekte fayda vardır. Popülasyon veya evrenden belirlediğimiz birimlerden tabakalara atanmış popülasyon birimleri üzerinden seçim yaparız. Burada tabaka örneklem (n) büyüklükleri eşit tahsis şeklinde olabileceği gibi orantılı tahsis şeklinde de olabilir. Ancak bu iki yaklaşımdan orantılı olanı tabaka örneklemlerinin popülasyondaki tabakaları temsil etmesi açısından daha iyidir ve tabakalar içerisindeki varyansı eşit seçime göre daha da azaltırsınız. Tabaka örneklem büyüklüklerini belirledikten sonra sıra popülasyon tabakalarından örneklem tabakalarına örneklem birimlerinin seçiminde hangi olasılıklı örnekleme yöntemini benimseyeceğimize gelmektedir. Şekil 1’de görüleceği üzere burada araştırma tasarımına bağlı olarak basit tesadüfi tekrarsız örnekleme veya sistematik olasılıklı yöntemlerinden biri seçilebilir. Çalışmanın sonunda yararlanılan kaynaklar kısmında bu iki örnekleme yöntemleri üzerine R programla dili ve Microsoft Excel kullanarak uygulama olarak yaptığım örnek çalışmaların linklerine yer verilmiştir. Buradan bu iki olasılıklı örnekleme yöntemini uygulamalar üzerinden yakından inceleyebilirsiniz.
Şekil 1: Tabakalı Örnekleme Yöntemi
Örnek Uygulama
Tabakalı örneklemeden bahsettikten sonra şimdi uygulama aşamasına geçebiliriz. Uygulamada kullanılan popülasyon veri seti beden kitle endeksi (BKİ) değerlerini içeren ve 1000 (N) gözlemden oluşan sentetik veri setidir. Olasılıklı örneklem yöntemlerinden basit tekrarlı tesadüfi örnekleme yöntemiyle 7 ve 50 aralığında BKİ değerleri üretilmiştir. BKİ değerleri üretilirken Sağlık Bakanlığı resmi web sitesindeki BKİ alt ve üst referans değerlerinden yararlanılmıştır. Burada belirlenen BKİ alt ve üst limitleri şöyledir:
Parametre Değeri | Kategori |
18,5 kg/m2’nin altında ise | zayıf |
18,5-24,9 kg/m2 arasında ise | normal kilolu |
25-29,9 kg/m2 arasında ise | fazla kilolu |
30-34,9 kg/m2 arasında ise | I.Derece obez |
35-39,9 kg/m2 arasında ise | II.Derece obez |
40 kg/m2 üzerinde ise | III.Derece morbid obez |
Yukarıdaki tablodaki göstergelerden oluşturulan popülasyon (N) veri seti üzerinden tabakalı örnekleme yapılmıştır. Söz gelimi araştırma kapsamında bu tabakalarda yer alan bireylerle yüz yüze görüşme (face to face interview) yapılarak bu bireylerin beslenme ve sağlıklı yaşam alışkanlıkları araştırılsın. Çalışmanın sonunda tabakalı örnekleme çalışması simülasyonu paylaşılmıştır. Bu simülasyonda tabaka örneklem büyüklüğünün belirlenmesinden örneklem seçimine kadar pek çok konu bulunmaktadır. Zaten simülasyonu inceleyince konuyu çok yüksek ihtimalle ayrıntılı bir şekilde öğrenmiş olacaksınız. Tablo 1’de BKİ (Beden Kitle Endeksi) değerleri kategorize edilmiş ve tabaka olarak alınmıştır. Tabaka sayımız yani L=6, popülasyon büyüklüğü (N) ise 1000’dir.
Tablo 1: Tabakalar (L=6) ve Büyüklükleri
Tabaka | N |
Zayıf | 257 |
Normal Kilolu | 161 |
Fazla Kilolu | 119 |
I.Derece Obez | 114 |
II.Derece Obez | 122 |
III.Derece Morbid Obez | 227 |
Toplam | 1000 |
Tabaka örneklemlerinin popülasyonu ve popülasyon tabakalarını daha iyi temsil etmesini istediğimiz için orantılı tahsis yöntem ile tabaka örneklem büyüklüklerini belirliyoruz. Ancak tabaka örneklem büyüklüğüne geçmeden önce popülasyon büyüklüğünün bilindiğinden hareketle popülasyondan çekilecek örneklem büyüklüğünü aşağıda yazılan eşitlikle hesaplayalım.
Aşağıdaki eşitlikte kullanılan parametreler içerisinde
N=Popülasyon büyüklüğünü
n=Örneklem büyüklüğünü
p= Olayın görülüş olasılığını
q= (1-p) = Olayın görülmeme olasılığını
t= t tablo değerini
d= Tolerans seviyesini
göstermektedir.
Örneklem büyüklüğünün hesaplanmasında bilinen parametreler aşağıdakiler olsun:
N=1000
p=0,05
q=0,05
t=1,96
d=0,05
Verilenlere göre popülasyondan çekilecek örneklem büyüklüğünü hesaplayalım.
Bu çalışmada söz gelimi popülasyondan çekeceğimiz örneklem büyüklüğü (n) yaklaşık 278’dir. Tabakaların örneklem büyüklüklerini hesaplamak için bu aşamada yapılacak ilk işlem tabaka ağırlığı (w)’nın hesaplanmasıdır. Tabaka ağırlığı, n/N eşitliği ile hesaplanmaktadır. Bu çalışmada belirlenen tabaka ağırlığı (w) = n/N=277,7/1000=0,2777‘dir.
Daha sonra bu ağırlık katsayısı ile tabaka büyüklüğü (Ni) çarpılarak tabaka örneklem büyüklükleri belirlenmektedir. Bu durumda tabakalara göre hesaplanan örneklem büyüklükleri Tablo 2’de verilmiştir. Burada somutlaştırmak adına Zayıf tabakasının örneklem büyüklüğünü hesaplayalım.
- Zayıf tabakası (n1) için örneklem büyüklüğü n1=(257x 0,2777=71‘dir. Bu işlem diğer tabakalara da uygulanırsa Tablo 1’de en sağ sütundaki sonuçlar elde edilmiş olur.
- Tabaka örneklem büyüklükleri belirlendikten sonra sıra tabaka örneklem (n) büyüklüklerine göre tabakalardan örneklem birimlerini seçmeye gelmiştir. Bu aşamada olasılıklı örnekleme yöntemlerinden biri olan basit tesadüfi tekrarsız örnekleme (SRSWOR) veya sistematik örnekleme yöntemini kullanabilirsiniz. Bu çalışmada kullanılan olasılıklı örnekleme yöntemi SRSWOR’dur. Bu örnekleme yönteminde tabakalardaki popülasyon birimlerinin her birine tabaka örneklemlerine eşit seçilme şansı veriyoruz.
Tablo 2: Tabakalar (L=6) ve Tabaka Örneklem (n) Büyüklükleri
Tabaka | N | Örneklem (n) Büyüklüğü |
Zayıf | 257 | 71,0 |
Normal Kilolu | 161 | 45 |
Fazla Kilolu | 119 | 33 |
I.Derece Obez | 114 | 32 |
II.Derece Obez | 122 | 34 |
III.Derece Morbid Obez | 227 | 63 |
Toplam | 1000 | 278 |
Bahsedilenler Şekil 2 üzerinde de özetlenmiştir.
Şekil 2: Tabakalı Örnekleme Uygulaması
Örnek uygulamadaki yapılanları ve tabaka örneklem birimlerinin seçimini göstermesi adına örneklem büyüklüğü (n) 278’de sabitlenmiş olup, aşağıda Microsoft Excel uzantılı (xlsx) olarak paylaşılmıştır. Buradan bu dokümanı indirebilirsiniz.
Örnek uygulama üzerinden hazırladığım simülasyon çalışması da aşağıda Microsoft Excel uzantılı (xlsx) olarak paylaşılmıştır. Burada örneklem büyüklüğü (n) tesadüfi bir şekilde belirlenmekte olup, çalışmalarınıza da uyarlayabilirsiniz. Bu simülasyonda örneklem büyüklüğünü sizin belirlemenize gerek bulunmamaktadır. =RASTGELEARADA(300;750) fonksiyonu ile 300 ile 750 arasında tesadüfi bir şekilde örneklem büyüklüğü belirlenmektedir. Aynı zamanda çalışma içerisinde F9 tuşuna basılı tutarak simulasyondan basit tekrarsız tesadüfi örnekleme yöntemiyle yeni örneklem birimleri seçebilirsiniz. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde olasılıklı örneklem seçiminden örneklem büyüklüğünün belirlenmesi kadar pek çok konu mevcuttur.
Buradan simülasyon çalışmasını indirebilirsiniz.
Simülasyon çalışmasında bazı sayfalardaki formüller şifre ile korunmuştur. Değişiklik yapılması istenmesi durumundan sayfa korumasının kaldırılması için şifre olarak “tevfik” girilmesi yeterlidir. Özellikle bu simülasyon çalışmasının sahada ve akademide faaliyet gösteren çalışanlara çok faydalı olacağı düşünülmektedir. Bu çalışmanın içerisinde olasılıklı örneklem seçiminden örneklem büyüklüğünün belirlenmesine kadar pek çok konu mevcuttur. Bu simülasyonda örneklem büyüklüğünü tesadüfi bir şekilde belirlendiğinden sizin belirlemenize gerek bulunmamaktadır.
Faydalı olması ve farkındalık oluşturması dileğiyle.
Bilimle ve teknolojiyle kalınız.
Saygılarımla…
Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.
Note: It can not be cited or copied without referencing.
Yararlanılan Kaynaklar
- https://www.sciencedirect.com/topics/mathematics/stratified-sampling
- https://online.stat.psu.edu/stat506/lesson/6/6.1
- https://tevfikbulut.com/2019/09/14/microsoft-excelde-tekrarsiz-basit-tesadufi-ornekleme-uzerine-bir-vaka-calismasi-a-case-study-on-simple-random-sampling-srs-without-replacement-in-microsoft-excel/
- https://tevfikbulut.com/2020/05/20/r-programlama-diliyle-sistematik-ornekleme-uzerine-bir-vaka-calismasi-a-case-study-on-systematic-sampling-with-r-programming-language/
- https://tevfikbulut.com/2020/05/17/tekrarsiz-basit-tesadufi-ornekleme-yontemi-kullanilarak-z-tablosu-uzerinden-guven-araliginin-hesaplanmasina-yonelik-bir-simulasyon-calismasi-a-simulation-study-for-the-calculation-of-confidence-inter/
- https://tevfikbulut.com/2020/05/18/tekrarsiz-basit-tesadufi-ornekleme-yontemi-kullanilarak-t-dagilim-tablosu-uzerinden-guven-araliginin-hesaplanmasina-yonelik-bir-simulasyon-calismasi-a-simulation-study-for-the-calculation-of-confiden/
- https://tevfikbulut.com/2020/05/09/guven-araligi-hesaplama-confidence-interval-ci-calculation/
- https://tevfikbulut.com/2019/09/14/microsoft-excelde-tekrarsiz-basit-tesadufi-ornekleme-uzerine-bir-vaka-calismasi-a-case-study-on-simple-random-sampling-srs-without-replacement-in-microsoft-excel/
- https://www.sbn.gov.tr/BKindeksi.aspx
- https://www.statisticshowto.com/probability-and-statistics/confidence-interval/
- http://www.stat.yale.edu/Courses/1997-98/101/confint.htm
- https://researchbasics.education.uconn.edu/confidence-intervals-and-levels/
- https://researchbasics.education.uconn.edu/confidence-intervals-and-levels/
- https://online.stat.psu.edu/statprogram/reviews/statistical-concepts/confidence-intervals
- http://web.pdx.edu/~stipakb/download/PA551/boxplot.html
- https://www.got-it.ai/
- Field, Andy. (2009). Discovering Statistics Using SPSS. Third Edition.
- Leedy ve Ormrod (2021). Practical Research: Planning and Design.
- http://www.imatheq.com/imatheq/com/imatheq/math-equation-editor.html