Bir çok analiz yönteminin temelini olasılık dağılımları oluşturmaktadır. İşin esasında olasılık dağılımları tam anlaşılmadan analiz yöntemleri ile istenilen sonuçların elde edilmesi tek başına bazıları için yeterli olsa da işin felsefesini anlamak açısından kesinlikle yetersizdir. Bu nedenle bu çalışmada öncelikle kesikli (discrete) ve sürekli (continuous) dağılımlar başlıklar halinde verildikten sonra kesikli dağılım türlerinden biri olan Poisson dağılımı uygulama örnekleriyle ele alınarak somutlaştırılacaktır. Uygulama örnekleri ağırlıklı olarak R programlama dili kullanılarak adım adım yapılacaktır.
Rastlantı ya da kesin olmayan olaylarla ilgilenen olasılık teorisi, rastlantı olaylarını belirli kurallara göre matematik disiplininde inceleyen bir bilim dalıdır. Burada, rastlantı olayından kasıt gerçekleşmesi şansa bağlı olan önceden bilinmeyen olaylardır.
İstatistikte ve makine öğrenmede, diğer bir deyişle veri biliminde sıklıkla kullanılan örneklem uzayına bağlı olarak olasılık fonksiyon türleri kesikli ve sürekli olmak üzere iki ana başlıkta ele alınmaktadır.
- Kesikli Olasılık Fonksiyonu: Olasılık fonksiyonlarından ilki olan kesikli olasılık fonksiyonu örneklem uzayından elde edilen sonlu veya sayılabilir sonsuz sayıda ayrık sonuçları içermektedir.
- Sürekli Olasılık Fonksiyonu: Olasılık fonksiyonlarından diğeri sürekli olasılık fonksiyonu ise örneklem uzayından elde edilen sayılamayacak sonsuz sayıda ve ayrık olmayan sonuçları içermektedir.
Kesikli olasılık fonksiyonu ile sürekli olasılık fonksiyonu arasındaki temel fark şöyle ifade edilebilir: Kesikli olasılık fonksiyonunda kesikli örneklem uzayı noktaları, sürekli olasılık fonksiyonunda sürekli örneklem uzayı ise aralıkları baz almaktadır.
Bahsedilen kesikli ve sürekli olasılık fonksiyonlarına göre dağılımlar iki ana başlık altında verilmektedir.
A) Kesikli Dağılımlar (Discrete Distributions)
- Bernoulli Dağılımı
- Kesikli Uniform Dağılımı
- Binom Dağılımı
- Poisson Dağılımı
- Negatif Binom Dağılımı
- Geometrik Dağılım
- Hipergeometrik Dağılımı
B) Sürekli Dağılımlar (Continuous Distributions)
- Normal Dağılım
- Tekbiçimli Uniform Dağılım
- Cauchy Dağılımı
- t Dağılımı
- F Dağılımı
- Ki-kare Dağılımı
- Üstel Dağılım
- Weibull Dağılımı
- Lognormal Dağılımı
- Birnbaum-Saunders
- Gamma Dağılımı
- Çift Üstel Dağılımı
- Güç Normal Dağılımı
- Güç Lognormal Dağılımı
- Tukey-Lambda Dağılımı
- Uç Değer Tip I Dağılımı
- Beta Dağılımı
Poisson Dağılımı
Poisson dağılımı Fransız matematikçi Siméon Denis Poisson tarafından geliştirilmiştir. Poisson dağılımı, bir olayın belirli bir zaman veya mekan aralığında kaç kez meydana geldiğini modellemek için kullanılmaktadır. Poisson dağılımı sağa çarpık (right skew) bir görünüm sergilemektedir. Bu dağılım sürekli dağılımlardan biri olan normal dağılımın aksine kesikli dağılım türlerinden biridir. Bu dağılım Poisson regresyon analizinin temelini oluşturmakta olup, bağımlı değişkenin Poisson dağılımı gösterdiği durumlarda kullanılmaktadır. Poisson regresyon analizinde bağımlı değişkenin veri tipi nicel pozitif ve aynı zamanda kesiklidir. Yapılan Covid-19 testlerinin sayısı, vaka sayısı, ölüm sayısı gibi değişken istatistikleri bu modellerde kullanılabilecek değişkenlere örnek verilebilir.
Poisson dağılımında kullanılan parametreler Tablo 1’de verilmiştir. Bu dağılımda ortalama sıfırdan büyük ve varyansa eşit veya ona yakındır Ayrıca örneklem uzayı doğal sayılar kümesi (N)’nden oluşmaktadır. Tabloda lambda değeri bize ortalama değeri göstermektedir.
Tablo 1: Poisson Dağılım Parametreleri
Teorik olarak varyansın ve ortalamanın birbirine eşit veya yakın olması istense de uygulamada bu durum pek mümkün olmamaktadır. Genelde pratikte karşılaşılan sorunların başında varyansın ortalamanın üstünde olmasıdır. Bu durum veri setindeki ilgili değişken setindeki gözlemlerin aşırı yayılım (overdispersion) gösterdiği anlamına gelmektedir. Uygulamada az da olsa karşılaşılan diğer durumda ilgili değişken setinin eksik yayılım (underdispersion) göstermesidir. Bu durumda ise varyans ortalamanın çok altındadır. Veri setindeki aşırı ve eksik yayılım durumlarını ortaya koymak için uyum iyiliği testleri (goodness of fit) yaparız. Bu testler analize en uygun yöntemin belirlenmesi için yapılmaktadır. Eğer uyum iyiliği testleri veri setinde aşırı yayılımı gösteriyorsa Poisson regresyon yönteminden vazgeçerek Negatif Binom regresyonu seçeriz. Çünkü Poisson regresyon, diğer bir ifadeyle Poisson dağılım varsayımını ihlal etmişizdir.
Poisson Olasılık Kütle Fonksiyonu (PMF)
Tablo 1’deki parametreler kullanılarak oluşturulan Poisson olasılık kütle fonksiyonu (PMF) aşağıdaki eşitlikte verilmiştir.
Eşitlikte e= Euler’in sabiti olarak ifade edilmektedir. Bu katsayı yaklaşık 2,71828’e eşittir. Eşitlikte yer verilen lambda (λ) belirli zaman aralığında meydana gelen vakaların ortalama sayısını göstermektedir. x ise eşitlikte hedeflenen vaka sayısını belirtmektedir. x = 0, 1, 2, …, n > 0 ve 0 < p ≤ 1. n büyürken p küçülürse Binom dağılımı Poisson dağılımına evrilir.
Örnek Uygulamalar
Örnek uygulamalara geçilmeden önce R’da yüklenmesi gereken kütüphaneleri aşağıda verelim. Daha önce aşağıdaki kütüphaneler kurulmamışsa lütfen kurunuz. R studio’yu sıklıkla kullandığım için gerek arayüzünün kullanım kolaylığı gerekse verimli olması açısından R konsol yerine R Studio arayüzünün kullanılması önerilmektedir. Eğer R yüklü değilse yapılan bu işlemleri bulutta yer alan R programlama yazılımını da kullanarak yapabilir ve R Studio arayüzünden bu platform üzerinden yararlanabilirsiniz. Sıklıkla bulut üzerindeki R Studio’yu da şahsen kullanmaktayım. Aşağıda linkten buluta giriş sağlayabilirsiniz. Sıklıkla
RStudio Cloud: https://login.rstudio.cloud/
gereklikütüphaneler<-sapply(c("dplyr","tibble","tidyr","ggplot2","formattable","ggthemes","readr","readxl","xlsx","ggpubr","formattable", "ggstance","vcd"), require, character.only = TRUE)
gereklikütüphaneler
Örnek 1: Ortalama, Varyans, Basıklık ve Çarpıklık Değerlerinin Hesaplanması
İlk olarak Poisson dağılımında ortalama, varyans, basıklık ve çarpıklık değerlerine bakalım. Poisson dağılımına uygun popülasyon büyüklüğü 1000 ve Lambda değeri 1 olan sentetik gözlem değerleri ürettikten sonra aşağıda yazılan R kod bloğunda Poisson dağılımına ait ortalama, varyans, basıklık ve çarpıklık değerlerini hesaplayalım. Ardından gerçekten 1000 gözlemden oluşan veri setinin Poisson dağılımına uyup uymadığını uyum iyiliği testi ile test edelim. Bu durumda hipotez testlerimiz;
- H0 yani yokluk hipotezimiz veri setinin Poisson dağılımı gösterdiği
- H1 yani alternatif hipotezimiz ise veri setinin Poisson dağılımı göstermediği
şeklinde olacaktır.
#Poisson dağılımına uygun popülasyon büyüklüğü 1000 ve Lambda değeri 1 olan örneklem üretme
set.seed(61)#örneklem uzayının elemanlarını sabitlemek için
poisorneklem<-rpois(n=1000, lambda=2)#örneklem uzayı
#Ortalama, varyans, basıklık ve çarpıklık değerlerinin hesaplanması
ortalama=mean(poisorneklem)
varyans=var(poisorneklem)
carpiklik=1/sqrt(varyans)
basiklik= 1/varyans
formattable(cbind(ortalama, varyans,carpiklik, basiklik) %>% as_tibble() %>% mutate_if(is.numeric, round,3))
#Veri setinin histogramı
ggplot(as_tibble(poisorneklem), aes(x=value))+geom_bar(bins=100,binwidth=.5, fill="red")+
xlab("Örneklem Uzayı")+
ylab("Sıklık")+
ggtitle("Veri Setinin Histogramı")+
theme_replace()
#Poisson dağılımı uyum iyiliği testi (goodness of fit)
veri<-table(poisorneklem)#sıklıklarını almak için
uyum <- goodfit(veri, type = "poisson", method = "MinChisq")
summary(uyum)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra Poisson dağılımına ait elde edilen ortalama, varyans, çarpıklık ve basıklık değerleri aşağıdaki tabloda verilmiştir. Aşağıda elde edilen bulgulara göre veri setinin ortalama ve varyansı birbirine oldukça yakın olsa da hem histogramının çizilmesi hem de uyum iyiliği testi de yapılarak Poisson dağılımına uygun olup olmadığına bakılması yerinde olacaktır.
Yukarıdaki R kod bloğunda ilgili alan çalıştırıldığında elde edilen veri setine ait histogram aşağıda verilmiştir. Daha önce Poisson dağılımının sağa çarpık (right skew) bir görünüm sergilediğini belirtmiştik. Aşağıdaki histogramda da görüleceği üzere veri seti Poisson dağılımına uygun bir görünüm ortaya koymaktadır.
Yukarıdaki R kod bloğunda ilgili alan çalıştırıldığında elde edilen uyum iyiliği testi sonuçları ise aşağıda verilmiştir. Elde edilen sonuçlar istatistiksel olarak anlamlı olmadığı için veri setimiz Poisson dağılımına uygundur (p>0.05). Bu durumda yukarıda belirttiğimiz H0 hipotezimi kabul ediyoruz.
Chi-squared approximation may be incorrect
Goodness-of-fit test for poisson distribution
X^2 df P(> X^2)
Pearson 3.231822 6 0.7792386
Şimdi de Poisson dağılımına uygun olarak aynı popülasyon büyüklüğüne sahip ancak farklı lambda değerleriyle karşılaştırmalı olarak poisson dağılıma grafik üzerinde bakalım. Aşağıda yazılan R kod bloğu ile popülasyon büyüklüğü (N) 1000, lambda düzeyleri ise sırasıyla 1, 1,5, 2, 2,5, 3 ve 3,5 olan poisson eğrileri verilmiştir. Poisson eğrilerine daha yakından bakacak olursak eğrilerin izlediği seyri daha da iyi anlayabiliriz.
set.seed(6)
orneklem<-1000
l1<-ggdensity(rpois(orneklem, lambda=1),main="λ=1", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l2<-ggdensity(rpois(orneklem, lambda=1.5),main="λ=1.5", col="orange", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l3<-ggdensity(rpois(orneklem, lambda=2),main="λ=2", col="grey",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l4<-ggdensity(rpois(orneklem, lambda=2.5),main="λ=2.5", col="brown",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l5<-ggdensity(rpois(orneklem, lambda=3),main="λ=3", col="green",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l6<-ggdensity(rpois(orneklem, lambda=3.5),main="λ=3.5", col="red",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
ggarrange(l1,l2,l3,l4,l5,l6)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir.
Şimdi de Poisson dağılımına uygun olarak farklı popülasyon büyüklüğüne sahip ancak farklı lambda değerleriyle karşılaştırmalı olarak poisson dağılıma grafik üzerinde bakalım. Aşağıda yazılan R kod bloğu ile popülasyon büyüklükleri (N) 100, 300, 500, 700, 900 ve 1100 olan ve lambda düzeyleri ise sırasıyla 1, 1,5, 2, 2,5, 3 ve 3,5 olan poisson eğrileri verilmiştir. Burada amaç, farklı popülasyon büyüklükleri ve lambda değerleri olduğunda Poisson dağılımının izlediği seyrin gösterilmesidir.
l1<-ggdensity(rpois(100, lambda=1),main="λ=1, N=100", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l2<-ggdensity(rpois(300, lambda=1.5),main="λ=1.5, N=300", col="orange", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l3<-ggdensity(rpois(500, lambda=2),main="λ=2, N=500", col="grey",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l4<-ggdensity(rpois(700, lambda=2.5),main="λ=2.5, N=700", col="brown",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l5<-ggdensity(rpois(900, lambda=3),main="λ=3, N=900", col="green",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l6<-ggdensity(rpois(1100, lambda=3.5),main="λ=3.5, N=1100", col="red",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
ggarrange(l1,l2,l3,l4,l5,l6)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir.
Diğer lambda değerini 1’de sabitleyerek farklı popülasyon büyüklüklerine göre de Poisson dağılımındaki farklılaşmaları görebiliriz. Bu amaçla yazdığım R kod bloğu aşağıda verilmiştir.
l1<-ggdensity(rpois(100, lambda=1),main="λ=1, N=100", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l2<-ggdensity(rpois(300, lambda=1.5),main="λ=1, N=300", col="orange", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l3<-ggdensity(rpois(500, lambda=2),main="λ=1, N=500", col="grey",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l4<-ggdensity(rpois(700, lambda=2.5),main="λ=1, N=700", col="brown",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l5<-ggdensity(rpois(900, lambda=3),main="λ=1, N=900", col="green",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l6<-ggdensity(rpois(1100, lambda=3.5),main="λ=1, N=1100", col="red",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
ggarrange(l1,l2,l3,l4,l5,l6)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir. Elde edilen bulgular örneklem büyüklüğü artıkça Poisson dağılımının normal dağılıma evrildiğini göstermektedir. Gerek bundan önce grafikler ve gerekse aşağıdaki grafikler lamda değerlerinin dağılımın seyri üzerinde önemli bir etkisi olmadığını göstermektedir.
Örnek 2: Kütle Olasılık Fonksiyonu (PMF)’nun Hesaplanması
1868–1931 yılları arasında yaşamış olan Polonya kökenli Rus istatistikçi ve ekonomist Ladislaus von Bortkiewich 1898 yılındaki monografında Poisson dağılımı aşağıdaki örnekle ele alınmıştır. Diğer bir ifadeyle, Ladislaus von Bortkiewich kesikli olasılık dağılımlarından Poisson dağılımını uygulamalı istatistikte nasıl kullanılacağını göstermiştir.
Ladislaus von Bortkiewich monografında Prusya Süvari birliklerindeki askerler içerisinde at tekmesi sonucu ölenlerin sayılarını dağılımını Poisson olasılık fonksiyonu ile modellemiştir. Ladislaus von Bortkiewich’ın monografında at tekmesi sonucu meydana gelen ölümlerde kullanılan veriler aşağıdaki tabloda verilmiştir.
Yukarıdaki tabloda verilere uygulanan Poisson olasılık fonksiyon değerleri R bilmeyenler de dikkate alınarak Microsoft Excel üzerinde hesaplanarak aşağıdaki tabloda bir bütün olarak verilmiştir. Poisson olasılık fonksiyon değerlerinin hesaplanmasında daha önce bahsedildiği gibi aşağıdaki eşitlikten faydalanılmıştır.
Aşağıdaki tabloda Poisson olasılık değerinin hesaplanmasında yukarıdaki eşitlik kullanılmış olup, ilk satırda kullanılan excel formülü söyledir:
- =(F3^B3*ÜS(1)^-F3)/ÇARPINIM(B3). Formülde yer alan ÜS(1) fonksiyonu bize Euler sabitini yani 2,718281828 değerini vermektedir. ÇARPINIM() fonksiyonu ise bir değerin faktöriyelini hesaplamak için kullanılmıştır.
Yukarıda bahsedilen işlemlerin daha kalıcı olması ve formül etkileşimlerini görebilmeniz adına aşağıda xlsx uzantılı dökümanı paylaşıyorum.
Yukarıdaki aynı örneği şimdi de R üzerinde yapalım.
options(scipen = 999)#bilimsel notasyondan sayıları kurtarmak için
x<-c(rep(0,109),rep(1,65), rep(2,22),rep(3, 3),rep(4,1))#excel tablosundaki ilk iki değişkeni gözlemleriyle birlikte oluşturmak için
lambda<-mean(x)#0.61
e<-2.71828 #Euler'in sabiti
sıfır<-(e^-lambda)*(lambda^0)/factorial(0)
bir<-(e^-lambda)*(lambda^1)/factorial(1)
iki<-(e^-lambda)*(lambda^2)/factorial(2)
uc<-(e^-lambda)*(lambda^3)/factorial(3)
dort<-(e^-lambda)*(lambda^4)/factorial(4)
formattable(tibble(sıfır, bir,iki,uc,dort)%>% mutate_if(is.numeric, round, 5))
Yukarıdaki R kod bloğunu çalıştırdığımızda Microsoft Excel’de elde edilen olasılık değerleriyle aynı değerleri elde ettiğimizi görmekteyiz.
Yukarıda elde ettiğimiz olasılık değerlerini aşağıda yazdığım for döngüsü kullanarak da elde edebiliriz.
x <- c(rep(0,109),rep(1,65), rep(2,22),rep(3, 3),rep(4,1))
lambda<-mean(x)
sira <- unique(x)
e<-2.71828 #Euler'in sabiti
for (i in sira) {
sira[i+1] <-(e^-lambda)*(lambda^i)/factorial(i)
}
print(paste("Ölüm sayısı",0:(length(sira)-1),"olduğunda olasılık değeri", round(sira,5)))
Yukarıdaki R kod bloğundaki for döngüsünün çalıştırılmasından sonra elde edilen sonuçlar aşağıda verilmiştir.
[1] "Ölüm sayısı 0 olduğunda olasılık değeri 0.54335"
[2] "Ölüm sayısı 1 olduğunda olasılık değeri 0.33144"
[3] "Ölüm sayısı 2 olduğunda olasılık değeri 0.10109"
[4] "Ölüm sayısı 3 olduğunda olasılık değeri 0.02056"
[5] "Ölüm sayısı 4 olduğunda olasılık değeri 0.00313"
Örnek 3: Kütle Olasılık Fonksiyonu (PMF)’nun Hesaplanması
Bu kısımda varsayımsal ve orjinal bir örnekle Poisson dağılımının kütle olasılık fonksiyonunu hesaplayalım.
Bir organize sanayi bölgesinde gıda sektöründe üretim yapan firmanın deposunda stoklanan ürünlerin 0,04’nin bozuk olduğu bilinmektedir. Bu depodan tesadüfi seçilen 80 birimden en az 5 tanesinin bozuk olma olasılığını Poisson dağılımından yararlanarak hesaplayalım.
Bilinenler:
- p= 0,04
- Lambda (λ) = 80 X 0,04 = 3,2
Yukarıda belirtilen Poisson kütle olasılık eşitliğinde verilenleri yerine koyarsak
Yapılan işlemi aşağıdaki R kod bloğunda da verelim adım adım hesaplama adımlarını görebilmek açısından.
e<-2.71828 #Euler'in sabiti
sıfır<-(e^-3.2*(3.2)^0)/factorial(0)
bir<-(e^-3.2*(3.2)^1)/factorial(1)
iki<-(e^-3.2*(3.2)^2)/factorial(2)
uc<-(e^-3.2*(3.2)^3)/factorial(3)
dort<-(e^-3.2*(3.2)^4)/factorial(4)
poissonfonksiyon<-sum(sıfır, bir,iki,uc,dort)#f(x): Poisson olasılık dağılım fonksiyonu
round(1-poissonfonksiyon,5)
#Sonuç=0.21939
Poisson Kümülatif Dağılım Fonksiyonu (CDF)
Poisson olasılık dağılımda kümülatif dağılım fonksiyonu aşağıdaki eşitlik yardımıyla hesaplanmaktadır.
Örnek 3: Kümülatif Dağılım Fonksiyonu (CDF)’nunun Hesaplanması
Aşağıda yazılan R kod bloğunda ise yukarıdaki süvari örneğinden hareketle kümülatif dağılım fonksiyonu hesaplanmıştır.
options(scipen = 999)
x<-c(rep(0,109),rep(1,65), rep(2,22),rep(3, 3),rep(4,1))
xunique<-unique(x)
lambda<-mean(x)#0.61
kdf<-ppois(xunique,lambda=lambda)#kümülatif olasılık dağılım değerleri
sonuc<-kdf %>% as_tibble() %>% mutate_if(is.numeric, round,8) %>% mutate(Orneklem_Uzayı=0:(NROW(xunique)-1), Olasilik=as.numeric(value))
grafik<-sonuc[,-1] %>% ggplot(aes(x=Orneklem_Uzayı,y=Olasilik)) + geom_line(color="red", size=1.5) +
guides(fill=FALSE) +
scale_x_continuous(breaks=seq(0, 4, 1))+
ggtitle(paste("Poisson Kümülatif Dağılım Fonksiyonu (PMF)","(","λ=0.61, N=200", ")")) +
ylab("Olasılık")+
xlab("Örneklem Uzayı")+
theme_igray()+
theme(plot.title = element_text(hjust = 0.5))
grafik
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen kümülatif olasılık değerleri aşağıda verilmiştir. Kümülatif olasılık değerlerini hesapladığımız için aşağıda da görüleceği üzere her halükarda son olasılık değeri 1’e eşittir veya yaklaşık 1’dir ve böyle olduğu da aşağıda görülmektedir.
0.5433509 0.8747949 0.9758853 0.9964404 0.9995750
Şimdi de hesaplanan bu kümülatif olasılık değerlerine göre kümülatif olasılık fonksiyonu (CDF:Cumulative Distribution Function)’nun grafiğini çizelim.
Poisson Dağılımına Göre Örneklem Seçimi
Poisson dağılımına uygun olarak süvari örneği üzerinden R’da rpois fonksiyonunu kullanarak ve hesaplanan lambda değeri dikkate alınarak popülasyon büyüklüğünün 1000 olduğu örneklem üretelim. Ardından üretilen bu örneklemin hem yoğunluk grafiğini hem de histogramı çizelim.
#Poisson dağılıma uygun örneklem seçimi
lambda<-mean(x)#0.61
orneklembuyuklugu<-1000
set.seed(61)#değerleri sabitlemek için
kud<-tibble(Sayi=rpois(orneklembuyuklugu,lambda))
#Poisson dağılımı histogramı için
ggplot(kud, aes(x=Sayi)) +
geom_histogram(bins=50,binwidth=.4,fill = "red", alpha = 0.7)+
xlab("Örneklem Uzayı")+
ylab("Sıklık")+
ggtitle(paste("Poisson Örneklem Histogramı","(λ=",lambda,",","N=",orneklembuyuklugu,")"))+
theme(plot.title = element_text(hjust = 0.5))+
theme_stata()
R kod bloğundaki ilgili alan çalıştırıldığında Poisson dağılımına uygun olarak çekilen örneklemin histogramını elde etmiş oluruz. Burada histogramda özellikle dikkat edilmesi gereken şey, Poisson dağılımının sağa çarpık (right skew) bir görüntü ortaya koymasıdır.
R programlama dili olarak Shiny üzerinde geliştirdiğim simülasyon uygulaması ile Poisson olasılık dağılımının lambda ve örneklem büyüklüklerine göre izlediği seyri değerlendirerek dağılımı daha iyi anlayabilirsiniz. Uygulamanın linki aşağıda verilmiştir.
Poisson Dağılımı Simülasyonu. Versiyon 3. 28.09.2020. Uygulamanın linki: https://buluttevfik.shinyapps.io/poissondv3/
Yapılan bu çalışma ile özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına bir katkı sunulması amaçlanmıştır.
Daha önce kesikli olasılıklı dağılım türleri üzerine örnek uygulama yaptığım çalışmaların linklerini de aşağıda paylaşıyorum ilgilenenler için.
Bernoulli Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Binom Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Kesikli Uniform Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Faydalı olması ve farkındalık oluşturması dileğiyle.
Bilimle ve teknolojiyle kalınız.
Saygılarımla.
Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.
Note: It can not be cited or copied without referencing.
Yararlanılan Kaynaklar
- https://buluttevfik.shinyapps.io/poissondistributionv1/
- https://web.stanford.edu/class/bios221/labs/simulation/Lab_3_simulation.html
- https://en.wikipedia.org/wiki/Ladislaus_Bortkiewicz
- https://onlinelibrary.wiley.com/doi/abs/10.1111/insr.12083
- https://online.stat.psu.edu/stat504/node/169/
- https://cran.r-project.org/web/packages/ggpubr/ggpubr.pdf
- http://www.mas.ncl.ac.uk/~nag48/teaching/MAS1403/notes4.pdf
- https://tevfikbulut.com/2020/07/23/rda-poisson-ve-negatif-binom-regresyon-yontemleri-uzerine-bir-vaka-calismasi-a-case-study-on-poisson-and-negative-binomial-regression-methods-in-r/
- https://my.ilstu.edu/~wjschne/442/SimulatingRandomData.html#discrete-uniform-distribution
- https://en.wikipedia.org/wiki/Discrete_uniform_distribution
- http://www.hcs.harvard.edu/cs50-probability/binomial.php
- http://people.stern.nyu.edu/adamodar/New_Home_Page/StatFile/statdistns.htm
- https://statisticsglobe.com/bernoulli-distribution-in-r-dbern-pbern-qbern-rbern
- https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Distributions.html
- https://my.ilstu.edu/~wjschne/442/SimulatingRandomData.html#bernoulli-distribution
- https://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm
- RStudio Cloud: https://login.rstudio.cloud/
- Matematiksel İstatistik, İsmail Erdem, Gözden Geçirilmiş ve Genişletilmiş 3. Baskı.
- The R Project for Statistical Computing. https://www.r-project.org/
- Microsoft Office Excel 2010 Version, Microsoft Corporation. Technology company. Redmond, Washington, United States
- https://online.stat.psu.edu/stat504/node/57/#:~:text=The%20Poisson%20Model%20(distribution)%20Assumptions,the%20same%20for%20all%20teams.