Birçok analiz yönteminin temelini olasılık dağılımları oluşturmaktadır. İşin esasında olasılık dağılımları tam anlaşılmadan analiz yöntemleri ile istenilen sonuçların elde edilmesi tek başına bazıları için yeterli olsa da işin felsefesini anlamak açısından kesinlikle yetersizdir. Bu nedenle bu çalışmada öncelikle kesikli (discrete) ve sürekli (continuous) dağılımlar başlıklar halinde verildikten sonra kesikli dağılım türlerinden biri olan Geometrik dağılımı özgün uygulama örnekleriyle ele alınarak somutlaştırılacaktır. Uygulama örnekleri ağırlıklı olarak R programlama dili kullanılarak adım adım yapılacaktır.
Rastlantı ya da kesin olmayan olaylarla ilgilenen olasılık teorisi, rastlantı olaylarını belirli kurallara göre matematik disiplininde inceleyen bir bilim dalıdır. Burada, rastlantı olayından kasıt gerçekleşmesi şansa bağlı olan önceden bilinmeyen olaylardır.
İstatistikte ve makine öğrenmede, diğer bir deyişle veri biliminde sıklıkla kullanılan örneklem uzayına bağlı olarak olasılık fonksiyon türleri kesikli ve sürekli olmak üzere iki ana başlıkta ele alınmaktadır.
- Kesikli Olasılık Fonksiyonu: Olasılık fonksiyonlarından ilki olan kesikli olasılık fonksiyonu örneklem uzayından elde edilen sonlu veya sayılabilir sonsuz sayıda ayrık sonuçları içermektedir.
- Sürekli Olasılık Fonksiyonu: Olasılık fonksiyonlarından diğeri sürekli olasılık fonksiyonu ise örneklem uzayından elde edilen sayılamayacak sonsuz sayıda ve ayrık olmayan sonuçları içermektedir.
Kesikli olasılık fonksiyonu ile sürekli olasılık fonksiyonu arasındaki temel fark şöyle ifade edilebilir: Kesikli olasılık fonksiyonunda kesikli örneklem uzayı noktaları, sürekli olasılık fonksiyonunda sürekli örneklem uzayı ise aralıkları baz almaktadır.
Bahsedilen kesikli ve sürekli olasılık fonksiyonlarına göre dağılımlar iki ana başlık altında verilmektedir.
A) Kesikli Dağılımlar (Discrete Distributions)
- Bernoulli Dağılımı
- Kesikli Uniform Dağılımı
- Binom Dağılımı
- Poisson Dağılımı
- Negatif Binom Dağılımı
- Geometrik Dağılım
- Hipergeometrik Dağılımı
B) Sürekli Dağılımlar (Continuous Distributions)
- Normal Dağılım
- Tekbiçimli Uniform Dağılım
- Cauchy Dağılımı
- t Dağılımı
- F Dağılımı
- Ki-kare Dağılımı
- Üstel Dağılım
- Weibull Dağılımı
- Lognormal Dağılımı
- Birnbaum-Saunders
- Gamma Dağılımı
- Çift Üstel Dağılımı
- Güç Normal Dağılımı
- Güç Lognormal Dağılımı
- Tukey-Lambda Dağılımı
- Uç Değer Tip I Dağılımı
- Beta Dağılımı
Geometrik Dağılım
Negatif binom dağılımın özel bir türü olan Geometrik dağılımında deney sayısı değişken, fakat istenen sonuç (başarı sayısı) 1’dir. Örneğin bir zar atma denemesinde, 6 tarafı ilk defa gelene kadar yapılan denemelerin sayısı bir geometrik değişkendir. Benzer bir şekilde, Şans Topu oyununda alt bölüm (+)’de ilk defa bir sayının doğru bilinmesi de geometrik değişken olarak değerlendirilebilir. Bernoulli deneyinde geçerli olan tüm varsayımlar geometrik dağılımda da geçerli olup, istenen sonucun ilk defa elde edilecek olması Geometrik dağılımını Bernoulli dağılımından farklı kılmaktadır. Aşağıda eşitliği verilen negatif binom dağılımı olasılık kütle fonksiyonunda k=1 oluğunda negatif binom dağılımı geometrik dağılımına evrilir. Genel olarak Binom dağılımında deney sayısı sabit ve başarılı denemelerin sayısı ise değişkenlik göstermektedir. Diğer taraftan Geometrik dağılımda deney sayısı değişken, başarılı denemelerin sayısı ise sabittir.
Geometrik dağılım hafızasızlık özelliğine sahip olup, bu özellik ilk başarı elde edilene kadar kaç deneme yapılırsa yapılsın, bundan sonra ilk başarıyı elde etmek için yapılması gereken deneme sayısı, daha önceki deneme sayılarından bağımsız olduğunu göstermektedir.
Geometrik dağılımında kullanılan merkezi dağılım ve yayılım ölçüleri Tablo 1’de verilmiştir. Bu dağılımda örneklem uzayı doğal sayılar kümesi (N)’nden oluşmaktadır. Eşitliklerde bir deneyde istenen sonucun ortaya çıkma olasılığı, diğer bir ifadeyle başarı olasılığı p, istenen sonucun ortaya çıkmama olasılığı ise q=1-p‘dir.
Tablo 1: Geometrik Dağılım Merkezi Dağılım ve Yayılım Ölçüleri
Geometrik Olasılık Kütle Fonksiyonu (PMF)
Tablo 1’deki parametreler kullanılarak oluşturulan Geometrik olasılık kütle fonksiyonu (PMF) aşağıdaki eşitlikte verilmiştir.
Eşitlikte x deney sayısını, p başarı olasılığını göstermektedir.
Örnek Uygulamalar
Örnek uygulamalara geçilmeden önce R’da yüklenmesi gereken kütüphaneleri aşağıda verelim. Daha önce aşağıdaki kütüphaneler kurulmamışsa lütfen kurunuz. R studio’yu sıklıkla kullandığım için gerek arayüzünün kullanım kolaylığı gerekse verimli olması açısından R konsol yerine R Studio arayüzünün kullanılması önerilmektedir. Eğer R yüklü değilse yapılan bu işlemleri bulutta yer alan R programlama yazılımını da kullanarak yapabilir ve R Studio arayüzünden bu platform üzerinden yararlanabilirsiniz. Sıklıkla bulut üzerindeki R Studio’yu da şahsen kullanmaktayım. Aşağıda linkten buluta giriş sağlayabilirsiniz. Sıklıkla
RStudio Cloud: https://login.rstudio.cloud/
gereklikütüphaneler<-sapply(c("dplyr","tibble","tidyr","ggplot2","formattable","ggthemes","readr","readxl","xlsx","ggpubr","formattable", "ggstance","vcd"), require, character.only = TRUE)
gereklikütüphaneler
Örnek: Ortalama, Varyans, Basıklık ve Çarpıklık Değerlerinin Hesaplanması
İlk olarak Poisson dağılımında ortalama, varyans, basıklık ve çarpıklık değerlerine bakalım. R’da rgeom(n, prob) fonksiyonunu kullanarak Geometrik dağılımına uygun popülasyon büyüklüğü (n) 1000 ve her bir denemedeki başarı olasılığı (p) 0,6 olan sentetik gözlem değerleri ürettikten sonra aşağıda yazılan R kod bloğunda Geometrik dağılımına ait ortalama, standart sapma, varyans, basıklık ve çarpıklık değerlerini hesaplayalım. Ardından gözlemlerin histogramını çizelim.
#Geometrik dağılıma uygun popülasyon büyüklüğü (n) 1000 ve her bir denemedeki başarı olasılığı 0,6 olan sentetik gözlemler üretme
set.seed(61)#örneklem uzayının elemanlarını sabitlemek için
n<-1000#popülasyon büyüklüğü
p<-0.5
q<-1-p
geoorneklem<-rgeom(n=n, prob=p)#örneklem uzayı
ortalama=1/p
ssapma= sqrt(q)/p
varyans= q/p^2
carpiklik= (2-p)/sqrt(q)
basiklik= (p^2-9*p+9)/q
formattable(cbind(ortalama, ssapma, varyans,carpiklik, basiklik) %>% as_tibble() %>% mutate_if(is.numeric, round,3))
#Veri setinin histogramı
ggplot(as_tibble(geoorneklem), aes(x=value))+geom_bar(bins=100,binwidth=.5,fill="red")+
xlab("Örneklem Uzayı")+
scale_x_continuous(breaks=seq(0, max(unique(geoorneklem)), 1))+
ylab("Frekans")+
ggtitle("Geometrik Dağılıma Uygun Veri Setinin Histogramı")+
theme(plot.title = element_text(hjust = 0.5))
theme_replace()
Yukarıdaki R kod bloğunun çalıştırılmasından sonra Geometrik dağılımına ait elde edilen ortalama, varyans, çarpıklık ve basıklık değerleri aşağıdaki tabloda verilmiştir.
Yukarıdaki R kod bloğunda ilgili alan çalıştırıldığında elde edilen veri setine ait histogram aşağıda verilmiştir.
Şimdi de aynı popülasyon büyüklüğüne sahip ancak farklı başarı olasılık değerleri olan Geometrik dağılımlara grafik üzerinde bakalım. Aşağıda yazılan R kod bloğu ile popülasyon büyüklüğü (N) 1000, her bir denemedeki başarı olasılık (p) değerleri ise sırasıyla 0,1, 0,3, 0,5, 0,7, 0,8 ve 0,9 olan Geometrik dağılım eğrileri verilmiştir.
set.seed(6)
orneklem<-1000
l1<-ggdensity(rgeom(n, prob=0.1),main="p=0.1", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l2<-ggdensity(rgeom(n, prob=0.3),main="p=0.3", col="orange", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l3<-ggdensity(rgeom(n, prob=0.5),main="p=0.5", col="grey",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l4<-ggdensity(rgeom(n, prob=0.7),main="p=0.7", col="brown",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l5<-ggdensity(rgeom(n, prob=0.8),main="p=0.8", col="green",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l6<-ggdensity(rgeom(n, prob=0.9),main="p=0.9", col="red",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
ggarrange(l1,l2,l3,l4,l5,l6)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir.
Şimdi de farklı popülasyon büyüklüğü ve başarı olasılıklarına göre karşılaştırmalı olarak Geometrik dağılıma grafik üzerinde bakalım. Aşağıda yazılan R kod bloğu ile popülasyon büyüklükleri (N) 100, 300, 500, 700, 900 ve 1100 olan ve her bir denemedeki başarı olasılık (p) değerleri ise sırasıyla 0,1, 0,3, 0,5, 0,7, 0,8 ve 0,9 olan Geometrik dağılım eğrileri verilmiştir. Burada amaç, farklı popülasyon büyüklükleri ve olasılık değerlerine göre Geometrik dağılımının izlediği seyrin göstermektir.
set.seed(6)
orneklem<-1000
l1<-ggdensity(rgeom(n=100, prob=0.1),main="N=100, p=0.1", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l2<-ggdensity(rgeom(n=300, prob=0.3),main="N=300,p=0.3", col="orange", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l3<-ggdensity(rgeom(n=500, prob=0.5),main="N=500,p=0.5", col="grey",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l4<-ggdensity(rgeom(n=700, prob=0.7),main="N=700,p=0.7", col="brown",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l5<-ggdensity(rgeom(n=900, prob=0.8),main="N=900,p=0.8", col="green",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l6<-ggdensity(rgeom(n=1100, prob=0.9),main="N=1100,p=0.9", col="red",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
ggarrange(l1,l2,l3,l4,l5,l6)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen grafikler aşağıda verilmiştir.
Diğer durumda olasılık değerleri (p) 0,1’de sabitleyerek farklı popülasyon büyüklüklerine göre de Geometrik dağılımdaki farklılaşmaları görebiliriz. Bu amaçla yazdığım R kod bloğu aşağıda verilmiştir.
set.seed(6)
l1<-ggdensity(rgeom(n=100, prob=0.1),main="N=100, p=0.1", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l2<-ggdensity(rgeom(n=300, prob=0.1),main="N=300,p=0.1", col="orange", xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l3<-ggdensity(rgeom(n=500, prob=0.1),main="N=500,p=0.1", col="grey",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l4<-ggdensity(rgeom(n=700, prob=0.1),main="N=700,p=0.1", col="brown",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l5<-ggdensity(rgeom(n=900, prob=0.1),main="N=900,p=0.1", col="green",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
l6<-ggdensity(rgeom(n=1100, prob=0.1),main="N=1100,p=0.1", col="red",xlab="Örneklem Uzayı",ylab= "Yoğunluk")
ggarrange(l1,l2,l3,l4,l5,l6)
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen Geometrik dağılım grafikleri aşağıda verilmiştir. Elde edilen bulgular, başarı olasılığı sabit tutulduğunda Geometrik dağılımın Negatif Binom dağılımına evrildiği ve sağa çarpık (right skewness) bir görüntü sergilediği görülmektedir.
Örnek: Kütle Olasılık Fonksiyonu (PMF)’nun Hesaplanması
Daha önce bahsedildiği üzere Geometrik dağılımına ait kütle olasılık fonksiyonunun aşağıdaki eşitlik yardımıyla hesaplandığını belirtmiştik.
Şimdi özgün bir örnek üzerinde kütle olasılık fonsiyonu (pmf) oluşturarak olasılık değerlerini hesaplayalım.
Bir kart oyununda kartlar arasından 7 numaralı kart gelinceye kadar X kez çekilişe devam edilecektir.
Bilinenler
- Kart oyunu üzerinde 1’den 14’e kadar numaralandırılmış kartlardan oluşmaktadır.
İstenenler
- X’in olasılık fonksiyonunu hesaplayınız.
- X’in merkezi dağılım ve yayılım ölçülerini hesaplayınız.
- 7 numaralı kartın ilk defa 1. çekilişte gelme olasılığını hesaplayınız. Bu işlemi R’da fonksiyon oluşturarak da hesaplayınız.
- 7 numaralı kartın ilk defa 6. çekilişte gelme olasılığını hesaplayınız.Bu işlemi R’da fonksiyon oluşturarak da hesaplayınız.
- 7 numaralı kartın ilk defa 1’den 14’e kadar (dahil) olan çekilişlerde gelme olasılıklarını sırasıyla hesaplayınız.
- Çekilişle seçilen 7 numaralı kartın ilk 14 çekilişte olma olasılığını hesaplayınız.
- Çekilişle seçilen 7 numaralı kartın ilk 5 çekilişten önce gelme olasılığını hesaplayınız.
- Çekilişle seçilen 7 numaralı kartın ilk kez en az 6 çekilişte gelme olasılığını hesaplayınız.
Çözümler
- X’in olasılık fonksiyonunu hesaplanmış ve aşağıda verilmiştir.
2. X’in merkezi dağılım ve yayılım ölçüleri aşağıda yazılan R kod bloğunda adım adım hesaplanmıştır.
n<-14#popülasyon büyüklüğü
p<-1/n
q<-1-p
ortalama=1/p #(beklenen değer)
ssapma= sqrt(q)/p
varyans= q/p^2
carpiklik= (2-p)/sqrt(q)
basiklik= (p^2-9*p+9)/q
#merkezi dağılım ve yayılım ölçüleri tablosu
formattable(cbind(ortalama, ssapma, varyans,carpiklik, basiklik) %>% as_tibble() %>% mutate_if(is.numeric, round,3))
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen merkezi dağılım ve yayılım ölçüleri tablosu aşağıda verilmiştir. Aynı sonuçları R’da fonksiyon oluşturarak da yapabiliriz. Fonksiyon oluşturmak parametre değerleri farklı olduğunda hesaplama hızı ve kolaylığı sağlamaktadır.
Yukarıdaki aynı sonuçları aşağıda R’da fonksiyon oluşturarak da yapabiliriz. Fonksiyon oluşturmak parametre değerleri farklı olduğunda hesaplama hızı ve kolaylığı sağlamaktadır. Oluşturulan istatistik fonksiyonu ile merkezi yayılım ve dağılım ölçülerini hesaplayabilir ve isteğinize göre revize edebilirsiniz. Aşağıdaki fonksiyonda yapmanız gereken şey
#fonksiyon oluşturma
istatistik <- function(n) {
ort<- 1/(1/n)#ortalama
sapma<-sqrt(1-1/n)/(1/n)#standart sapma
varyans<-(1-1/n)/((1/n)^2)#varyans
carpiklik<-(2-1/n)/sqrt(1-1/n)#çarpıklık
basiklik<- ((1/n)^2-9*(1/n)+9)/(1-1/n)#basıklık
tablo<-tibble(ort,sapma,varyans,carpiklik,basiklik) %>% mutate_if(is.numeric, round,5) %>% formattable()
return(tablo)
}
#oluşturulan fonksiyonu girilen parametre değerleriyle çağırma
istatistik(n=14)#n=14 yerine dilediğiniz parametre değeri girerek Geometrik merkezi yayılım ve dağılım ölçülerini hesaplayabilirsiniz.
Yukarıdaki R kod bloğunda oluşturduğum istatistik fonksiyonunu çalıştırdığımızda elde edilen sonuçlar aşağıdaki tabloda verilmiştir.Görüleceği üzere elde edilen sonuçlar yukarıdaki sonuçlarla aynıdır.
3. 7 numaralı kartın ilk defa 1. çekilişte gelme olasılığı aşağıda yazılan R kod bloğunda hesaplanmıştır.
n<-14
p<-1/n
q<-1-p
x<-1
p*q^(x-1)#sonuç: 0.07142857
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen 7 numaralı kartın ilk defa 1. çekilişte gelme olasılığı yaklaşık 0.07143’tür. Bu işlemi R’da fonksiyon oluşturarak da yapabiliriz. Böylece her defasında aynı işlemi yapmak zorunda kalmayız. Aşağıda yazdığım R kod bloğu ile aynı işlem fonksiyon oluşturarak yapılmıştır. R kod bloğunun çalıştırılması ile elde edilen sonuç yukarıda hesaplanan sonuç ile aynıdır.
#Fonksiyon oluşturma
olasılık_kitle_fonksiyonu <- function(n, x) {
olasilik<- (1/n)*(1-1/n)^(x-1)#olasılık kitle fonksiyonu formülü
return(olasilik)
}
#Fonksiyonu istenen parametre değerleri ile çağırma
olasılık_kitle_fonksiyonu(n=14, x=1)
#sonuç: 0.07142857
4. 7 numaralı kartın ilk defa 6. çekilişte gelme olasılığı aşağıda yazılan R kod bloğunda hesaplanmıştır.
n<-14#popülasyon büyüklüğü
p<-1/n
q<-1-p
x<-6
p*q^(x-1)#sonuc:0.04931154
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen 7 numaralı kartın ilk defa 6. çekilişte gelme olasılığı yaklaşık 0.04931’dir. 3. soru çözümünde oluşturduğum fonksiyon ile de bu soruyu çözebiliriz. Aşağıda yapılan tek şey oluşturduğum fonksiyondaki parametre değerlerini değiştirmektir.
#Fonksiyon oluşturma
olasılık_kitle_fonksiyonu <- function(n, x) {
olasilik<- (1/n)*(1-1/n)^(x-1)#olasılık kitle fonksiyonu formülü
return(olasilik)
}
#Fonksiyonu istenen parametre değerleri ile çağırma
olasılık_kitle_fonksiyonu(n=14, x=6)
#sonuç: 0.04931154
5. 7 numaralı kartın ilk defa 1’den 14’e kadar (dahil) olan çekilişlerde gelme olasılıkları sırasıyla aşağıda yazılan R kod bloğunda hesaplanmıştır. Hesaplamada özellikle anlaşılması kolay bir for döngüsü yazdım. Böylece hem zamandan kazanılmasını hem de problem özelinde nasıl kullanıldığını göstermek istedim.
n<-14#popülasyon büyüklüğü
p<-1/n
q<-1-p
x<-1:14
for (i in x) {
x[i] <-p*q^(x[i]-1)
}
print(paste("7 numaralı kartın ilk defa",1:(length(x)),". çekilişte gelme olasılığı", round(x,5)))
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen 7 numaralı kartın ilk defa 1’den 14’e kadar (dahil) olan çekilişlerde gelme olasılıkları sırasıyla aşağıda verilmiştir.
6. Çekilişle seçilen 7 numaralı kartın ilk 14 çekilişte olma olasılığı aşağıda yazılan R kod bloğunda hesaplanmıştır.
n<-14#popülasyon büyüklüğü
p<-1/n
q<-1-p
x<-20
1-q^(x)#sonuc:0.7728534
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen çekilişle seçilen 7 numaralı kartın ilk 14 çekilişte olma olasılığı yaklaşık 0.77285’tir.
7. Çekilişle seçilen 7 numaralı kartın ilk 5 çekilişten önce gelme olasılığı aşağıda yazılan R kod bloğunda hesaplanmıştır. Burada da hem zamandan kazanılması hem de problem özelinde nasıl kullanıldığını göstermek açısından for döngüsünü kullandım.
n<-14#popülasyon büyüklüğü
p<-1/n
q<-1-p
x<-1:4
for (i in x) {
x[i] <-p*q^(x[i]-1)
}
print(paste("Çekilişle seçilen 7 numaralı kartın ilk 5 çekilişten önce gelme olasılığı:", sum(round(x,5))))
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen çekilişle seçilen 7 numaralı kartın ilk 5 çekilişten önce gelme olasılığı yaklaşık 0.25654 olup, sonuç aşağıda verilmiştir.
[1] "Çekilişle seçilen 7 numaralı kartın ilk 5 çekilişten önce gelme olasılığı: 0.25654"
8. Çekilişle seçilen 7 numaralı kartın ilk kez en az 6 çekilişte gelme olasılığı aşağıda yazılan R kod bloğunda hesaplanmıştır. Burada da hem zamandan kazanılması hem de problem özelinde nasıl kullanıldığını göstermek açısından for döngüsünü kullandım.
n<-14#popülasyon büyüklüğü
p<-1/n
q<-1-p
x<-1:5
for (i in x) {
x[i] <-p*q^(x[i]-1)
}
print(paste("Çekilişle seçilen 7 numaralı kartın ilk kez en az 6 çekilişte gelme olasılığı:", 1-sum(round(x,5))))
Yukarıdaki R kod bloğu çalıştırılmasından sonra elde edilen çekilişle seçilen 7 numaralı kartın ilk kez en az 6 çekilişte gelme olasılığı yaklaşık 0.69036 olup, sonuç aşağıda verilmiştir.
[1] "Çekilişle seçilen 7 numaralı kartın ilk kez en az 6 çekilişte gelme olasılığı: 0.69036"
Geometrik Kümülatif Dağılım Fonksiyonu (CDF)
Geometrik olasılık dağılımda kümülatif dağılım fonksiyonu aşağıdaki eşitlik yardımıyla hesaplanmaktadır.
Örnek: Kümülatif Dağılım Fonksiyonu (CDF)’nunun Hesaplanması
Aşağıda yazılan R kod bloğunda ise pgeom(q=1:50, prob=0.3) fonksiyonu kullanılarak kümülatif dağılım fonksiyonu (cdf) hesaplanmıştır. Fonksiyon içerisinde yer alan q ilk başarılı denemeden önceki başarısız denemelerin sayısını, prob ise her bir denemedeki başarı olasılığını göstermektedir.
#kümülatif dağılım fonksiyonu (cdf)
p<-0.3
kdf<-pgeom(q=1:50, prob=0.3)
kdf
#kümülatif dağılım fonksiyonu (cdf) grafiği
kdf %>% as_tibble() %>% mutate_if(is.numeric, round,8) %>% mutate(Orneklem_Uzayı=1:NROW(kdf), Olasilik=as.numeric(value))
grafik<-sonuc[,-1] %>% ggplot(aes(x=Orneklem_Uzayı,y=Olasilik)) + geom_line(color="red", size=1.5) +
guides(fill=FALSE) +
scale_x_continuous(breaks=seq(1,51,5))+
ggtitle(paste("Geometrik Kümülatif Dağılım Fonksiyonu (CDF)","(","p=",p,",", "q=",NROW(kdf), ")")) +
ylab("Olasılık")+
xlab("Başarısız Denemelerin Sayısı")+
theme_igray()+
theme(plot.title = element_text(hjust = 0.5))
grafik
Yukarıdaki R kod bloğunun çalıştırılmasından sonra elde edilen kümülatif olasılık değerleri aşağıda verilmiştir. Kümülatif olasılık değerlerini hesapladığımız için aşağıda da görüleceği üzere her halükarda son olasılık değeri 1’e eşittir veya yaklaşık 1’dir ve böyle olduğu da aşağıda görülmektedir.
[1] 0.5100000 0.6570000 0.7599000 0.8319300 0.8823510 0.9176457 0.9423520
[8] 0.9596464 0.9717525 0.9802267 0.9861587 0.9903111 0.9932178 0.9952524
[15] 0.9966767 0.9976737 0.9983716 0.9988601 0.9992021 0.9994415 0.9996090
[22] 0.9997263 0.9998084 0.9998659 0.9999061 0.9999343 0.9999540 0.9999678
[29] 0.9999775 0.9999842 0.9999890 0.9999923 0.9999946 0.9999962 0.9999973
[36] 0.9999981 0.9999987 0.9999991 0.9999994 0.9999996 0.9999997 0.9999998
[43] 0.9999998 0.9999999 0.9999999 0.9999999 1.0000000 1.0000000 1.0000000
[50] 1.0000000
Şimdi de hesaplanan bu kümülatif olasılık değerlerine göre kümülatif olasılık fonksiyonu (CDF:Cumulative Distribution Function)’nun grafiğini çizelim.
Yapılan bu özgün çalışma ile özellikle veri bilimi (data science) ile ilgilenen akademi ve saha çalışanlarına bir katkı sunulması amaçlanmıştır.
Daha önce kesikli olasılıklı dağılım türleri üzerine örnek uygulama yaptığım çalışmaların linklerini de aşağıda paylaşıyorum ilgilenenler için.
Bernoulli Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Binom Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Kesikli Uniform Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Poisson Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Negatif Binom Olasılık Dağılımı Üzerine Bir Vaka Çalışması
Faydalı olması ve farkındalık oluşturması dileğiyle.
Bilimle ve teknolojiyle kalınız.
Saygılarımla.
Not: Kaynak gösterilmeden alıntı yapılamaz veya kopyalanamaz.
Note: It can not be cited or copied without referencing.
Yararlanılan Kaynaklar
- https://web.stanford.edu/class/bios221/labs/simulation/Lab_3_simulation.html
- https://www.sciencedirect.com/topics/computer-science/geometric-distribution/pdf
- https://online.stat.psu.edu/stat504/node/169/
- https://cran.r-project.org/web/packages/ggpubr/ggpubr.pdf
- http://www.mas.ncl.ac.uk/~nag48/teaching/MAS1403/notes4.pdf
- https://tevfikbulut.com/2020/07/23/rda-poisson-ve-negatif-binom-regresyon-yontemleri-uzerine-bir-vaka-calismasi-a-case-study-on-poisson-and-negative-binomial-regression-methods-in-r/
- https://my.ilstu.edu/~wjschne/442/SimulatingRandomData.html#discrete-uniform-distribution
- https://en.wikipedia.org/wiki/Discrete_uniform_distribution
- http://www.hcs.harvard.edu/cs50-probability/binomial.php
- http://people.stern.nyu.edu/adamodar/New_Home_Page/StatFile/statdistns.htm
- https://statisticsglobe.com/bernoulli-distribution-in-r-dbern-pbern-qbern-rbern
- https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Distributions.html
- https://my.ilstu.edu/~wjschne/442/SimulatingRandomData.html#bernoulli-distribution
- https://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm
- RStudio Cloud: https://login.rstudio.cloud/
- Matematiksel İstatistik, İsmail Erdem, Gözden Geçirilmiş ve Genişletilmiş 3. Baskı.
- The R Project for Statistical Computing. https://www.r-project.org/
- Microsoft Office Excel 2010 Version, Microsoft Corporation. Technology company. Redmond, Washington, United States
- https://online.stat.psu.edu/stat504/node/57/#:~:text=The%20Poisson%20Model%20(distribution)%20Assumptions,the%20same%20for%20all%20teams.
- http://kisi.deu.edu.tr//kemal.sehirli/B%c3%b6l%c3%bcm%204%20-%20Part1(d%c3%bczeltme).pdf
- https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Geometric.html
- http://www.imatheq.com/imatheq/com/imatheq/math-equation-editor.html