Topluluk Öğrenme Algoritmalarından Torbalama Algoritması İle Gögüs Kanserinin Tahmini Üzerine Bir Vaka Çalışması: A Case Study on the Prediction of Breast Cancer Using Bagging Algorithm from Ensemble Learning Algorithms
Giriş Topluluk (ensemble) öğrenme algoritmaları tahmine dayalı analitik çalışmalarda en başarılı yaklaşımlardan biridir. Bu algoritmalar somut bir problemi çözmek için bir araya gelen modeller setinden oluşmaktadır. Amaç modeller setinin ürettiği tahminleri birleştirerek doğruluğu (accuracy) artırmaktır. Topluluk algoritmaları kendi içerisinde üç grupta ele alınır. Torbalama (Bagging: Bootsrap Aggregating) Artırma (Boosting) İstif (Stacking) Topluluk (ensemble) öğrenme algoritmalarından […]
Devamını OkuTürkiye’deki COVID-19 Pandemisinin Büyüklüğü: Size of the Covid-19 Pandemics in Turkey
Dünyayı derinden etkileyen koronavirüs pandemisinin mevcut durumdaki büyüklüğünü ortaya koymaya yönelik geliştirdiğim epidemiyolojik dalga boyu modelleri Yale Üniversitesi destekli Uluslararası Tıp Arşivinde ön baskı olarak yayınlanmıştır. Bu modeller kullanılarak Türkiye’deki koronavirüs salgınının büyüklüğü dalga boyu uzunluğu olarak hesaplanmıştır. Analizde kullanılan vaka sayılarına ilişkin veri seti Sağlık Bakanlığı resmi web sitesinden edinilmiştir. Elde edilen bulgular Şekil […]
Devamını OkuTemel Bileşenler Analizi Üzerine Bir Vaka Çalışması: A Case Study on Principal Component Analysis (PCA)
Büyük veri setleri birçok disiplinde giderek yaygınlaşmaktadır. Bu tür veri kümelerini yorumlamak için, verilerdeki bilgilerin çoğu korunacak şekilde boyutsallıklarını yorumlanabilir bir şekilde önemli ölçüde azaltmak için yöntemlere ihtiyaç vardır. Bu amaç için birçok teknik geliştirilmiştir, ancak temel bileşenler analizi (PCA) en eski ve en yaygın kullanılanlardan biridir. Fikri basittir – mümkün olduğunca çok ‘değişkenliği’ korunurken […]
Devamını OkuR Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Karar Ağacı Algoritmaları Üzerine Bir Vaka Çalışması: A Case Study on Decision Tree Algorithms in Solving Classification Problems with R Programming Language
Giriş Günümüzde veri madenciliği uygulamalarının yaygınlaşması ve büyük veri kavramının öne çıkmasıyla birlikte analiz metotları da değişmiştir. Bugüne kadar genellikle bulut (cloud) veri tabanları üzerindeki veri setleri indirilerek analize konu ediliyordu. Ancak gelişen teknoloji veri madenciliği yöntemlerinde de önemli değişiklikler ve bazı soruları beraberinde getirmiştir. Bu sorulardan bazıları şöyledir: Online veya offline olarak dokümanlarda analize […]
Devamını OkuR Programlama Diliyle Sınıflandırma Problemlerinin Çözümünde Küme Algoritmaları Üzerine Bir Vaka Çalışması: A Case Study on Cluster Algorithms in Solving Classification Problems with R Programming Language
Giriş Küme geçmeden önce temel kavramları açıklamak konunun anlaşılması açısından önem taşıdığından ilk olarak kısaca bu kavramlara yer verilmiştir. Küme, benzer özellikleri içinde barındıran topluluk olarak tanımlanabilir. Bu topluluk insan, hayvan, bitki topluluğu olabileceği gibi nesnelerin oluşturduğu topluluk da olabilir. Benzer özellikler taşıyan bu topluluklar diğer kümelerden farklılaşır. Kümeleme (clustering) analizini ise benzer özelliklere sahip […]
Devamını OkuR Programlama Diliyle Regresyon Problemlerinin Çözümünde Rastgele Orman Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Random Forest (RF) Algorithm in Solving Regression Problems with R Programming Language
Giriş Rastgele Orman (RF) algoritması , 2001 yılında Breiman tarafından karar ağaçlarının bir kombinasyonu olarak önerilmiştir. RF en iyi “her ağaç, bağımsız olarak örneklenen ve ormandaki tüm ağaçlar için aynı dağılıma sahip rastgele bir vektörün değerlerine bağlı olacak şekilde ağaç belirleyicilerinin kombinasyonu” olarak tanımlanan bir topluluk makine öğrenme algoritmasıdır. Topluluk algoritması gerek regresyon gerekse sınıflandırma […]
Devamını OkuR Programlama Diliyle Sistematik Örnekleme Üzerine Bir Vaka Çalışması: A Case Study on Systematic Sampling with R Programming Language
Giriş Daha önce basit tesadüfi örnekleme (simple random sampling) üzerine burada çalışmalar yapılmıştı. İlgilenecekler için aşağıda yararlanılan kaynaklar kısmında bu çalışmaların linklerine yer verilmiştir. Bu çalışmada ise örnek bir uygulama üzerinden ve olabildiğince yalın bir dille sistematik örnekleme yapılacak ve R programlama dili kullanılacaktır. Ancak R programlama dili bilmeyenler için Microsoft Excel kullanarak sistematik örnekleme […]
Devamını OkuMicrosoft Excel’de Sistematik Örnekleme Üzerine Bir Vaka Çalışması: A Case Study on Systematic Sampling in Microsoft Excel
Giriş Daha önce basit tesadüfi örnekleme (simple random sampling) üzerine burada çalışmalar yapılmıştı. İlgilenecekler için aşağıda yararlanılan kaynaklar kısmında bu çalışmaların linklerine yer verilmiştir. Bu çalışmada ise örnek bir uygulama üzerinden ve olabildiğince yalın bir dille sistematik örnekleme yapılacaktır. Sistematik örnekleme, 1’den N’e kadar olan popülasyon birimlerinden ilk seçimin tesadüfi bir şekilde seçilmesinden sonra örneklem […]
Devamını OkuTekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak t Dağılım Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculation of Confidence Interval (CI) Based on t Distribution Table Using Simple Random Sampling Method without Replacement
Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada […]
Devamını OkuTekrarsız Basit Tesadüfi Örnekleme Yöntemi Kullanılarak Z Tablosu Üzerinden Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for the Calculation of Confidence Interval (CI) Based on Z Table Using Simple Random Sampling without Replacement Method
Güven aralıkları ingilizce ifadeyle confidence interval (CI) hem sahadan veri toplama yöntemleriyle elde edilen birincil verilerin hem de veri tabanlarından elde edilen işlenmiş ikincil verilerin analizinde çok yoğun bir şekilde kullanılmaktadır. Peki nedir bu güven aralığı? Güven aralığının hesaplanması için hangi parametrelere ihtiyaç vardır? Güven aralığı nasıl hesaplanır? Güven aralığını etkileyen faktörler nelerdir? Bu çalışmada […]
Devamını Oku