Logo Logo
  • Ana Sayfa
  • Hakkında
  • Kategoriler
    • Genel
    • İstatistik
    • Makine Öğrenme
    • Model Geliştirme
    • Sağlık
    • Teknoloji
  • Tüm Yazılarım
  • İletişim

İletişim

  • Email buluttevfik@gmail.com

Site Haritası

  • Ana Sayfa
  • Hakkında
  • İletişim

Sosyal Medya Adresleri

Veri Madenciliği: Web Sitelerinin Keşifsel Veri Analizi Üzerine Bir Vaka Çalışması

  • ANA SAYFA
  • Blog Details
Ağustos 5 2018
  • Genel

Önceki çalışmalarda hem web ortamında hem de bilgisayarda kayıtlı “TXT” formatında kayıtlı metin verisinin kelime bulutunu oluşturmaya yönelik örnekler yapılmış ve bu verilerin hiyerarşik küme analizi yapılmıştır. Şimdi ise yapacağım örnek uygulamada, “HTML” uzantılı  web siteleri, kelime bulutu (word cloud), tanımlayıcı istatistikler ve hiyerarşik küme analizi açısından değerlendirilecektir.  Bu örnek için seçilen web sitesi “http://www.bbc.com/” ve baz alınan tarih 05/08/2018‘dir.

Uygulama adımları bir önceki örnekte açıklansa da yine adımlar detaylı bir şekilde anlatılmaya çalışılacaktır.

İlk olarak analiz için R paketleri kurulup, yüklenecektir.

#Kurulum için
install.packages(c("tm", "SnowballC", "wordcloud", "RColorBrewer", "RCurl", "XML"))

#Yüklemek için
library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")
library("rvest") #HTML uzantılı web adreslerinden alınan veriyi işlemek için

Paketler yüklendikten sonra kelime bulutu oluşturulacak sitenin adresi yoluyla birlikte tanımlanır. Tanımlanan yoldan sonra, web sitesi, corpus() fonksiyonu ile indekslenerek veri temizleme işlemine geçilir. Daha sonra, kelimeler,  veri çercevesi (data frame)’ne dönüştürülerek sıklıklarına göre büyükten küçüğe doğru sıralanır. Yapılan işlemlere ilişkin kod bloğuna aşağıda yer verilmiştir.

#Veri Yolu
data    <- read_html("http://www.bbc.com/", language="en")
data   <- html_text(data)
###Veri indeksleme, temizleme ve matrise dönüştürme işlemleri
docs<-Corpus(VectorSource(data))
inspect(docs)
toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/")
docs <- tm_map(docs, toSpace, "@")
docs <- tm_map(docs, toSpace, "\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, c("the", "for", "of","does","was","bbccook", "window","bbc","dot","com", "static", "bbc","icouk", "that","are","and","has","wwhp","cdata", "var","is","his","her","about", "will", "bbcdotcom", "bbcicouk", "bbcico","uk","typeof"))
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
#Dokuman matriksinin oluşturulması
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
#Kelimelerin sıralanarak veri çercevesine dönüştürülmesi
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)

Veri temizleme işlemleri yapıldıktan ve veri çercevesi oluşturulduktan sonra aşağıdaki kod bloğuyla kelime bulutu oluşturulur. Kelime bulutu, kelimelerin tekrarlanma sıklığı en az 4 olan maksimum 200 kelime içinde yer alacak şekilde tanımlanmıştır.

set.seed(1234)
wordcloud(words = d$word, freq = d$freq, min.freq = 4,
max.words=200, random.order=FALSE, rot.per=0.35, 
colors=brewer.pal(8, "Dark2"))

Yukarıdaki kod bloğundan sonra 05/08/2018 tarihi itibariyle http://www.bbc.com/ haber sitesinin aşağıdaki kelime bulutu elde edilmiş olur.

Kelime bulutu oluşturulduktan sonra en sık karşılaşılan ilk 10 kelime, kod bloğu ile birlikte aşağıda verilmiştir.

library(gridExtra)
grid.table(head(d, 10))

Buna göre öne çıkan tanımlayıcı (descriptive) istatistik niteliğinde ilk 10 kelime sıklıklarına (frequencies) göre aşağıda verilmiştir.

Yapılan bu çalışmaların, özellikle keşifsel veri analizi (exploratory data analysis) ve nitel araştırma alanına giren içerik analizi (content analysis) noktasında önemli bir katkı sunacağı inancındayım.

Faydalı olması dileğiyle…

Not: Emeğe saygı adına, yapılan çalışmanın başka bir mecrada ya da ortamda paylaşılması halinde alındığı yer adının belirtilmesini rica ederim.

Saygılarımla.

Önceki yazı Sonraki Yazı
Content AnalysisData CleaningData MiningDoğal Dil İşlemeExploratory Data AnalysisHTMLİçerik AnaliziKeşifsel Veri AnaliziNatural Language ProcessingNLPVeri MadenciliğiVeri TemizlemeWebWord Cloud

Yorum Yaz Cevabı iptal et

Son Yazılar

  • Kanada Sağlık Sisteminde Bekleme Süreleri
  • Araştırma Metodolojisi Notları-II
  • Araştırma Metodolojisi Notları-I
  • Microsoft Excel’de Bulut Endeks-Beta [BE-β] Simülasyonu
  • R’da Statik ve Dinamik Haritalama Vaka Çalışmaları: Türkiye Örneği

Son Yorumlar

  1. Küresel İnovasyon Endeksi 2021 Yılı Raporu ve Türkiye - winally.com - Küresel İnovasyon Endeksi’nde Türkiye Ne Durumda?
  2. R’da Birliktelik Kuralları | canözkan - Apriori Algoritması Üzerine Bir Vaka Çalışması: A Case Study on Apriori Algorithm
  3. Tevfik BULUT - Python’da Şans Oyunları Perspektifinden Olasılık : Probability from Perspective of the Chance Games in Python
  4. Ahmet Aksoy - Python’da Şans Oyunları Perspektifinden Olasılık : Probability from Perspective of the Chance Games in Python
  5. Tevfik BULUT - Z Tablosuna Göre Güven Aralığının Hesaplanmasına Yönelik Bir Simülasyon Çalışması: A Simulation Study for Calculating Confidence Interval by Z Table

Arşivler

  • Ocak 2023
  • Ekim 2022
  • Eylül 2022
  • Nisan 2022
  • Mart 2022
  • Ekim 2021
  • Eylül 2021
  • Ağustos 2021
  • Temmuz 2021
  • Haziran 2021
  • Mayıs 2021
  • Nisan 2021
  • Şubat 2021
  • Ocak 2021
  • Aralık 2020
  • Kasım 2020
  • Ekim 2020
  • Eylül 2020
  • Ağustos 2020
  • Temmuz 2020
  • Haziran 2020
  • Mayıs 2020
  • Nisan 2020
  • Mart 2020
  • Şubat 2020
  • Ocak 2020
  • Aralık 2019
  • Kasım 2019
  • Ekim 2019
  • Eylül 2019
  • Ağustos 2019
  • Mayıs 2019
  • Şubat 2019
  • Aralık 2018
  • Eylül 2018
  • Ağustos 2018
  • Temmuz 2018
  • Mayıs 2018
  • Nisan 2018
  • Ekim 2017
  • Temmuz 2017
  • Haziran 2017
  • Mayıs 2017
  • Ocak 2017

Kategoriler

  • Genel
  • İstatistik
  • Makine Öğrenme
  • Model Geliştirme
  • Sağlık
  • Teknoloji

Kategoriler

  • Genel
  • İstatistik
  • Makine Öğrenme
  • Model Geliştirme
  • Sağlık
  • Teknoloji

Etiketler

Accuracy Basit Tesadüfi Örnekleme Bernoulli Olasılık Dağılımı Confusion Matrix Coronavirus Doğruluk Doğruluk Oranı Dünya Sağlık Örgütü EDA Epidemi Epidemiyology Epidemiyoloji Exploratory Data Analysis Exploratory Data Analysis (EDA) F1 Forecast Keşifsel Veri Analizi Kitle Olasılık Fonksiyonu Koronavirüs Koronavirüs Salgını Olasılık Olasılıklı Örneklem OSB Pandemi Point Estimation Point Forecast Prevalance Prevalans Probability Sampling R Recall Salgın Sağlık Bakanlığı Simple Random Sampling Tahmin TBATS TURKEY TÜRKİYE Veri Madenciliği WHO World Health Organization Yapay Zeka ÇKKV Örneklem Örneklem Büyüklüğü
Logo

Burada, gazete ve dergilerde yayınlanan çalışmalarımın tamamı çalışmakta olduğum kurumdan bağımsız olarak özel hayatımda yaptığım çalışmalardır. Dolayısıyla, burada yer alan çalışmalardan emeğe saygı adına kaynak gösterilmesi suretiyle azami ölçüde herkes yararlanabilir.

Site Haritası

  • Ana Sayfa
  • Hakkında
  • Blog
  • İletişim

Linkler

  • winally.com

Bana Ulaşın

Bu sayfa, bazı temel bilgilerin ve bir iletişim formunun yer aldığı bir iletişim sayfasıdır. Suç teşkil edecek, yasadışı, tehditkar, rahatsız edici, hakaret ve küfür içeren, aşağılayıcı, küçük düşürücü, kaba, müstehcen, ahlaka aykırı, kişilik haklarına zarar verici ya da benzeri niteliklerde içeriklerden doğan her türlü mali, hukuki, cezai, idari sorumluluk içeriği gönderen Kişilere aittir.

  • Email: buluttevfik@gmail.com

© Copyright 2022 Tevfik Bulut