Günümüzde veri madenciliği uygulamalarının yaygınlaşması ve büyük veri kavramının öne çıkmasıyla birlikte analiz metotları da değişmiştir.
Bugüne kadar genellikle bulut (cloud) veri tabanları üzerindeki veri setleri indirilerek analize konu ediliyordu. Ancak gelişen teknoloji veri madenciliği yöntemlerinde de önemli değişiklikler getirmiştir. Artık veri, programlama dilleri kullanılarak da analiz edilebilmektedir.
Genel olarak veri türü istatistik biliminde 3 gruba ayrılmaktadır.
- Nominal (Kategorik): örneğin, cinsiyet (dikotomik veriler), medeni durum gibi cevap seçenekleri
- Ordinal: Sosyo-ekonomik gelişmişlik durumu, eğitim düzeyi
- Rasyo (Numerik): Ölçülebilir ve sayılabilir nitelikteki veriler rasyo veriler olarak nitelendirilir.
Ancak uygulamada yukarıdaki sınıflandırma çok da geçerli olmayabilir. Diğer bir ifadeyle, online veya offline olarak dokümanlarda analize konu edilecek veri metin verisi ise nasıl analiz edilecektir? Aynı zamanda metin verisiyle birlikte numerik veri iç içe geçmişse, yani hibrit bir veri türüyle karşı karşıya kalınırsa nasıl bir yöntem izlenecektir. Ya da xlsx, txt, csv ve diğer uzantılı dokümanlar online bir platform üzerinde ise nasıl analiz edilecektir? İşte bu soruların cevabı istatistik biliminden de beslenerek ancak ondan öte bilgisayar mühendisliği alanına giren veri madenciliğinde yatmaktadır. Veri madenciliğin temel amacı veriyi analize uygun hale getirmektir. Bu amaçla geliştirilmiş bir çok programlama dili bulunmaktadır. Örnek uygulama yapılacak bu çalışma kapsamında kullanılacak programlama dili R olmakla birlikte Python, Julia gibi diğer programlama dilleri de kullanılabilmektedir.
Çalışma kapsamında özgün bir çalışma olması adına ABD Tarım Departmanı Ekonomik Araştırma Servisi (United States Department of Agriculture Economic Research Service) internet sayfasında yer alan ABD Eyalet ve İl Düzeyi İşsizlik ve Medyan Hanehalkı Geliri (Unemployment and median household income for the U.S., States, and counties) veri seti kullanılmıştır. Kullanılan veri setinin indirilebilir linkine aşağıda yer verilmiştir.
https://www.ers.usda.gov/webdocs/DataFiles/48747/Unemployment.xls?v=9115.7
R programlama dili kullanılarak R kod blokları ve R kod bloklarının çalıştırılmasıyla elde edilen çıktı (output)’lara aşama aşama yer verilerek gösterilmiştir.
R Kod Bloğu 1 (R1)
R1 run edilerek yukarıda bahsedilen siteden veri seti online kaynaktan okunmuştur. Ancak bilgisayara indirilmemiştir.
library(readxl)# Excel dokümanlarını okumak için
url <- "https://www.ers.usda.gov/webdocs/DataFiles/48747/Unemployment.xls?v=9115.7"
destfile <- "Unemployment_xls_v_9115.xls"
curl::curl_download(url, destfile)
Unemployment<- read_excel(destfile, range = "A8:BB3283")#Veri setindeki ilgili hücrelerdeki verileri almak için
Unemployment
R Kod Bloğu 2 (R2)
R2’nin çalıştırılması ile sırasıyla;
- Veri setindeki değişken isimleri
- Kaç değişkenden ve gözlemden oluştuğu
- library(tidyr) ve library(dplyr) paketleri yüklenerek eksik verilerin (Missing Data: NA) olduğu satırlar çıkarılmıştır.
- NA (Not Available) değerleri çıkarıldıktan sonraki gözlem sayısı gözden geçirilmiştir.
- Veri setinden 2018 yılına ait değişkenler alınmıştır.
- 2018 yılına ait veri setinin tanımlayıcı istatistikleri verilmiştir.
- 2018 yılına ait veri setindeki değişken adları değiştirilmiştir.
- 2018 yılına ait veri setinin ilk 6 satırı verilmiştir.
names(Unemployment)
str(Unemployment)#3275 obs. of 54 variables:
library(tidyr)
library(dplyr)
df<-Unemployment %>% drop_na()#Missing Data (NA) olan değerler veri setinden çıkarılmıştır.
str(df)# NA değerleri çıkarıldıktan sonraki gözlem değerleri gözden geçirilmiştir.
df1<-df[, 51:54]#2018 yılı değişkenlerinin olduğu sütunların seçilmesi
df1
summary(df1)#2018 yılı işsizlik veri seti tanımlayıcı istatistikleri
df2<-df1 %>% rename(Labor_Force=Civilian_labor_force_2018, Employed=Employed_2018,Unemployed=Unemployed_2018, Unemployment_Rate= Unemployment_rate_2018)#değişken adlarının değiştirilmesi
names(df2)#Değişkenlerin yeni adları
R2 kod bloğunun çalıştırılmasından sonra elde edilen çıktılar (outputs) sırasıyla aşağıda verilmiştir.
Değişken isimleri: Output (O1)
[1] "FIPS" "State" "Area_name"
[4] "Rural_urban_continuum_code_2013" "Urban_influence_code_2013" "Metro_2013"
[7] "Civilian_labor_force_2007" "Employed_2007" "Unemployed_2007"
[10] "Unemployment_rate_2007" "Civilian_labor_force_2008" "Employed_2008"
[13] "Unemployed_2008" "Unemployment_rate_2008" "Civilian_labor_force_2009"
[16] "Employed_2009" "Unemployed_2009" "Unemployment_rate_2009"
[19] "Civilian_labor_force_2010" "Employed_2010" "Unemployed_2010"
[22] "Unemployment_rate_2010" "Civilian_labor_force_2011" "Employed_2011"
[25] "Unemployed_2011" "Unemployment_rate_2011" "Civilian_labor_force_2012"
[28] "Employed_2012" "Unemployed_2012" "Unemployment_rate_2012"
[31] "Civilian_labor_force_2013" "Employed_2013" "Unemployed_2013"
[34] "Unemployment_rate_2013" "Civilian_labor_force_2014" "Employed_2014"
[37] "Unemployed_2014" "Unemployment_rate_2014" "Civilian_labor_force_2015"
[40] "Employed_2015" "Unemployed_2015" "Unemployment_rate_2015"
[43] "Civilian_labor_force_2016" "Employed_2016" "Unemployed_2016"
[46] "Unemployment_rate_2016" "Civilian_labor_force_2017" "Employed_2017"
[49] "Unemployed_2017" "Unemployment_rate_2017" "Civilian_labor_force_2018"
[52] "Employed_2018" "Unemployed_2018" "Unemployment_rate_2018"
Gözlem ve Değişken Sayısı: Output 2 (O2)
Veri seti görüleceği üzere 54 değişken 3275 gözlemden oluşmaktadır. Aynı zamanda O2’de değişkenlerin veri türü de görülmektedir.
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 3275 obs. of 54 variables:
$ FIPS : num 0 1000 1001 1003 1005 ...
$ State : chr "US" "AL" "AL" "AL" ...
$ Area_name : chr "United States" "Alabama" "Autauga County, AL" "Baldwin County, AL" ...
$ Rural_urban_continuum_code_2013: num NA NA 2 3 6 1 1 6 6 3 ...
$ Urban_influence_code_2013 : num NA NA 2 2 6 1 1 6 6 2 ...
$ Metro_2013 : num NA NA 1 1 0 1 1 0 0 1 ...
$ Civilian_labor_force_2007 : num 1.52e+08 2.18e+06 2.44e+04 8.27e+04 1.03e+04 ...
$ Employed_2007 : num 1.45e+08 2.09e+06 2.36e+04 8.01e+04 9.68e+03 ...
$ Unemployed_2007 : num 7034959 86485 806 2560 650 ...
$ Unemployment_rate_2007 : num 4.6 4 3.3 3.1 6.3 4.1 3.2 9.4 6.2 3.9 ...
$ Civilian_labor_force_2008 : num 1.54e+08 2.18e+06 2.47e+04 8.32e+04 1.02e+04 ...
$ Employed_2008 : num 1.45e+08 2.05e+06 2.34e+04 7.94e+04 9.27e+03 ...
$ Unemployed_2008 : num 8900745 123012 1267 3851 894 ...
$ Unemployment_rate_2008 : num 5.8 5.7 5.1 4.6 8.8 5.8 4.7 10.5 8.5 5.7 ...
$ Civilian_labor_force_2009 : num 1.54e+08 2.16e+06 2.47e+04 8.25e+04 1.00e+04 ...
$ Employed_2009 : num 1.40e+08 1.92e+06 2.23e+04 7.44e+04 8.57e+03 ...
$ Unemployed_2009 : num 14230757 238252 2402 8048 1431 ...
$ Unemployment_rate_2009 : num 9.3 11 9.7 9.8 14.3 13.3 10 15.6 16.4 11.1 ...
$ Civilian_labor_force_2010 : num 1.54e+08 2.20e+06 2.57e+04 8.35e+04 1.02e+04 ...
$ Employed_2010 : num 1.39e+08 1.96e+06 2.34e+04 7.51e+04 8.96e+03 ...
$ Unemployed_2010 : num 14862528 231483 2282 8339 1262 ...
$ Unemployment_rate_2010 : num 9.63 10.5 8.9 10 12.3 11.4 9.8 11.8 13.6 11.4 ...
$ Civilian_labor_force_2011 : num 1.55e+08 2.20e+06 2.58e+04 8.50e+04 9.85e+03 ...
$ Employed_2011 : num 1.41e+08 1.99e+06 2.37e+04 7.74e+04 8.71e+03 ...
$ Unemployed_2011 : num 13840507 212257 2159 7627 1137 ...
$ Unemployment_rate_2011 : num 8.95 9.6 8.4 9 11.5 10.5 8.7 11.6 12.5 10.3 ...
$ Civilian_labor_force_2012 : num 1.55e+08 2.18e+06 2.57e+04 8.44e+04 9.36e+03 ...
$ Employed_2012 : num 1.43e+08 2.00e+06 2.40e+04 7.81e+04 8.28e+03 ...
$ Unemployed_2012 : num 12518793 173047 1779 6349 1079 ...
$ Unemployment_rate_2012 : num 8.07 8 6.9 7.5 11.5 8.5 6.9 10.4 11.5 8.9 ...
$ Civilian_labor_force_2013 : num 1.55e+08 2.17e+06 2.58e+04 8.53e+04 9.10e+03 ...
$ Employed_2013 : num 1.44e+08 2.02e+06 2.42e+04 7.96e+04 8.17e+03 ...
$ Unemployed_2013 : num 11467541 156957 1605 5654 931 ...
$ Unemployment_rate_2013 : num 7.38 7.2 6.2 6.6 10.2 7.9 6.3 9.4 10.3 8.8 ...
$ Civilian_labor_force_2014 : num 1.56e+08 2.16e+06 2.56e+04 8.64e+04 8.84e+03 ...
$ Employed_2014 : num 1.46e+08 2.01e+06 2.41e+04 8.11e+04 7.91e+03 ...
$ Unemployed_2014 : num 9618992 146552 1495 5301 932 ...
$ Unemployment_rate_2014 : num 6.17 6.8 5.8 6.1 10.5 7.2 6.1 8.8 8.6 8 ...
$ Civilian_labor_force_2015 : num 1.57e+08 2.16e+06 2.56e+04 8.77e+04 8.61e+03 ...
$ Employed_2015 : num 1.49e+08 2.03e+06 2.43e+04 8.29e+04 7.85e+03 ...
$ Unemployed_2015 : num 8287559 131395 1330 4859 765 ...
$ Unemployment_rate_2015 : num 5.28 6.1 5.2 5.5 8.9 6.6 5.4 7.9 7.6 7 ...
$ Civilian_labor_force_2016 : num 1.59e+08 2.18e+06 2.60e+04 9.07e+04 8.42e+03 ...
$ Employed_2016 : num 1.51e+08 2.05e+06 2.46e+04 8.58e+04 7.72e+03 ...
$ Unemployed_2016 : num 7727644 127238 1321 4831 700 ...
$ Unemployment_rate_2016 : num 4.87 5.8 5.1 5.3 8.3 6.4 5.4 6.8 6.9 6.5 ...
$ Civilian_labor_force_2017 : num 1.60e+08 2.18e+06 2.60e+04 9.21e+04 8.32e+03 ...
$ Employed_2017 : num 1.53e+08 2.08e+06 2.50e+04 8.83e+04 7.83e+03 ...
$ Unemployed_2017 : num 6980076 96567 1014 3748 486 ...
$ Unemployment_rate_2017 : num 4.36 4.4 3.9 4.1 5.8 4.4 4 4.9 5.5 5 ...
$ Civilian_labor_force_2018 : num 1.62e+08 2.20e+06 2.60e+04 9.38e+04 8.37e+03 ...
$ Employed_2018 : num 1.55e+08 2.11e+06 2.50e+04 9.05e+04 7.94e+03 ...
$ Unemployed_2018 : num 6296445 86490 942 3393 433 ...
$ Unemployment_rate_2018 : num 3.9 3.9 3.6 3.6 5.2 4 3.5 4.7 4.8 4.7 ...
Eksik Verilerin (Missing Data: NA) Veri Setinden Çıkarılması: Output 3 (O3)
O3’te eksik veriler veri setinden çıkarılarak gözlem sayısı yeniden güncellenmiştir. Yeni durumda veri setindeki gözlem sayısı 3275’ten 3214’e düşmüştür.
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 3214 obs. of 54 variables:
$ FIPS : num 1001 1003 1005 1007 1009 ...
$ State : chr "AL" "AL" "AL" "AL" ...
$ Area_name : chr "Autauga County, AL" "Baldwin County, AL" "Barbour County, AL" "Bibb County, AL" ...
$ Rural_urban_continuum_code_2013: num 2 3 6 1 1 6 6 3 6 6 ...
$ Urban_influence_code_2013 : num 2 2 6 1 1 6 6 2 5 6 ...
$ Metro_2013 : num 1 1 0 1 1 0 0 1 0 0 ...
$ Civilian_labor_force_2007 : num 24383 82659 10334 8791 26629 ...
$ Employed_2007 : num 23577 80099 9684 8432 25780 ...
$ Unemployed_2007 : num 806 2560 650 359 849 ...
$ Unemployment_rate_2007 : num 3.3 3.1 6.3 4.1 3.2 9.4 6.2 3.9 6.5 4.2 ...
$ Civilian_labor_force_2008 : num 24687 83223 10161 8749 26698 ...
$ Employed_2008 : num 23420 79372 9267 8241 25453 ...
$ Unemployed_2008 : num 1267 3851 894 508 1245 ...
$ Unemployment_rate_2008 : num 5.1 4.6 8.8 5.8 4.7 10.5 8.5 5.7 14.4 5.7 ...
$ Civilian_labor_force_2009 : num 24703 82451 10003 8742 26480 ...
$ Employed_2009 : num 22301 74403 8572 7581 23832 ...
$ Unemployed_2009 : num 2402 8048 1431 1161 2648 ...
$ Unemployment_rate_2009 : num 9.7 9.8 14.3 13.3 10 15.6 16.4 11.1 19.6 11.7 ...
$ Civilian_labor_force_2010 : num 25713 83459 10221 8934 24906 ...
$ Employed_2010 : num 23431 75120 8959 7914 22460 ...
$ Unemployed_2010 : num 2282 8339 1262 1020 2446 ...
$ Unemployment_rate_2010 : num 8.9 10 12.3 11.4 9.8 11.8 13.6 11.4 14.9 10.6 ...
$ Civilian_labor_force_2011 : num 25836 85045 9849 8933 25123 ...
$ Employed_2011 : num 23677 77418 8712 7996 22939 ...
$ Unemployed_2011 : num 2159 7627 1137 937 2184 ...
$ Unemployment_rate_2011 : num 8.4 9 11.5 10.5 8.7 11.6 12.5 10.3 12 9.7 ...
$ Civilian_labor_force_2012 : num 25740 84414 9362 8798 24960 ...
$ Employed_2012 : num 23961 78065 8283 8047 23244 ...
$ Unemployed_2012 : num 1779 6349 1079 751 1716 ...
$ Unemployment_rate_2012 : num 6.9 7.5 11.5 8.5 6.9 10.4 11.5 8.9 9.9 8 ...
$ Civilian_labor_force_2013 : num 25810 85280 9099 8705 24887 ...
$ Employed_2013 : num 24205 79626 8168 8016 23325 ...
$ Unemployed_2013 : num 1605 5654 931 689 1562 ...
$ Unemployment_rate_2013 : num 6.2 6.6 10.2 7.9 6.3 9.4 10.3 8.8 8 6.6 ...
$ Civilian_labor_force_2014 : num 25592 86384 8845 8559 24527 ...
$ Employed_2014 : num 24097 81083 7913 7942 23023 ...
$ Unemployed_2014 : num 1495 5301 932 617 1504 ...
$ Unemployment_rate_2014 : num 5.8 6.1 10.5 7.2 6.1 8.8 8.6 8 6.7 5.8 ...
$ Civilian_labor_force_2015 : num 25613 87741 8613 8576 24485 ...
$ Employed_2015 : num 24283 82882 7848 8009 23163 ...
$ Unemployed_2015 : num 1330 4859 765 567 1322 ...
$ Unemployment_rate_2015 : num 5.2 5.5 8.9 6.6 5.4 7.9 7.6 7 6 5.4 ...
$ Civilian_labor_force_2016 : num 25966 90670 8417 8623 24623 ...
$ Employed_2016 : num 24645 85839 7717 8067 23298 ...
$ Unemployed_2016 : num 1321 4831 700 556 1325 ...
$ Unemployment_rate_2016 : num 5.1 5.3 8.3 6.4 5.4 6.8 6.9 6.5 5.5 5 ...
$ Civilian_labor_force_2017 : num 25972 92090 8317 8550 24725 ...
$ Employed_2017 : num 24958 88342 7831 8174 23726 ...
$ Unemployed_2017 : num 1014 3748 486 376 999 ...
$ Unemployment_rate_2017 : num 3.9 4.1 5.8 4.4 4 4.9 5.5 5 4.1 4.1 ...
$ Civilian_labor_force_2018 : num 25957 93849 8373 8661 25006 ...
$ Employed_2018 : num 25015 90456 7940 8317 24128 ...
$ Unemployed_2018 : num 942 3393 433 344 878 ...
$ Unemployment_rate_2018 : num 3.6 3.6 5.2 4 3.5 4.7 4.8 4.7 3.9 3.6 ...
2018 Veri Setindeki Değişkenlerin Tanımlayıcı İstatistikleri: Output (O4)
Civilian_labor_force_2018 Employed_2018 Unemployed_2018 Unemployment_rate_2018
Min. : 102 Min. : 98 Min. : 4.0 Min. : 1.300
1st Qu.: 4961 1st Qu.: 4730 1st Qu.: 208.0 1st Qu.: 3.100
Median : 11423 Median : 10962 Median : 496.5 Median : 3.900
Mean : 50628 Mean : 48638 Mean : 1989.8 Mean : 4.294
3rd Qu.: 31052 3rd Qu.: 29739 3rd Qu.: 1288.8 3rd Qu.: 4.900
Max. :5136341 Max. :4896512 Max. :239829.0 Max. :19.900
2018 Veri Setindeki Değişkenlerin Adlarının Değiştirilmesi: Output (O4)
[1] "Labor_Force" "Employed" "Unemployed" "Unemployment_Rate"
2018 Veri Setindeki İlk 6 Satır: Output (O5)
Labor_Force Employed Unemployed Unemployment_Rate
25957 25015 942 3.6
93849 90456 3393 3.6
8373 7940 433 5.2
8661 8317 344 4.0
25006 24128 878 3.5
4776 4552 224 4.7
R Kod Bloğu 3 (R3)
R3’nin çalıştırılması ile sırasıyla;
- Değişkenler arasındaki ilişkiler çoklu çizgi grafiklerle verilmiştir.
- Değişkenlerin dağılım yapısını incelemek çoklu histogramı çizilmiştir.
- Veri setindeki uç değerleri görmek için çoklu Boxplot’lar çizilmiştir.
#Yüklü değilse indiriniz: install.packages("tidyverse")
##Yüklü değilse indiriniz: install.packages("ggplot2")
library(ggplot2)
#Yüklü değilse indiriniz: install.packages("ggpubr")
library(ggpubr)
#Değişkenler arasındaki ilişkiler çizgi çoklu grafiklerle verilmiştir.
x1<-df2%>%ggplot(aes(Labor_Force,Employed))+
geom_line(colour = "brown")+
ggtitle("İşgücü İstihdam İlişkisi")
#geom_smooth(method = "lm", se = FALSE)
x2<-df2%>%ggplot(aes(Labor_Force,Unemployed))+
geom_line(colour = "green")+
ggtitle("İssizlik İşgücü İlişkisi")
#geom_hline(yintercept = mean(df2$Labor_Force))+
#geom_abline()
x3<-df2%>%ggplot(aes(Labor_Force,Unemployment_Rate))+
geom_line(colour = "blue")+
ggtitle("İşsizlik Oranı İşgücü İlişkisi")
x4<-df2%>%ggplot(aes(Employed,Unemployment_Rate))+
geom_line(colour = "red")+
ggtitle("İstihdam İşsizlik Oranı İlişkisi")
ggarrange(x1, x2, x3, x4, ncol = 2, nrow = 2, common.legend = TRUE)
#Değişkenlerin dağılım yapısını incelemek çoklu histogramı çizilmiştir.
h1<-df2%>%ggplot(aes(Labor_Force))+
geom_histogram(fill = "blue")+
ggtitle("İşgücü")
h2<-df2%>%ggplot(aes(Employed))+
geom_histogram(fill = "red")+
ggtitle("İstihdam")
h3<-df2%>%ggplot(aes(Unemployed))+
geom_histogram(fill = "green")+
ggtitle("İşsizlik")
h4<-df2%>%ggplot(aes(Unemployment_Rate))+
geom_histogram(fill = "brown")+
ggtitle("İşsizlik Oranı")
ggarrange(h1, h2, h3, h4, ncol = 2, nrow = 2, common.legend = TRUE)
#Veri setindeki uç değerleri görmek için çoklu Boxplot'lar çizilmiştir.
b1<-df2%>%ggplot(aes(y=Labor_Force))+
geom_boxplot(fill = "blue", outlier.colour = "red")
b2<-df2%>%ggplot(aes(y=Unemployed))+
geom_boxplot(fill = "red", outlier.colour = "red")
b3<-df2%>%ggplot(aes(y=Employed))+
geom_boxplot(fill = "green", outlier.colour = "red")
b4<-df2%>%ggplot(aes(y=Unemployment_Rate))+
geom_boxplot(fill = "brown", outlier.colour = "red")
ggarrange(b1, b2, b3, b4, ncol = 2, nrow = 2, common.legend = TRUE)
Değişkenler Arasındaki İlişkilerin Çoklu Çizgi Grafiklerle Gösterimi: Output (O6)
Değişkenlerin Dağılım Yapısını Ortaya Koyan Çoklu Histogram: Output (O7)
Veri Setinde Değişkenlere Ait Uç Değerlerin Çoklu Boxplot Grafiklerle Gösterimi: Output (O8)
R Kod Bloğu 4 (R4)
R4’ün çalıştırılmasıyla sırasıyla;
- Veri setinde Labor_Force (İşgücü) değişkenine ait tanımlayıcı istatistiklerle birlikte gözlem sayısı ile logaritması da alınarak kutu diyagramları (boxplots) çizilmiştir.
- Veri setinde boxplot formülü ile uç değerler hesaplanacaktır.
- Son durumda bulunan uç değerler veri setinden çıkarılarak tanımlayıcı istatistiklerle gözlem sayısı ile logaritması da alınarak kutu diyagramları (boxplots) çizilmiştir.
df22<-df2$Labor_Force
summary(df22)
NROW(df22)##Veri setindeki satır sayısı veya gözlem sayısı
#Boxplot
b11<-df2%>%ggplot(aes(y=Labor_Force))+
geom_boxplot(fill = "brown", outlier.colour = "red")
b22<-df2%>%ggplot(aes(y=log(Labor_Force)))+
geom_boxplot(fill = "brown", outlier.colour = "red")#işgücü değişkeninin logaritması alınarak boxplot çizilmesi
ggarrange(b11, b22, ncol = 2, nrow = 1, common.legend = TRUE)
#Boxplot yaklaşımı
v1<-31052+1.5*IQR(df22)
#data subsetting
df22[df22>70188.5]
df22[df22<70188.5]
df23<-df22[df22<v1]
NROW(df23)# Uç değerler çıkarıldıktan sonra veri setinde kalan satır sayısı veya gözlem sayısı
summary(df23)#tanımlayıcı istatistikler
#Uç değerler çıkarıldıktan sonraki kutu diyagramlar
par(mfrow=c(1,2))#grid kutu diyagramlar çizilebilmesi için
boxplot(df23, ylab="Labor_Force", col = "orange", border = "blue")
boxplot(log(df23), ylab="Log(Labor_Force)", col = "red", border = "blue")
İşgücü Değişkenine Ait Tanımlayıcı İstatistikler: Output (O8)
Min. 1st Qu. Median Mean 3rd Qu. Max.
102 4961 11423 50628 31052 5136341
ve Gözlem Sayısı
[1] 3214
İşgücü Değişkenine Ait Kutu Diyagramlar (Box Plots): Output (O9)
Uç Değerler Çıkarıldıktan Sonra İşgücü Değişkenine Ait Tanımlayıcı İstatistikler: Output (O9)
Min. 1st Qu. Median Mean 3rd Qu. Max.
102 4308 9130 14525 19571 70132
ve Gözlem Sayısı
[1] 2759
Uç Değerler Çıkarıldıktan Sonra İşgücü Değişkenine Ait Box Plot: Output (O10)
Şimdiye kadar yapılan işlemlerle daha çok veri madenciliğinin de amacına hizmet eden verinin online kaynaklardan okunması ve analize uygun hale getirilmesi amaçlanmıştır. Bu aşamadan sonra veri seti ileri düzey analizlere hazır hale getirilmiştir. Burada veri madenciliği konu alanı altında pek çok diğer işlem de yapılabilir. Bu durum verinin türüne, kaynağına, analizin ve araştırmanın amacına göre farklılık göstermektedir.
Faydalı olması ve farkındalık oluşturulması dileğiyle.
Yararlanılan Kaynaklar
- https://www.ers.usda.gov/data-products/county-level-data-sets/download-data/
- https://www.r-project.org/
- https://www.ers.usda.gov/webdocs/DataFiles/48747/Unemployment.xls?v=9115.7.