KAPAK

KÜNYE

Önsöz

Bu kitabın amacı, R yazılımı kullanarak veri seti düzenleme ve görselleştirme işlemlerinin yapılabilmesini sağlamaktır. Veri düzenleme ve görselleştirme işlemleri, karmaşık görünen verilerin daha anlaşılır ve kolay analiz edilebilir olmasına yardımcı olur. Özellikle son yıllarda bilgi ve teknoloji alanındaki gelişmelerle birlikte büyük veri ile çalışmak popülerlik kazanmış, bu verilerin düzenlenme, analiz aşamalarında özgür ve açık kaynak kodlu programlama dili olan R yazılımının da kullanımı artmıştır. Tüm verilerden elde edilen analiz sonuçlarının güvenilir olabilmesi için bu işlemlerin dikkatli bir şekilde yapılması gerekmektedir. Bu kitap sayesinde artık R yazılımını kullanarak veri düzenleme ve görselleştirme ile ilgili süreçler hakkında daha detaylı bilgiler edinecek ve bu bilgileri kendi çalışmalarınızda rahatlıkla kullanabileceksiniz.

Bu kitap, R yazılımı kullanılarak oluşturulan veri düzenleme ve görselleştirme bölümlerinden oluşmaktadır. Hem gerçek uygulamadan elde edilen hem de üretilen verilerin (veri setinin) amaca uygun bir şekilde kullanılabilmesi için öncelikle iyi bir şekilde düzenlenmesi gerekir. Düzenlenmiş veriler, analiz sürecini kolaylaştırmakla birlikte tekrar kullanılabilirlik gibi sürdürülebilirlik açısından da oldukça önemlidir. Böylece daha anlaşılır ve basit hâle gelen veri setiyle daha hızlı ve pratik sonuç ve yorumlar elde edilebilir. Bu amaçla bu kitapta yer alan veri düzenleme başlığında veri düzenleme ile ilgili örnekler, R kodlarıyla birlikte verilmiştir. Veri düzenleme bölümünde; değişkenlerin belli özelliklerine göre veri seti oluşturma, veri setine değişken ekleme ve çıkarma, frekans tablosu oluşturma, veriden betimsel istatistikleri hesaplama, seçme ve dönüştürme yapma, veri setini belli özelliklere göre birleştirme işlemleri yer almaktadır.

Amacımıza uygun ilgili değişkenleri içerecek şekilde veriyi düzenledikten sonraki önemli diğer aşama, verideki bilginin daha kolay bir şekilde ortaya konulmasını sağlayan görselleştirmedir. Verilerin grafikler ile görselleştirilerek temsil edilmesi, bilginin daha anlaşılır ve kalıcı bir şekilde ifade edilmesini sağlar. Veri düzenlemede olduğu gibi bu bölümde de veri görselleştirme ile ilgili örnekler R kodlarıyla birlikte verilmiştir. Veri görselleştirme bölümünde; veriyi betimlemek amacıyla grafik türleri tüm özellikleri ile detaylı bir şekilde anlatılmıştır.

Bu kitabı yazarken okuyucuların temel düzeyde R yazılımı bilgisine sahip olduğu yani R paketlerini yükleyip içerisindeki fonksiyonları kullanabildiği, R yazılımındaki veri yapılarını bildiği ve R ortamına veri aktarımını yapabildiği varsayılmıştır. Ayrıca kitabın R kodlarıyla birlikte anlatıldığı veri düzenleme ve görselleştirme bölümlerinde, PISA 2018 Türkiye verisi kullanılmıştır.

PISA

Uluslararası Öğrenci Değerlendirme Programı (Programme for International Student Assessment-PISA), Ekonomik İşbirliği ve Kalkınma Örgütü (Organisation for Economic Co-operation and Development[OECD]) tarafından geliştirilen ve 15 yaş grubundaki öğrencilere uygulanan uluslararası bir izleme çalışmasıdır. Üç yıllık döngülerle yapılan bu sınavın amacı, öğrencilerin okulda kazandıkları bilgi ve becerileri günlük hayata entegre edebilme becerilerini değerlendirmektir (MEB, 2019).

PISA uygulamaları ile öğrencilerin okuma becerileri ile matematik ve fen alanlarındaki okuryazarlıkları değerlendirilmektedir. Her bir döngüde bu üç alandan birisi ağırlıklı alan olarak belirlenmekte olup PISA 2018 uygulamasında ağırlıklı alan okuma becerileri olarak belirlenmiştir.

PISA araştırmasında uygulanan öğrenci okul ve veli anketleri aracılığıyla öğrencilerin motivasyonları, kendileri hakkındaki görüşleri, öğrenme süreçleri ile ilgili psikolojik özellikleri, okul ortamları ve aileleri ile ilgili veriler de toplanmaktadır. PISA 2018 araştırmasında öğretmenler, öğrenciler, okul yöneticileri ve veliler için anketler düzenlenmiştir. Bu anketlerde yer alan değişkenler ile öğrenci becerileri arasındaki ilişkiler incelenir. Özellikle öğrenciler arası ilişki ve okullar arası ilişkilere yönelik göstergeler ortaya konulur.

Bu Kitabın Kullanımı

Bu kitapta, Türkiye’de 6890 öğrencinin katılımı ile bilgisayar tabanlı olarak gerçekleştirilen PISA 2018 uygulama verileri kullanılmıştır. Veri aktarımı konusunda okurların temel düzeyde bilgiye sahip olduğu varsayıldığı ve kitabın odak noktasını veri düzenleme ve görselleştirme olduğu için hazır veri seti kullanılmıştır. Ayrıca uluslararası sınavlarla ilgili verileri aktarma, birleştirme ve analiz etme amacıyla geliştirilen birçok R paketi vardır. Bunlardan yaygın olarak kullanılanlar; intsvy (Caro & Biecek, 2017), EdSurvey (Bailey et al., 2023), RALSA (Mirazchiyski, 2023) paketleridir. Ek olarak geniş kapsamlı uluslararası başarı değerlendirme programlarından PISA ve TIMSS Türkiye verilerini depolayan Türkiye Uluslararası Eğitim Verisi tuev (Karatoprak Erşen & Atalay Kabasakal, 2022) R kütüphanesi de mevcuttur.

Veri setleri PISA uygulamasının web adresi üzerinden indirilmiştir. Tüm veri setleri https://www.oecd.org/pisa/data/ adresinden SAS ve SPSS formatlarında indirelebilir. Bu kitapta kullanılan veri setleri bu adresten indirildikten sonra sadece Türkiye’ye ait veri setleri *.Rda uzantılı olacak şekilde kaydedilmiştir. Aşağıda yer alan üç veri setini indirebilirsiniz.

Bu veri setlerini yukarıda yer alan linklerden indirebileceğiniz gibi aşağıdaki kodlar aracılığı ile R çalışma alanınıza yükleyerek kullanabilirsiniz.

devtools::install_github("tuevpaket/tuev")
library("tuev")
data(PISA_COG_2018)
data(PISA_SCH_2018)
data(PISA_OGR_2018)

Bilişsel veri seti 6890 gözlem(öğrenci) ve 3589 değişken, öğrenci anketi veri seti 6890 gözlem (öğrenci) ve 3589 değişken, okul anketi veri seti 186 gözlem (okul) ve 197 değişken içermektedir. Bu kadar büyük bir veri seti ile çalışmak zor olacağı için pratiklik ve anlaşılabilirlik açısından PISA_OGR_2018 veri setinden seçilen veri düzenleme bölümünde midiPISA, veri görselleştirme bölümünde ise miniPISA veri setleri oluşturulmuş ve kitaptaki örnekler bu veri setleri üzerinden yapılmıştır.

midiPISA Veri Seti

Bu kitabı çalışmak için bir R proje klasörü oluşturmanız ve bu klasörün içinde yer alan data adlı alt klasöre verileri kopyalamanız kodlar üzerinde çalışmanızı kolaylaştıracaktır.

library(dplyr)
library(magrittr)
load("data/PISA_OGR_2018.rda")
midiPISA <- PISA_OGR_2018 %>% 
  select(OGRENCIID,SINIF,CINSIYET,
         Anne_Egitim,Baba_Egitim,OKUMA_ZEVK,
         ST097Q01TA:ST097Q05TA,ODOKUMA1:ODOKUMA5)

Eğer veri setleri indirmeden kitabı kullanmak isterseniz yukarıdaki kodların alternatifi aşağıda sunulmuştur.

library(dplyr)
library(magrittr)
library(tuev)
data(PISA_OGR_2018)
midiPISA <- PISA_OGR_2018 %>% 
  select(OGRENCIID,SINIF,CINSIYET,
         Anne_Egitim,Baba_Egitim,OKUMA_ZEVK,
         ST097Q01TA:ST097Q05TA,ODOKUMA1:ODOKUMA5)

midiPISA veri seti; öğrenci id (OGRENCIID), sınıf düzeyi (SINIF), cinsiyet (CINSIYET), anne eğitim düzeyi (Anne_Egitim), baba eğitim düzeyi (Baba_Egitim), okumaktan zevk alma (OKUMA_ZEVK), ST097Q01TA, ST097Q02TA, ST097Q03TA, ST097Q04TA, ST097Q05TA, okuma puanı olası değer 1 (ODOKUMA1), okuma puanı olası değer 2 (ODOKUMA2), okuma puanı olası değer 3 (ODOKUMA3), okuma puanı olası değer 4 (ODOKUMA4), okuma puanı olası değer 5 (ODOKUMA5) değişkenleri olmak üzere toplam 16 değişkenden oluşmaktadır.

miniPISA Veri Seti

library(dplyr)
library(magrittr)
miniPISA <- PISA_OGR_2018 %>% 
  select(SINIF, CINSIYET, KITAPSAYISI, SES, 
    Anne_Egitim,Baba_Egitim,OKUMA_ZEVK,OK_YETERLIK,
    Okuloncesi_yil, OKUL_TUR,ODOKUMA1)

miniPISA veri seti; sınıf düzeyi (SINIF), cinsiyet (CINSIYET), kitap sayısı (KITAPSAYISI), sosyo ekonomik düzey (SES), anne eğitim, okumaktan zevk alma (OKUMA_ZEVK), okul türü (OKUL_TUR), okuma yeterlik (OK_YETERLIK), okuma puanı olası değer 1 (ODOKUMA1) değişkenleri olmak üzere toplam 11 değişkenden oluşmaktadır.

midiPISA ve miniPISA veri setlerini yukarıdaki kodlarla oluşturabileceğiniz gibi aşağıdaki bağlantılardan da indirebilirsiniz.

Öncelikle data adlı klasöre indirilen yukarıdaki miniPISA ve midiPISA veri setlerini aşağıdaki kodlarla çalıştırarak R ortamına yüklemek gerekir.

# çalışılacak veri setinin data adlı klasörden R ortamına aktarılması
load("data/miniPISA.rda") 
# ilk altı satırın görüntülenmesi
head(miniPISA) 
## # A tibble: 6 × 11
##        SINIF   CINSIYET KITAPSAYISI     SES Anne_Egitim Baba_Egitim OKUMA_ZEVK
##   <hvn_lbll> <hvn_lbll>  <hvn_lbll>   <dbl>  <hvn_lbll>  <hvn_lbll>      <dbl>
## 1         10          2           2 -2.45             2           2     -0.289
## 2         10          2           3 -2.10             2           2      0.604
## 3         10          1           1 -2.27             1           2      0.638
## 4          9          2           1  0.0324           6           6     -1.15 
## 5          9          2           2 -0.0674           4           4      0.667
## 6         10          2           2  0.398            4           6      0.357
## # ℹ 4 more variables: OK_YETERLIK <dbl>, Okuloncesi_yil <hvn_lbll>,
## #   OKUL_TUR <hvn_lbll>, ODOKUMA1 <dbl>
# çalışılacak veri setinin data adlı klasörden R ortamına aktarılması
load("data/midiPISA.rda") 
head(midiPISA) 
## # A tibble: 6 × 16
##   OGRENCIID      SINIF   CINSIYET Anne_Egitim Baba_Egitim OKUMA_ZEVK ST097Q01TA
##       <dbl> <hvn_lbll> <hvn_lbll>  <hvn_lbll>  <hvn_lbll>      <dbl> <hvn_lbll>
## 1  79200768         10          2           2           2     -0.289          1
## 2  79201064         10          2           2           2      0.604          3
## 3  79201118         10          1           1           2      0.638          2
## 4  79201275          9          2           6           6     -1.15           2
## 5  79201481          9          2           4           4      0.667          3
## 6  79201556         10          2           4           6      0.357          3
## # ℹ 9 more variables: ST097Q02TA <hvn_lbll>, ST097Q03TA <hvn_lbll>,
## #   ST097Q04TA <hvn_lbll>, ST097Q05TA <hvn_lbll>, ODOKUMA1 <dbl>,
## #   ODOKUMA2 <dbl>, ODOKUMA3 <dbl>, ODOKUMA4 <dbl>, ODOKUMA5 <dbl>

Bu kitapta yapılan örneklerde gerektiği zamanlarda gerekli fonksiyonlarla miniPISA ve midiPISA’da yer alan değişkenler ayrılmış ve tekrar birleştirilmiştir. Bunun sebebi, kitabın amacının veri düzenleme ve görselleştirme ile ilgili temel paket ve bu paketlerde yer alan fonksiyonların kullanımını örneklerle göstermek olduğundan aynı veri seti üzerinde çalışılarak karmaşıklığa sebebiyet vermemektir. Tabi ki sizin elinizde farklı veri setleri mevcut olacağından onlar üzerinden birleştirme, çıkarma, ekleme gibi çeşitli veri düzenleme ve görselleştirme işlemlerini gerçekleştirebilirsiniz.

tidyverse paketi

tidyverse paketi veri düzenlemeleri ve düzenlenen verilerin görselleştirilmesini sağlayan birçok paketi içinde barındıran büyük bir pakettir. tidyverse içindeki paketler, ortak bir veri sistemine sahip, birlikte çalışmaya uygun olacak şekilde tasarlanmıştır. Bu paket, veri düzenlemenin temel paketlerinden olan dplyr paketi ile veri görselleştirmede en sık kullanılan ggplot2 paketini de içermektedir.

  • İlk yapılması gereken tidyverse paketini yüklemek ve kütüphaneye eklemektir.
# paketin yüklenmesi
install.packages("tidyverse",repos="https://cran.rstudio.com") 
# paketin kütüphaneye eklenerek aktifleştirilmesi
library("tidyverse") 
  • Bu bölümde tidyverse paketi içinde yer alan ve veri düzenleme-görselleştirmede en sık kullanılan paketler ve fonksiyonlar örneklerle anlatılmıştır.

Kaynaklar

Bailey, P., Emad, A., Huo, H., Lee, M., Liao, Y., Lishinski, A., Nguyen, T., Xie, Q., Yu, J., Zhang, T., Buehler, E., Lee, S., & Webb, B. (2023). EdSurvey: Analysis of NCES education survey and assessment data. https://CRAN.R-project.org/package=EdSurvey
Caro, D. H., & Biecek, P. (2017). Intsvy: An r package for analyzing international large-scale assessment data. 81. https://doi.org/10.18637/jss.v081.i07
Karatoprak Erşen, R., & Atalay Kabasakal, K. (2022). Tuev: Turkiye uluslararasi egitim verisi. https://github.com/tuevpaket/tuev
MEB. (2019). PISA 2018 türkiye ulusal ön raporu. Milli Eğitim Bakanlığı.
Mirazchiyski, P. V., & INERI. (2023). RALSA: R analyzer for large-scale assessments. https://CRAN.R-project.org/package=RALSA