Bu Kitabın Kullanımı
Bu kitapta, Türkiye’de 6890 öğrencinin katılımı ile bilgisayar tabanlı olarak gerçekleştirilen PISA 2018 uygulama verileri kullanılmıştır. Veri aktarımı konusunda okurların temel düzeyde bilgiye sahip olduğu varsayıldığı ve kitabın odak noktasını veri düzenleme ve görselleştirme olduğu için hazır veri seti kullanılmıştır. Ayrıca uluslararası sınavlarla ilgili verileri aktarma, birleştirme ve analiz etme amacıyla geliştirilen birçok R paketi vardır. Bunlardan yaygın olarak kullanılanlar; intsvy (Caro & Biecek, 2017), EdSurvey (Bailey et al., 2023), RALSA (Mirazchiyski, 2023) paketleridir. Ek olarak geniş kapsamlı uluslararası başarı değerlendirme programlarından PISA ve TIMSS Türkiye verilerini depolayan Türkiye Uluslararası Eğitim Verisi tuev (Karatoprak Erşen & Atalay Kabasakal, 2022) R kütüphanesi de mevcuttur.
Veri setleri PISA uygulamasının web adresi üzerinden indirilmiştir. Tüm veri setleri https://www.oecd.org/pisa/data/ adresinden SAS ve SPSS formatlarında indirelebilir. Bu kitapta kullanılan veri setleri bu adresten indirildikten sonra sadece Türkiye’ye ait veri setleri *.Rda uzantılı olacak şekilde kaydedilmiştir. Aşağıda yer alan üç veri setini indirebilirsiniz.
Bu veri setlerini yukarıda yer alan linklerden indirebileceğiniz gibi aşağıdaki kodlar aracılığı ile R çalışma alanınıza yükleyerek kullanabilirsiniz.
devtools::install_github("tuevpaket/tuev")
library("tuev")
data(PISA_COG_2018)
data(PISA_SCH_2018)
data(PISA_OGR_2018)Bilişsel veri seti 6890 gözlem(öğrenci) ve 3589 değişken, öğrenci anketi veri seti 6890 gözlem (öğrenci) ve 3589 değişken, okul anketi veri seti 186 gözlem (okul) ve 197 değişken içermektedir. Bu kadar büyük bir veri seti ile çalışmak zor olacağı için pratiklik ve anlaşılabilirlik açısından PISA_OGR_2018 veri setinden seçilen veri düzenleme bölümünde midiPISA, veri görselleştirme bölümünde ise miniPISA veri setleri oluşturulmuş ve kitaptaki örnekler bu veri setleri üzerinden yapılmıştır.
midiPISA Veri Seti
Bu kitabı çalışmak için bir R proje klasörü oluşturmanız ve bu klasörün içinde yer alan data adlı alt klasöre verileri kopyalamanız kodlar üzerinde çalışmanızı kolaylaştıracaktır.
library(dplyr)
library(magrittr)
load("data/PISA_OGR_2018.rda")
midiPISA <- PISA_OGR_2018 %>%
select(OGRENCIID,SINIF,CINSIYET,
Anne_Egitim,Baba_Egitim,OKUMA_ZEVK,
ST097Q01TA:ST097Q05TA,ODOKUMA1:ODOKUMA5)Eğer veri setleri indirmeden kitabı kullanmak isterseniz yukarıdaki kodların alternatifi aşağıda sunulmuştur.
library(dplyr)
library(magrittr)
library(tuev)
data(PISA_OGR_2018)
midiPISA <- PISA_OGR_2018 %>%
select(OGRENCIID,SINIF,CINSIYET,
Anne_Egitim,Baba_Egitim,OKUMA_ZEVK,
ST097Q01TA:ST097Q05TA,ODOKUMA1:ODOKUMA5)midiPISA veri seti; öğrenci id (OGRENCIID), sınıf düzeyi (SINIF), cinsiyet (CINSIYET), anne eğitim düzeyi (Anne_Egitim), baba eğitim düzeyi (Baba_Egitim), okumaktan zevk alma (OKUMA_ZEVK), ST097Q01TA, ST097Q02TA, ST097Q03TA, ST097Q04TA, ST097Q05TA, okuma puanı olası değer 1 (ODOKUMA1), okuma puanı olası değer 2 (ODOKUMA2), okuma puanı olası değer 3 (ODOKUMA3), okuma puanı olası değer 4 (ODOKUMA4), okuma puanı olası değer 5 (ODOKUMA5) değişkenleri olmak üzere toplam 16 değişkenden oluşmaktadır.
miniPISA Veri Seti
library(dplyr)
library(magrittr)
miniPISA <- PISA_OGR_2018 %>%
select(SINIF, CINSIYET, KITAPSAYISI, SES,
Anne_Egitim,Baba_Egitim,OKUMA_ZEVK,OK_YETERLIK,
Okuloncesi_yil, OKUL_TUR,ODOKUMA1)miniPISA veri seti; sınıf düzeyi (SINIF), cinsiyet (CINSIYET), kitap sayısı (KITAPSAYISI), sosyo ekonomik düzey (SES), anne eğitim, okumaktan zevk alma (OKUMA_ZEVK), okul türü (OKUL_TUR), okuma yeterlik (OK_YETERLIK), okuma puanı olası değer 1 (ODOKUMA1) değişkenleri olmak üzere toplam 11 değişkenden oluşmaktadır.
midiPISA ve miniPISA veri setlerini yukarıdaki kodlarla oluşturabileceğiniz gibi aşağıdaki bağlantılardan da indirebilirsiniz.
Öncelikle data adlı klasöre indirilen yukarıdaki miniPISA ve midiPISA veri setlerini aşağıdaki kodlarla çalıştırarak R ortamına yüklemek gerekir.
# çalışılacak veri setinin data adlı klasörden R ortamına aktarılması
load("data/miniPISA.rda")
# ilk altı satırın görüntülenmesi
head(miniPISA) ## # A tibble: 6 × 11
## SINIF CINSIYET KITAPSAYISI SES Anne_Egitim Baba_Egitim OKUMA_ZEVK
## <hvn_lbll> <hvn_lbll> <hvn_lbll> <dbl> <hvn_lbll> <hvn_lbll> <dbl>
## 1 10 2 2 -2.45 2 2 -0.289
## 2 10 2 3 -2.10 2 2 0.604
## 3 10 1 1 -2.27 1 2 0.638
## 4 9 2 1 0.0324 6 6 -1.15
## 5 9 2 2 -0.0674 4 4 0.667
## 6 10 2 2 0.398 4 6 0.357
## # ℹ 4 more variables: OK_YETERLIK <dbl>, Okuloncesi_yil <hvn_lbll>,
## # OKUL_TUR <hvn_lbll>, ODOKUMA1 <dbl>
# çalışılacak veri setinin data adlı klasörden R ortamına aktarılması
load("data/midiPISA.rda")
head(midiPISA) ## # A tibble: 6 × 16
## OGRENCIID SINIF CINSIYET Anne_Egitim Baba_Egitim OKUMA_ZEVK ST097Q01TA
## <dbl> <hvn_lbll> <hvn_lbll> <hvn_lbll> <hvn_lbll> <dbl> <hvn_lbll>
## 1 79200768 10 2 2 2 -0.289 1
## 2 79201064 10 2 2 2 0.604 3
## 3 79201118 10 1 1 2 0.638 2
## 4 79201275 9 2 6 6 -1.15 2
## 5 79201481 9 2 4 4 0.667 3
## 6 79201556 10 2 4 6 0.357 3
## # ℹ 9 more variables: ST097Q02TA <hvn_lbll>, ST097Q03TA <hvn_lbll>,
## # ST097Q04TA <hvn_lbll>, ST097Q05TA <hvn_lbll>, ODOKUMA1 <dbl>,
## # ODOKUMA2 <dbl>, ODOKUMA3 <dbl>, ODOKUMA4 <dbl>, ODOKUMA5 <dbl>
Bu kitapta yapılan örneklerde gerektiği zamanlarda gerekli fonksiyonlarla miniPISA ve midiPISA’da yer alan değişkenler ayrılmış ve tekrar birleştirilmiştir. Bunun sebebi, kitabın amacının veri düzenleme ve görselleştirme ile ilgili temel paket ve bu paketlerde yer alan fonksiyonların kullanımını örneklerle göstermek olduğundan aynı veri seti üzerinde çalışılarak karmaşıklığa sebebiyet vermemektir. Tabi ki sizin elinizde farklı veri setleri mevcut olacağından onlar üzerinden birleştirme, çıkarma, ekleme gibi çeşitli veri düzenleme ve görselleştirme işlemlerini gerçekleştirebilirsiniz.
tidyverse paketi
tidyverse paketi veri düzenlemeleri ve düzenlenen verilerin görselleştirilmesini sağlayan birçok paketi içinde barındıran büyük bir pakettir. tidyverse içindeki paketler, ortak bir veri sistemine sahip, birlikte çalışmaya uygun olacak şekilde tasarlanmıştır. Bu paket, veri düzenlemenin temel paketlerinden olan dplyr paketi ile veri görselleştirmede en sık kullanılan ggplot2 paketini de içermektedir.
- İlk yapılması gereken tidyverse paketini yüklemek ve kütüphaneye eklemektir.
# paketin yüklenmesi
install.packages("tidyverse",repos="https://cran.rstudio.com")
# paketin kütüphaneye eklenerek aktifleştirilmesi
library("tidyverse") - Bu bölümde tidyverse paketi içinde yer alan ve veri düzenleme-görselleştirmede en sık kullanılan paketler ve fonksiyonlar örneklerle anlatılmıştır.