BÖLÜM5 Çok Düzeyli Örtük Sınıf Analizi

Bazı veri yapılarında gözlemler birbirinden bağımsız değildir ve bağımsızmış gibi davranmak analiz sonuçlarına karışan hata miktarını artırabilir. Örneğin beş farklı okuldan veri topladığımızı düşünelim bu durumda öğrenciler okulların içerisinde yuvalanmıştır (nested) ve okulla ilişkili bir takım değişkenlerden etkileniyor veya birbirlerine benzer özellikler etrafında kümeleşiyor olabilirler. Araştırma verisi seçkisiz seçildiyse, birbirine yakın özelliklere sahip okullarda eğitim gören öğrencilerden elde edildiyse ya da her okuldan az sayıda olmak üzere çok sayıda okuldan öğrenci çalışmaya dâhil edildiyse okul farklılaşması önemli bir etmen olmayabilir. Fakat farklı okullarda yuvalanmış öğrenci grupları arasındaki varyasyonun artışı örtük sınıfların belirlenmesinde göz ardı edilemez bir etmen haline geldiğinde modeli buna göre oluşturmak gerekebilir. Bu durumda her bir bireyi ayrı ayrı etkileyen bireysel düzeyde bir etki söz konusu değil toplulukları etkileyen grup bazında bir etki söz konusudur ve bu modelleme için daha üst yeni bir düzey anlamına gelmektedir. Veri yapısının bu tür çok düzeyli bir modele uygun olduğu düşünülüyorsa örtük değişken modellerini çok düzeyli kurma ve test etme olanağımız da vardır. R’da “glca” kütüphanesi bu amaçla da kullanılabilir.

Çok düzeyli modellemeye örnek için “glca” kütüphanesinden “nyts18” veri setini çağıracağız. Bu veri seti ABD’de 2018 yılında gençlere uygulanan tütün anketinden elde edilen yanıtlarından oluşmaktadır. Ankete farklı okullarda eğitim gören 1743 öğrenci katılmıştır. Veri setindeki ECIGT değişkeni sigara, ECIGAR değişkeni puro, ESLT değişkeni çiğneme tütünü veya enfiye, EELCIGT değişkeni elektronik sigara, EHOOKAH değişkeni nargile ürünlerinin öğrenciler tarafından denenip denenemediğini (veya içilme durumunu) sorgulayan sorulardan elde edilmiş yanıtlardan oluşmaktadır. Bu yanıtlar üzerinden öğrencilerin içerisindeki örtük sınıflar keşfedilmek istendiğinde olasılıkları etkileyecek okul kaynaklı bir etki ortaya çıkabilir. Örneğin bazı okullarda herhangi bir öğrencinin sigara denemiş veya kullanan bir sınıfa dâhil olma olasılığı daha yüksekken bazı okullarda bu olasılık daha düşüktür. Bu durumu göz ardı etmemek adına okul kimliği (SCH_ID) değişkeni ile modelin ikinci düzeyini oluşturabiliriz.

Kod Bloğu 13’de üç örtük sınıflı ve ikinci düzeydeki okul değişkeninden kaynaklı iki farklı kümeleşme durumu olduğu varsayılan bir model oluşturacağız. Veri setinde dört farklı okul bulunmaktadır ve bu anlamda kümeleşme sayısı da dörde kadar çıkarılabilirdi. O durumda okulların her birinin öğrencilerin tütün ürünleri kullanma olasılığını diğer tüm okullardan farklı miktarda etkilediği varsayımı altında analize devam edilirdi. Öte yandan oluşturulan tüm modellerin hangisinin veriye daha iyi uyum sağladığını incelemek gerekir. Anlaşılacağı üzere çok düzeyli modellemelerde veriye uyumu karşılaştırılacak olan model sayısı epeyce artmış durumdadır. Eğer modele yeni bir düzey eklenecekse örneğin iki düzeyli bir modelleme yapılacaksa bu modeli geleneksel (yani tek düzeyli) modelle karşılaştırmak gerekir (daha önceki bölümlerde sözü edilen uyum indeksleri yoluyla). Fakat tek düzeyli bir tane modelimiz veya iki düzeyli bir tane modelimiz yok. Bir sınıflı, iki sınıflı, üç sınıflı… tek düzeyli modeller ve bir sınıflı, iki sınıflı, üç sınıflı… iki düzeyli modeller var. Tüm bu modellerin yanı sıra çok düzeyli modellerde farklı kümeleşme sayılarını da test etmek gerekiyor. Takdir edilmelidir ki bu durum çok fazla sayıda modelin oluşturulup karşılaştırmalı olarak incelenmesi anlamına geliyor. Veri yapısı veya hedef modele yönelik güçlü bir a priori bilgi ya da kanıtlara dayalı öngörü yoksa doğru modeli bulmak karanlıkta mum ışığıyla bir şeyler aramaya benzeyebilir. Model veri uyumu karşılaştırmalarını atlayarak örnek olması bakımından yola bir tek model üzerinden devam edeceğiz.

library(glca)

mlca = glca(item(ECIGT, ECIGAR, ESLT, EELCIGT, EHOOKAH) ~ 1, group = SCH_ID, data = nyts18, nclass = 3, ncluster = 2, n.init = 1)
## Manifest items :
##  ECIGT ECIGAR ESLT EELCIGT EHOOKAH 
## Grouping variable : SCH_ID 
## 
## Deleted observation(s) : 
## 0 observation(s) for missing all manifest items
## 0 observation(s) for missing at least 1 covariates
## 
## Nonparametric multilevel latent class analysis Fitting...
## 
## . 174 iteration 
## 
## Converged at 174 iteration (loglik :-1955.487)
summary(mlca)
## 
## Call:
## glca(formula = item(ECIGT, ECIGAR, ESLT, EELCIGT, EHOOKAH) ~ 
##     1, group = SCH_ID, data = nyts18, nclass = 3, ncluster = 2, 
##     n.init = 1)
## 
## Manifest items : ECIGT ECIGAR ESLT EELCIGT EHOOKAH 
## Grouping variable : SCH_ID 
## 
## Categories for manifest items :
##         Y = 1 Y = 2
## ECIGT     Yes    No
## ECIGAR    Yes    No
## ESLT      Yes    No
## EELCIGT   Yes    No
## EHOOKAH   Yes    No
## 
## Model : Nonparametric multilevel latent class analysis 
## 
## Number of latent classes : 3 
## Number of latent clusters : 2 
## Number of groups : 45 
## Number of observations : 1734 
## Number of parameters : 20 
## 
## log-likelihood : -1955.487 
##      G-squared : 768.5035 
##            AIC : 3950.973 
##            BIC : 4060.137 
## 
## Marginal prevalences for latent classes :
## Class 1 Class 2 Class 3 
## 0.05961 0.17079 0.76960 
## 
## Marginal prevalences for latent clusters :
## Cluster 1 Cluster 2 
##    0.6207    0.3793 
## 
## Class prevalences by cluster :
##           Class 1 Class 2 Class 3
## Cluster 1 0.00876 0.06130 0.92994
## Cluster 2 0.14137 0.34687 0.51176
## Item-response probabilities (Y = 1) :
##          ECIGT ECIGAR   ESLT EELCIGT EHOOKAH
## Class 1 0.9112 0.9750 0.5651  0.9778  0.5363
## Class 2 0.3488 0.2006 0.1236  0.7783  0.0443
## Class 3 0.0062 0.0043 0.0088  0.0413  0.0057
## 
## Item-response probabilities (Y = 2) :
##          ECIGT ECIGAR   ESLT EELCIGT EHOOKAH
## Class 1 0.0888 0.0250 0.4349  0.0222  0.4637
## Class 2 0.6512 0.7994 0.8764  0.2217  0.9557
## Class 3 0.9938 0.9957 0.9912  0.9587  0.9943

Kod Bloğu 13. Çok düzeyli örtük sınıf analizi

Çıktılar incelendiğinde, bireylerin farklı örtük sınıflarda yer alma olasılıklarını okul düzeyinde etkileyecek iki tip yuvalanmadan (cluster) birinde yer alma olasılıklarının yaklaşık %62 diğerinde yer alma olasılıklarının ise %38 olduğu görülmektedir. Ayrıca, daha büyük olan yuvalanma içerisinde öğrencilerin tütün ürünleri kullanma olasılıklarının yüksek olduğu örtük sınıfa girme olasılıklarının çok yüksek olduğunu (yaklaşık %93) görüyoruz. Farklı yuvalanmalardaki öğrencilerin aynı örtük sınıflara girme olasılıkları arasında büyük farklar olmasaydı okul düzeyindeki değişkenlerin tütün ürünleri kullanma olasılıkları üzerinde etkili olmadığı yorumuna gidebilirdik. Bu örneğimizde ise okul düzeyindeki değişkenlerin olasılıkları değiştirdiğini belirlemiş olduk. Veriye en uygun modelin belirlenmesi ile daha detaylı incelemeler yapılabilir. Çok düzeyli modellerimize birey düzeyinde (level-1) ve okul düzeyinde (level-2) ortak değişkenler (covariates) ekleyerek etkilerini kontrol etmemiz de mümkündür. Aşağıda birinci düzeye cinsiyet (SEX), ikinci düzeye de okul kademesi (SCH_LEV) değişkenlerinin eklendiği bir modelin söz dizimi görülebilir.

mlcr = glca(item(ECIGT, ECIGAR, ESLT, EELCIGT, EHOOKAH) ~ SEX + SCH_LEV, group = SCH_ID, data = nyts18, nclass = 3, ncluster = 2, n.init = 1)

Burada önemli olan birinci düzeye eklenen ortak değişkenlerin bireylerin özellikleri ile ilgili, ikinci düzeye eklenen ortak değişkenlerin ise okulların özellikleri ile ilgili olması gerektiğidir.

Keşiflerin anlamlandırılması noktasında “glca” kütüphanesinin iyi bir görselleştirme desteği sunduğunu belirtmekte fayda görüyoruz.

plot(mlca)

Şekil 7. Çok düzeyli üç sınıflı örtük sınıf analizi grafikler


Bu kitapta farklı türlerdeki değişkenlerle tek ve çok düzeyli, ortak değişkenli ve ortak değişkensiz çok sayıda model oluşturuldu. Bu aşamada en iyi modelin, veriyi en kısa yoldan ve en basit şekilde açıklayan model olduğunu ifade etmek iyi bir hatırlatma olabilir. Daha önce de söz edildiği gibi eğer veriye dair güçlü a priori bilgilerimiz yoksa basit modellerle veriyi açıklamaya çalışmak işleri kolaylaştırabilir. Basit modellerin veriyi açıklamakta yetersiz kaldığı noktada parametre sayıları artırılarak karmaşık modellerle sürece devam edilebilir. Yine de sürecin en başında örtük değişkenlerin açıklanmasında önemli etkilerinin olacağı düşünülen ortak değişkenler veya ikinci düzey değişkenler olduğu düşünülüyorsa bunların göz ardı edilmemesi gerektiğini söyleyebiliriz. Bu durumda veriye en iyi uyum sağlayan basit model belirlenip diğer modellerin eklemlendiği karmaşık modellerle karşılaştırılabilir. Daha önce de vurgulandığı üzere, veriye en iyi uyum sağlayan modelin belirlenmesi sürecinde yalnızca indeksler ve istatistiksel testler değil araştırmacının veri yapısı ve inceleme alanıyla ilgili bilgi, gözlem ve tecrübeleri de büyük önem taşımaktadır.