Bölüm 3 Otomatik Madde Üretiminin Tarihçesi

Otomatik madde üretimi, görece kısa bir geçmişi olmasına rağmen özellikle teknolojik gelişmelerin hız kazanmasıyla birlikte test geliştirme sürecine yönelik heyecan verici ve yenilikçi bir gelecek vaad etmektedir. Otomatik madde üretimine temel oluşturan yaklaşımlar, testlerde yer alan maddelerin özelliklerinin tartışılmasına dayandırılabilir çünkü bir test puanının yorumunun geçerliği, birçok faktöre bağlı olsa da testi oluşturan maddelerin psikometrik özellikleri temel belirleyicidir. Bu nedenle test geliştirme sürecinin ilk aşamalarından beri maddelerin nasıl oluşturulacağına, denetleneceğine/düzenleneceğine, uygulanacağına ve sonuçlarının yorumlanacağına yönelik birçok çalışma ortaya konmuştur.

Testlerde yer alacak maddelerin nasıl olacağına yönelik ilk çalışmalarda madde yazımı kısmen bilim kısmen de sanat olarak değerlendirilmiştir. Bu çalışmalarda maddelerin taşımaları gereken bazı bilimsel özellikler olduğuna vurgu yapılmıştır. Ayrıca madde yazarının deneyiminin ve yaratıcılığının maddenin niteliğini doğrudan etkilediği belirtilmiştir. Madde yazımındaki öznellik sorunuyla başa çıkmak için madde yazım sürecinin sistematik hâle getirilmesi gerektiği belirtilmiştir. Sistematik madde yazımı ilk olarak 1957 yılında Guttman tarafından önerilmiştir. Guttman, ortaya koyduğu yüzey (facet) teorisinde bir bilgi kümesinin altına farklı bilgi içeriklerini yerleştirerek standart maddeler oluşturmaya başladı. Bu teori ile daha standart ve objektif test maddeleri üretilmeye yönelik ilk adımlar atılmış oldu. Daha sonra Bormuth, yüzey teorisinin mantığını geliştirerek 1969’da bir fikir olarak öne sürdüğü teorisini 1970 yılında “On a Theory of Achievement Test Items” adlı kitabında yayımladı ve kural tabanlı bir madde yazma yaklaşımını benimsedi. Bormuth, wh-dönüşümü olarak adlandırdığı teorisinde metnin (düz yazının) söz dizimsel olarak dönüştürülmesini ve maddelerin de buna göre oluşturulmasını öngörüyordu. Teorideki wh-kim, ne, ne zaman ve nerede gibi sorulara karşılık geliyor, metinde yer alan bilginin bu soru ifadeleriyle maddeye dönüştürülmesine; isimler ve fiillerin yer değiştirmesi sürecine işaret ediyordu. Öncelikle Finn (1975) ve Roid ve Haladyna (1978), Bormuth’un teorisini daha basit bir hâle getirerek denemeler yaptılar. Geliştirdikleri algoritma sonrasında üretilen maddelerin psikometrik özelliklerinin iyi düzeyde olduğunu belirlediler ancak üretilen maddelerin alt düzey bilişsel özellikleri ölçmek için uygun olduğunu, tüm metinlerin bu teoriye göre soruya dönüştürülemediğini ifade ettiler. Bormuth’un yaklaşımı, metin tabanlı maddelerle sınırlı olduğu için çok fazla kişi tarafından benimsenmemiş olsa da madde yazımının otomatikleşmesi gerektiğini merkeze alan yaklaşım, otomatik madde üretiminin temelini oluşturdu. Roid ve Haladyna (1978)bu yaklaşımı benimseyerek okuduğunu anlamaya yönelik çok katı madde yazım kuralları uygulayarak test geliştirdiler ancak maddelerin zorluk açısından önemli ölçüde farklı olduğunu ve hâlen öznellik taşıdığını belirledi. İlk denemelerinde istenilen başarı elde edilemese de OMÜ’nün temel dayanaklarından biri olan ölçeklenebilir ve sistematik madde yazımının temelleri oluşturuldu.

Madde yazımına yönelik sistematik ve genelleştirilmiş ilk basit yöntem, 1982 yılında Roid ve Haladyna (1982) tarafından geliştirilen “madde kabuğu (item shell)” yöntemidir. Bu yöntemde yeni maddeler üretmek için bir madde kabuğu oluşturulmakta ve içerik bu iskelete yerleştirilerek maddeler manuel olarak üretilmekteydi. Haladyna da 2014 yılında madde kabuğu yöntemini kullanarak gazlarla ilgili alt düzey düşünme becerilerini ölçen maddeler üretmiştir. Ancak bu yöntem sonrasında da birbirine çok benzeyen ve hatta klon olarak adlandırılan maddeler üretilmiştir. Yine de madde kabuğu yönteminin geliştirilmesi, madde üretiminin sistematikleşmesi konusunda bir başarı olarak ele alınmaktadır. Madde kabuğu yönteminden sonra Bejar (2002) tarafından “madde modellemesi” adı verilen yeni bir yöntem geliştirildi. Bejar (2002) madde modeli yönteminde maddelerin üretilebilmesi için madde modelinde “element” bulunması gerektiğini belirtti. Element, bir cümlenin parçası olabilir, cümlenin tamamı olabilir, bir kelime ya da sayısal bir ifade de olabilir. Ayrıca madde modeli içinde tanımlanan bileşenlerden bazıları maddenin çözümüne etki ederken bazıları etki etmemekte ve dolayısıyla maddenin psikometrik özelliklerini de etkilememektedir. Bu durum aslında farklı güçlük düzeylerine sahip maddeler üretmek ve “klon” maddelerden kurtulmak için kullanılan yollardan biridir. Ayrıca yapılan sınırlandırmalara göre madde güçlükleri önceden kestirilebilmekte, benzer güçlükte ve değişken madde güçlüklerinde madde üretimleri gerçekleştirilebilmektedir. Embretson (2002) da geliştirdiği madde modelinde benzer şekilde elementlere bağlı olarak maddenin farklı bilişsel karmaşıklıkta sorular üretebileceğinden ve üretilen maddelerin psikometrik özelliklerinin de değişeceğinden söz etmiştir. 20 yılı geçkin bir süre önce geliştirilmiş madde modellemesi, otomatik madde üretimi için önemli bir gelişim noktasını oluşturur. Bu modelde değiştirilecek “element” değerlerinin maddenin ölçmeyi amaçladığı özellik bakımından bir örüntü oluşturduğu, bu örüntünün seçenek oluşturmada da nasıl kullanılacağı gösterilmiştir. Başka bir ifadeyle otomatik madde üretiminin ilk zamanlarında ortaya konulan yaklaşımlarda bile “Bir cebir maddesindeki “2+3/8=?” eşitlikte 2 sayısını 1, 2, 3, 4, 5 değerleri ile değiştirerek otomatik maddeler üretme” ifadesinden daha ileri düzeyde işlemler yapıldığı görülmektedir. Bejar (2002) tarafından 22 yıl önce ortaya konmuş söz konusu madde modeli, günümüzde hızlı bir gelişim göstererek otomatik madde üretiminin kapsamını da genişletmiştir.

Otomatik madde üretimine ilişkin Bejar (2002) ve Embretson (2002) tarafından ortaya konulan çalışmalarla birlikte aynı dönem Irvine ve Kyllonen (2002) tarafından “Item Generation for Test Development” başlıklı çalışma yayınlanmıştır. Educational Testing Service (ETS) tarafından düzenlenen ve farklı disiplinlerin yer aldığı bir seminer sonucunda yayınlanan bu raporda madde üretimine ilişkin projeler açıklandı. 1980’li yılların ortasında başlayan sürecin hızlı bir şekilde kat ettiği yola dikkat çekilen bu çalışmada üretilen maddelerin madde güçlüklerinin incelenmesine ve kontrol edilmesine odaklanılmıştır. Çalışmada ele alınan görüşler, otomatik madde üretiminde madde kalibrasyon sürecinin de başlamasını sağlamıştır. Otomatik madde üretimindeki gelişmelerin hız kazandığı 2000’li yılların başında bilişsel öğrenme teorisi geniş çevrelerce kabul görmeye başlamış, ölçme araçlarının da öğrencilerin bilgi ve becerilerini gerçek dünya bağlamında değerlendirmesi gerektiği belirtilmiştir. Bu durum otomatik madde üretimi sürecinde öğrencilerin bilişsel yeteneklerinin tanımlanması ve madde üretiminde bilişsel yetenekleri en iyi temsil eden görevlerin belirlenmesi gerekliliğini göstermiştir. Otomatik madde üretimi sürecinde bilişsel modeller öncelikle madde modelleriyle bir araya getirilerek oluşturulmuştur. Bu süreçte madde modellerinin oluşturulmasında Drasgow ve diğerleri (2006) tarafından zayıf ve güçlü madde modelleri olarak adlandırılan modeller oluşturulmuştur. Aynı dönemde Norman ve diğerleri (2006) bilişsel modellere odaklanmış; bilişsel model bileşenlerini tanımlayarak modellerin niteliğinin incelenmesine yönelik önerilerde bulunmuştur. Bilişsel ve madde modellerinin bir arada geliştirilerek gerçekleşen madde üretimlerinden sonra Gierl ve Lai (2013), madde ve bilişsel modellerin ayrı bir şekilde gelişirilmesi gerektiğini ifade etmişlerdir. Bu konuda yapılan ilk çalışmalardan sonra Gierl ve Lai 2015 yılında yayımladıkları çalışmalarında OMÜ’nün ilk basamağını bilişsel model geliştirmek, ikinci basamağını da madde modeli geliştirmek olduğunu belirterek bunun nedenlerini açıklamışlardır. Bu süreçten sonra bilişsel modellerin önemi, gelişimine yönelik gelişmeler hız kazanmıştır. Bilişsel modelin geliştirme sürecinde günümüzde de yaygın olarak kullanılan anahtar özellikler ve mantıksal yapılar bilişsel modelleri oluşturulmuştur. Bununla birlikte NLP’de yaşanan gelişmeler sonucunda doğal dil işleme teknikleri otomatik madde sürecine dâhil edilmiş; model tabanlı olmayan yaklaşımlarla (non-template-based) otomatik madde üretimi gerçekleştirilmeye başlanmıştır. Benzer şekilde yapay zekâ teknolojisindeki gelişmeler de hızlı bir şekilde otomatik madde sürecine entegre edilmiş, özellikle Aralık 2022’de OpenAI tarafından GPT kullanım algoritmalarının açık erişime sunulmasıyla transformer tabanlı OMÜ’nün de iyi bir gelişim gösterdiği görülmüştür.

Otomatik madde üretiminde bir yandan modellerin geliştirilme sürecinde odaklanılmış bir yandan da üretim sürecinde kullanılacak bilgisayar teknolojileri geliştirilmeye başlanmıştır. Bu süreçte kullanılan bilgisayar teknolojileri, değerlendirme mühendisliği (assessment engineering) olarak adlandırılmıştır. Değerlendirme mühendisliği temel olarak dört süreci kapsar: bilişsel yapının tanımlanarak kanıtların toplanması, görev modellerinin inşa edilmesi, modellerin üretilerek maddelerin oluşturulması ve kalibrasyon süreci. OMÜ’nün gelişim sürecinde maddelerin otomatik olarak üretilmesi için kullanılan bilgisayar teknolojileri ile geliştirilen bazı yazılımlar olmuştur. Örneğin Singley ve Bennett (2002) Mathematics Test Creation Assistant programını geliştirmiş ve modellerin madde üretim sürecinde nasıl kullanılacağını açıklamıştır. Benzer şekilde geliştirilen farklı yazılımlar olsa da ilk kapsamlı çalışma Gierl ve diğerleri (2008) tarafından geliştirilen Item GeneratOR (IGOR) adlı yazılım olmuştur. Java SE 6.0 tabanlı bu yazılım; model ve kanıt oluşturma, madde üretimi, madde havuzu oluşturma ve yönetimi sürecini kapsar. Günümüzde otomatik madde üretimi için kullanılan birçok yazılım (EAQC, MARTEN vb.) bulunmaktadır. Ayrıca R programlama dilinde QAIG (Automatic Item Generator for Quantitative Multiple-Choice Items), IMak (Item Maker) gibi paketler de yer almaktadır. Ancak doğal dil işleme ve büyük dil modellerinin otomatik madde sürecine entegre edilmesi sonucunda hem yazılım hem de genel üretim süreci Python programı tabanlı gerçekleştirilmektedir.

Kısacası, Bormuth’un 1969 yılında attığı bir fikirle başlayan sürecin hem yöntemin gelişmesi hem de modellerin gelişmesi bağlamında 55 yıl içinde kat ettiği mesafe, gelecek çalışmalar için de bir umut vaad etmektedir.