Çoktan seçmeli sorulara dayalı olmayan bir kitle matematik sınavı sürecinin değerlendirilmesi: Grup uyumu değerlendirme modeli


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Atatürk Eğitim Fakültesi, Matematik ve Fen Bilimleri Eğitimi Bölümü, Türkiye

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Öğrenci: MİTHAT TAKUNYACI

Danışman: EMİN AYDIN

Özet:

Eğitimde, eğitim programının işlevini yerine getirebilme derecesinin sınanmasında, eğitim yöntem ve stratejilerinin etkililik düzeylerinin belirlenmesinde, öğrenci başarısının, akademik tutumunun saptanmasında, öğrencilerin öğrenmedeki güçlü ve zayıf yönlerinin tespit edilmesinde ölçme ve değerlendirmeden yararlanılmaktadır. Bir başka deyişle eğitimin girdi, süreç ve ürün boyutlarının tümünde ölçme ve değerlendirmeye ihtiyaç duyulmaktadır. Ölçme, bir özelliğin gözlenerek gözlem sonuçlarının sayı ya da sembollerle ifade edilmesi olarak tanımlanırken, değerlendirme daha geniş kapsamlı bir süreç olup; ölçme sonuçları (ölçüm), ölçüt ve karar verme basamaklarını içermektedir. Ölçme sonuçlarının bir ölçütle karşılaştırılarak karara varılması olarak tanımlanan değerlendirmenin doğru yapılmış olmasında, kullanılan ölçütün uygunluğunun yanı sıra, ölçme sonuçlarının güvenilir ve geçerli olmasının da çok büyük önemi bulunmaktadır. Değerlendirme sonuçlarının isabetli olma derecesini arttırabilmek için, ölçme işlemlerinde kullanılan ölçme araçlarının güvenirliğinin ve geçerliğinin olabildiğince yüksek olması istenir. Öğrenci başarısının açık uçlu sorularla ölçülmesinde, güvenirlik en zayıf halka olarak düşünülmektedir. Puanlayıcı, açık uçlu sorulara verilen cevapların puanlanmasında güvenirliği düşüren önemli hata kaynaklarından birisidir. Bu nedenle puanlayıcılar arası ya da puanlayıcının kendi içindeki yani puanlayıcı içi tutarlılığı sağlamak puanlamanın güvenirliği için göz önünde bulundurulması gerekmektedir. Bu araştırmanın genel amacı, çoktan seçmeli sorulara dayalı olmayan bir matematik sınavı sürecinin değerlendirilmesini incelemek ve bu süreçte grup uyumu değerlendirme modelinin etkilerini ortaya koymaktadır. Grup Moderasyon (Uyum) Değerlendirme Modeli, öğretmenlerin; öğrencilerinin örenmeleriyle ilgili kararlarının tutarlılığını geliştirmek amacıyla birbirleriyle beklentilerini ve anlama standartlarını paylaştıkları bir süreç olup, topladıkları değerlendirme bilgilerinin güvenirliğini yükseltmek için öğretmenlere yardımcı olacaktır. Buda öğretmenlerin öğrencilerin öğrenmeleriyle ilgili kararlarını geliştirecektir. Açık uçlu sınavların değerlendirmesinde daha güvenilir sonuçlar ve puanlamada yapılan yanlı hata oranlarını azaltma düşüncesiyle oluşturduğumuz; matematik öğretmenlerinin, öğrencilerin sınavlarını değerlendirdikleri grup uyumu modelinde, sınavların puanlanmasında ortak kriterleri belirlemeyi ve değerlendiriciler arasındaki tutarlılığı arttırmak amaçlanmıştır. Grup uyumu değerlendirmesinde, beş matematik öğretmeni tarafından değerlendirme ekibi oluşturularak öğrencilerin sınavları kağıtları değerlendirmeye alınmıştır. Değerlendirici ekibiyle bir dönem boyunca toplam beş değerlendirme çalıştayı uygulanmış ve araştırmanın amacı doğrultusunda planlamalar ve analizler yapılmıştır. Çalışma sonucunda, tüm puanlayıcılar için ayrı ayrı ve puanlayıcıların her bir maddeye verdikleri puanların ortalamalarından elde edilen güvenirlik katsayılarına göre, matematik başarısının ölçülmesinde yer alan maddelerin matematik başarısını oldukça tutarlı bir şekilde ölçtüğü sonucuna varılmıştır. Her bir puanlayıcının verdiği puanlar ile diğer bir puanlayıcının verdiği puanlar arasındaki korelasyon katsayıları hesaplanmış ve her bir puanlayıcının verdiği puanların ortalaması arasındaki farklılığın olup olmadığı ilişkili örneklemler için tek yönlü varyans analizi ile test edilmiştir. Yapılan bu çalışmalara göre, ilk sınavda beş puanlayıcının puanlamadaki katılık/cömertlik düzeylerinin birbirinden farklı olduğu görülmekle birlikte, grup uyumu değerlendirme modeli çalıştaylarından sonra yapılan sınavlarda ise puanlayıcıların birbirleriyle tutarlı olacak şekilde puanlama yaptıkları sonucuna varılmıştır. Bu araştırmadaki beş puanlayıcının tamamına ait güvenirliğin bir puanlayıcı güvenirliğinden daha yüksek bulunması nedeniyle, yazılı yoklamalarda puanlayıcı sayısını artırmanın güvenirliği artırdığı söylenebilir. Bu yüzden, yazılı yoklamaların puanlanmasında birden fazla puanlayıcı çalıştırılıp, onların verdikleri puanların ortalamaları (veya toplamları) alınmalıdır. Açık uçlu sınav sonuçlarına puanlama anahtarı kullanılarak verilen puanların daha güvenilir olması nedeni ile, sınavlar önceden hazırlanan bir puanlama anahtarı kullanılarak puanlanmalıdır. ABSTRACT In education, assessment and evaluation are utilized while testing to what extent the education program functions, determining the effectiveness level of educational methods and techniques, detecting students’ success and academic attitudes, and identifying students’ strong and weak points in learning. In other words, assessment and evaluation are required in all the dimensions of education including input, process, and product. While the assessment is defined as representing the results of an observation of a feature with numbers or symbols, the evaluation is a more extensive process and it includes the results of the assessment, criterion, and decision-making steps. Along with the suitability of the current criterion, the reliability and the validity of the assessment results have a great importance in the accuracy of the evaluation, which can be defined as making a decision by comparing the assessment results with a criterion. In order to increase the accuracy level of the assessment results, the reliability and validity of assessment tools that are used in the assessment process are required to be as high as possible. The reliability has been considered to be the weakest link while assessing the students' success with open-ended questions. The rater is one of the most important sources of the error that decreases the level of reliability while grading the answers that were given for the open-ended questions. For that reason ensuring the consistency among raters or within the grades of one rater should be taken into consideration for the reliability of the scoring. The main aim of this study is to examine the evaluation of a math exam process, which is not based on multiple choice questions, and to present the effects of the evaluation of the group moderation model in this process. The Group Moderation Evaluation Model is a process in which teachers share their expectations and comprehension standards with each other in order to improve the consistency of their decisions about the success of the students and it helps teachers in increasing the reliability of the information about the evaluation that was collected. In this way, it will improve the teachers' decisions about the students. In the group moderation model that is generated in order to minimize the biased error rate and in order to achieve more reliable results while evaluating open-ended questions, the math teachers evaluate the students' exam results, and it is aimed to determine the common criteria while grading and increasing the consistency between the evaluators. The students’ exam papers were evaluated by an evaluation team of five math teachers in the group moderation model. Together with the evaluation team, five evaluation workshops are carried out in total over the course of one term, and plans and a series of analyses are conducted in accordance with the aim of the study. As a result of the study, it is concluded that items that are used in the evaluation of the math success evaluate the math success quite consistently according to the reliability parameters that are obtained from all the raters separately and from the average of the grades each rater gave for each item. The coefficient of correlation that is between the grades that each grader gives and the graders that another rater gives are calculated and it is tested to determine whether there is a difference between the average scores that are given by each rater by using one-way analysis of variance for correlated samples. According to the current studies carried out, while it is observed that in the first exam strictness/generosity degree of five raters are different from each other while grading, it is concluded that in the exams that are held after the group moderation evaluation model workshops the raters graded the papers consistently. As a result of the reliability of all five raters being higher than the reliability of one rater, it can be stated that increasing the number of the raters raises the reliability in the written exams. Therefore, while grading the written exams more than one rater should be employed and the average (or total) of scores that are given by those raters should be taken. Due to the fact that the scores given to the open-ended questions by using a rubric are more reliable, the exams should be graded by using a rubric beforehand.