Sınıflama ve regresyon ağaçları


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, İktisat Fakültesi, Ekonometri Bölümü, Türkiye

Tezin Onay Tarihi: 2015

Tezin Dili: Türkçe

Öğrenci: YELİZ SEVİMLİ SAİTOĞLU

Danışman: AHMET METE ÇİLİNGİRTÜRK

Özet:

SINIFLAMA VE REGRESYON AĞAÇLARI CART yöntemi hem kategorik hem de sürekli değişkenleri kullanarak sınıflama ve regresyon problemlerinin çözümünde karar ağaçlarını kullanan parametrik olmayan istatistiksel bir yöntemdir. Ele alınan bağımlı değişken kategorik ise yöntem sınıflama ağaçları, sürekli ise regresyon ağaçları olarak adlandırılmaktadır. Aynı şekilde MARS yöntemi de nonparametrik ve doğrusal olmayan bir yöntem olup, hem sürekli hem de ikili bağımlı değişkenler için tasarlanmıştır. Bağımlı değişkeninin sürekli olması durumunda kestirim amaçlı olan bu yöntem, kategorik olması durumunda sınıflandırma amacına sahiptir. Her iki yöntemin ortak özelliği bağımlı değişkenin türüne göre hem sınıflama hem de tahmin modeli geliştirebilmesidir. Bu çalışmada amaç Türkiye’de gençlerin siyasi görüşlerini etkileyen faktörlerin belirlenmesinde, yani parti tercihlerinde CART ve MARS yöntemlerini karşılaştırıp, uygulamada hangi yöntemin diğerinden daha doğru bir sınıflama yapacağını farklı büyüklükteki başlangıç ve test verisi kullanarak incelemek ve sonrasında en uygun olan başlangıç ve test verisi büyüklüğüne göre farklı büyüklükteki örnek sayıları ile bu kez sadece CART ile modelleme yaparak en başarılı sınıflama modelini oluşturmaya çalışmaktır. Yapılan uygulamalar sonucunda, veri setinin yaklaşık %70’inin başlangıç verisi, geri kalan %30’unun da test verisi olarak alınması, en uygun başlangıç ve test verisi büyüklüğü olarak tespit edilmiştir. İlk aşamada bağımlı değişken olan parti tercihinin kategori düzeyi iki olarak ele alınmıştır. Bu aşamada, hem başlangıç hem test verisi için genel doğru sınıflama oranlarında CART yönteminin sonuçlarının, duyarlılık ve özgüllük hesabında ise; MARS yönteminin sonuçlarının nispeten daha yüksek olduğu görülmüştür. İkinci aşamada ise, parti tercihi değişkeninin kategori düzeyi beş düzey olarak ele alınmış ve farklı büyüklükteki örnek sayıları ile bu kez sadece CART ile modelleme yapılmıştır. Buradan ortaya çıkan sonuç ise, örneklem büyüklüğü arttıkça genel olarak modelin hem başlangıç, hem de test verisinin genel doğru sınıflama oranının arttığı; ayırım gücünün ise azalıp artan bir trend gösterdiği yönünde olmuştur. Anahtar Kelimeler: CART, MARS, Karar Ağaçları, Türkiye Gençliği ve Siyasi Görüşleri. ABSTRACT CLASSIFICATION AND REGRESSION TREES CART is a nonparametric statistical method that uses decision trees while solving the classification and regression problems using both categorical and continuous variables. If the dependent variable is categorical the method is called as classification tree. If the dependent variable is continuous the method is called as regression tree. Similar to CART, MARS is a nonparametric and nonlinear method that is designed for both continuous and binary dependant variables. If the dependant variable is continuous this method is used for prediction. If the dependant variable is categorical the method is used for classification. The common feature of these two methods is to develope both classification and prediction models according to the type of the dependant variable. The objective of this study is to compare CART and MARS, practically determining which of them classify better using learning and test data with different sizes and creating the most successful classification model modeling only with CART with different sample sizes due to the best appropriate learning and test data sizes. In this context determining the factors that affect the political views and the political party choice of the Turkish youth is assessed as an implementation in order to define the best method for this case. According to the information obtained from the implementations the best appropriate learning and test data sizes are determined. By the way approximately 70% of the data set should be taken as the learning data set and the remain part should be taken as the test set. In the first step the category level of political party choice which is dependant variable is taken as 2. At first according to the general correct classification rate for both learning and test data the results of CART are higher and according to the sensitivity and specificity calculations the results of MARS method are higher. Secondly the category level of political party choice is taken as 5 and modeling with different sample sizes is done only with CART as the sample size increase, the general correct classification rate of both learning and test data increase generally and the values of the AUC ratios fluctuate respectively. Keywords : CART, MARS, Decision Trees, Turkish Youth and Their Political Views