Veri madenciliğinde sınıflandırma yöntemlerinin karşılaştırılması "bankacılık müşteri veri tabanı üzerinde bir uygulama"


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, İşletme Fakültesi, İşletme Bölümü, Türkiye

Tezin Onay Tarihi: 2008

Tezin Dili: Türkçe

Öğrenci: ÖZGÜR ÇAKIR

Danışman: İSMAİL HAKKI ARMUTLULU

Özet:

ÖZ Bu çalışma, oldukça geniş bir uygulama alanına sahip olan veri madenciliğinin sınıflandırma fonksiyonu ile sınırlandırılmış ve örnek bir veri kümesi üzerinde veri madenciliği standart sürecinin tüm aşamalarını gerçekleştirmek üzere tasarlanmıştır. Çalışmanın temel amacı, veri madenciliğinin birden çok sınıflandırma tekniğini uygulayarak, bu tekniklerin farklılıklarını, üstünlüklerini ve zayıflıklarını tartışmak ve benzer uygulamalara yönelik önerilerde bulunmaktır. Çalışma, bankacılık müşteri veri tabanından rastlantısal olarak elde edilen ve 188 değişken ile 17.595 kayıt içeren bir veri kümesi üzerinde Clementine 8.0 yazılımı kullanılarak gerçekleştirilmiştir. Çalışmanın amaçları doğrultusunda veri madenciliğinin sınıflandırma tekniklerinden Lojistik Regresyon Analizi, Yapay Sinir Ağları ve C5.0 Algoritması kullanılmıştır. Bu tekniklerin üç farklı hedef değişken üzerinde uygulanması sonucu elde edilen dokuz farklı sınıflandırma modeli hız, ölçeklenebilirlik, sınıflandırma başarısı ve öngörü başarısı kriterlerine göre karşılaştırılmıştır. Uygulama sonucunda, hız kriteri açısından C5.0 algoritmasının önemli bir üstünlük gösterdiği, ölçeklenebilirlik açısından ise lojistik regresyon analizinin zayıflığının bulunduğu görülmüştür. Uygulanan tekniklerin sınıflandırma ve öngörü başarısı açısından önemli bir farklılık göstermedikleri ancak yine de en yüksek sınıflandırma ve öngörü başarısına sahip modellerin lojistik regresyon analizi ile elde edildiği tespit edilmiştir. Veri madenciliğinin müşteri veri tabanı üzerindeki uygulamalarında hızlı ve güncel verilerle karar verilmesi esas alındığında C5.0 algoritmasının, görece mütevazı sayılabilecek veri sayısı ile yapılan uygulamalarda lojistik regresyon analizinin, hem çok fazla miktarda veri ile yapılan hem de yüksek başarı beklenen çalışmalarda ise yapay sinir ağlarının uygun olacağı sonucuna varılmıştır. Anahtar Kelimeler : Veri Madenciliği, Veri Madenciliği Standart Süreci, Sınıflandırma, Lojistik Regresyon, Yapay Sinir Ağları, C5.0 Algoritması, Müşteri İlişkileri Yönetimi ABSTRACT This study is narrowed by the classification function of data mining which has a widespread domain and has been designed as a complete application of CRISP-DM process on a sample data set. The main objectives of my study are to apply classification techniques of data mining and to discuss differences, superiorities, weaknesses of these techniques and to propose them for similar applications. I have performed my study on a sample data, which have a volume of 188 fields and 17,595 cases, selected randomly from banking customer database and used Clementine 8.0 as the data mining tool. I have used logistic regression, artificial neural networks and C5.0 algorithm techniques in my study. By using these techniques on three different target variables I have constructed nine classification models. Then I compared these models in terms of execution time, scalability, classification accuracy and prediction accuracy. Results showed that C5.0 algorithm is the fastest while logistic regression model has weakness for the purposes of data mining on large data sets. Although no meaningful differences have been determined in terms of classification and prediction accuracy among techniques, logistic regression model has been acknowledged to have the highest accuracy. In line with there results I have reached the conclusion that C5.0 algorithm is appropriate for fast and recursive decision making processes in large databases whereas logistic regression is for relatively small ones. Also artificial neural networks can be used for any size of data for high classification and prediction accuracies. Keywords : Data Mining, CRISP-DM Process, Classification, Logistic Regression, Artificial Neural Networks, C5.0 Algorithm, Customer Relationship Management