Makine öğrenmesi teknikleriyle kredi risk analizi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Teknik Bilimler Meslek Yüksekokulu, Elektronik ve Otomasyon Bölümü, Türkiye

Tezin Onay Tarihi: 2018

Tezin Dili: Türkçe

Öğrenci: EMİNE BAHÇE ÇİZER

Danışman: AYÇA AK

Özet:

Çalışmanın ilk aşamasında kredi talebine başvuran müşterilerin, kredi taleplerinin değerlendirilmesinde geri ödeme durumunu etkileyen faktörlerin objektif kararlar verilerek belirlenmesi hedeflenmiştir. Bu doğrultuda, kredi risk analizinin makine öğrenmesi teknikleriyle yapılabilmesi için, öncelikle karar ağacı analizi, destek vektör makineleri analizi, bulanık mantık ve genetik algoritma analizi uygulanmıştır, son olarak da yapay sinir ağları analizi uygulanmıştır. Çalışmanın ikinci aşamasında ise ilk aşamada yapılmış olan analizlerin sonuçları ve tahmin yüzdeleri karşılaştırılmıştır. Yapılan analizlerin sonuçları içerisinde test verilerini %76 doğruluk oranı ile en yüksek oranda sınıflandıran yöntemin yapay sinir ağları yöntemi olduğu gözlemlenmiştir. Bu amaç doğrultusunda analizde kullanılan veri kümesi UCI Machine Learning Repository*’nin açık erişimde bulunan sitesinden indirilmiştir. Bu data kümesi 1000 adet müşteri verisini içermektedir. Kullanılan müşteriler arasında iyi kredilendirilebilir alanına sahip olanlar 1 olarak kodlanmıştır ve kötü kredilendirilebilir alana sahip olanlar da 0 olarak kodlanmıştır. Analiz yapılan modelde 1 adet bağımsız değişken ve 20 adet bağımlı değişken kullanılmıştır. ABSTRACT In the first stage of this study it was targeted that customers who applied for a loan request should determine the factors affecting the repayment status of the loan requests by making objective decision. Therefore, to be able to make credit risk analysis with machine learning techniques, first decision tree analysis, support vector machine analysis, fuzzy logic and genetic algorithm analysis were applied, then lastly neural network analysis was applied. In the second stage of this study, the results of the analyzes made in the first stage and the estimated percentages were compared. Within the results of the analyzes made, it was observed that the method that classifies the test data at the highest rate with 76% accuracy is the artifical neural network method. With this purpose, data set is used in the analysis downloaded from UCI Machine Learning Repository* open access web site. In these data set 1000 customers have been used. Among the customers who were used, the ones with the good creditability area were good coded as 1 and the ones with the bad creditability area were coded as 0. Analysis performed in this model has one independent variable and 20 dependent variables.