Data mining methods and an application


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2003

Tezin Dili: İngilizce

Öğrenci: Kaan Kumru

Danışman: BAHAR SENNAROĞLU

Özet:

Yüksek kapasiteli işlem yapabilme gücünün ucuzlamasının bir sonucu olarak, veri saklama hem daha kolay olmuş, hem de verinin kendisi de ucuzlamıştır. Böylelikle Veri Madenciliği ve Bilgi Keşfi özellikle elektronik ticaret, bilim, tıp, iş ve eğitim alanlarındaki uygulamalarda yeni ve temel bir araştırma sahası olarak ortaya çıkmaya başlamıştır. Veri madenciliği, eldeki ham veriden, anlamlı ve kullanılabilir bilgiyi çıkarmaya yarayacak tümevarım işlemlerinin formül tespit analizi ve uygulamaya yönelik çalışmaların bütününü içerir. Bu da; kümeleme, veri leme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir. Başka bir deyişle, veri madenciliği veri içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir. Bu tezde; bir bankadaki özel müşterilerin kümelenmesi amaçlanmıştır. Veri madenciliği uygulamasından önce, genel olarak veri madenciliği metodları açıklanmıştır. Daha sonra, başarılı bir veri madenciliği çalışması için gerekli adımlar ifade edilmiştir. Kümele analizi için, IBM Intelligent Miner veri madenciliği aracı kullanılmıştır. Bu çalışmada, segmentasyon için ilk olarak bir veri modeli geliştirilmiş ve bu veri modeli üzerinde veri kalitesi analiz çalışması yapılmıştır. Değişken seçme işleminde, kümelerin oluşmasında ağırlığı olan değişkenlerin seçimi amaçlanmıştır. Son olarak, segmentasyon sonuçları sunulmuş ve kümelerin ortak özellikleri detaylı olarak segmentasyon prosesinden sonra tartışılmıştır. As a result of cost decrease in performing transaction process with high capacity, storing data has become more easier and data becomes itself more economic. In this way, Data Mining and Knowledge Discovery have begun to reveal a new and basic research area especially in e-commerce, science, medical science, business and education. Data mining includes the overall inductive studies of formulae identification analysis and applications for extracting meaningful and usable information from raw data in hand. It is used for extracting patterns, changes, disorders and relations from large data sets. This includes a limited number of technical approaches; such as, clustering, data summary, change analysis, identification of deviations. In other words, data mining is a semi-automatically discovery of patterns, relations, changes, disorders, rules and statistically important structures in data. In this thesis, it was aimed to cluster private customers in a bank. Before the mining application, data mining methods were explained in general. Afterwards, essential steps for a successful mining project were expressed. For the clustering analysis, IBM Intelligent Miner tool was used. In this study, a data model was firstly improved for the segmentation and data quality analysis was performed on the data model. In the variable selection process, it was aimed to choose the variables that had more influence in forming the clusters. Finally, segmentation results were presented and common characteristics of clusters were discussed in detail after the mining process.