Veri madenciliğinde hiyerarşik kümeleme algoritmalarının uygulamalı karşılaştırılması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Sosyal Bilimler Enstitüsü, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: YUSUF ALTINOK

Danışman: Ahmet Mete Çilingirtürk

Özet:

Büyük hacimli verilerin analiz edilerek faydalı bilgilerin keşfedilmesi ihtiyacından doğan veri madenciliği, istatistik başta olmak üzere çeşitli disiplinlerin katkısıyla gelişmekte olan bir alandır. Geniş veri tabanları, nesnelerin sahip olduğu nitelik sayısı ve bu niteliklerin farklı veri tiplerine sahip olması gibi sorunlar, nesnelerin istatistik bilimindeki klasik kümeleme yöntemleriyle ele alınmasını zorlaştırmaktadır. Veri madenciliği literatüründe, klasik kümeleme yöntemlerinin baş etmekte zorlandığı hacimdeki verilerin kümelenmesi için bazı kümeleme algoritmaları geliştirilmiştir. Bu çalışmada, veri madenciliği literatüründeki hiyerarşik kümeleme algoritmalarından CLUCDUH ve ROCK algoritmaları seçilerek örnek bir veri seti üzerinde karşılaştırılmıştır. Uygulama R üzerinde yapılmış, CLUCDUH algoritmasının R kodları geliştirilmiştir. Kullanılan Siluet, Dunn, Davies – Bouldin ve Gamma uyum indekslerine göre ROCK algoritmasının daha iyi kümeler oluşturduğu görülmüştür. Calinski – Harabasz indeksine göre CLUCDUH algoritmasının daha iyi kümeler oluşturduğu görülmüştür. Sınıf etiketlerine göre değerlendirildiğinde, iki algoritmanın da benzer kümeler oluşturduğu görülmüştür. Bununla birlikte, CLUCDUH algoritmasının, daha dengeli büyüklükte kümeler oluşturduğu gözlenmiştir. -------------------- Data mining, which arises from the need to analyze large volumes of data and discover useful information, is a developing field with the contribution of various disciplines, especially statistics. Problems such as large databases, the number of attributes and different data types of objects make it difficult to handle objects with classical clustering methods in statistics. In the data mining literature, some clustering algorithms have been developed for clustering the volume of data that classical clustering methods have difficulty in overcoming. In this study, CLUCDUH and ROCK algorithms have been selected among hierarchical clustering algorithms in the data mining literature and compared on a sample data set. Comparing application has been conducted on R and the R code of the CLUCDUH algorithm has been developed. According to the Silhouette, Dunn, Davies – Bouldin and Gamma concordance indices, it was found that ROCK algorithm creates better clusters. According to Calinski – Harabasz index, it was found that CLUCDUH algorithm creates better clusters. When it is evaluated according to class labels, it has been observed that both algorithms formed similar clusters. Furthermore, it has been observed that the CLUCDUH algorithm creates more balanced sized clusters.