Veri madenciliğinde yüksek boyutlu veriler ile uygulama


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Teknoloji Fakültesi, Bilgisayar Mühendisliği Bölümü, Türkiye

Tezin Onay Tarihi: 2010

Tezin Dili: Türkçe

Öğrenci: KAZIM YILDIZ

Danışman: BUKET DOĞAN

Özet:

VERİ MADENCİLİĞİNDE YÜKSEK BOYUTLU VERİLER İLE UYGULAMA Veri madenciliğinde önemli tekniklerden biri kümeleme analizidir. Kümeleme analizinde, veri içerisindeki grupların önceden hiçbir bilgi olmadan bulunması amaçlanır. Kümeleme analizinde çeşitli yöntemler ve bu yöntemlere bağlı çeşitli algoritmalar bulunmaktadır. Bu tezin amacı, yüksek boyutlu veri kaynaklarının yapısını ve karşılaşılan yüksek boyutluluk problemini incelemek, yüksek boyutlu verilerde boyut indirgeme tekniklerini kullanmak ve boyutu indirgenmiş veriler ile kümeleme yapmaktır. Boyut indirgeme yapılmadan ve boyut indirgenerek K-Means, K-Medoids ve Fuzzy C-Means algoritmaları ile Iris, Diabet, Vehicle, Abalone, Milliyet, BBC yüksek boyutlu veri setleri üzerinde çeşitli testler yapıldı ve algoritmaların performansları saflık, entropi ve ortak bilgi açısından karşılaştırıldı. Boyut indirgeme tekniklerinden PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE ve LLC kullanılan işlemci, kullanılan bellek, geçen zaman açısından çeşitli veri setlerinde incelenerek karşılaştırıldı. Bu teknikler ile Boyutu indirgenen veriler K-Means, K-Medoids ve Fuzzy C-Means algoritmaları kullanılarak kümeleme yapılmıştır. Kümeleme algoritmalarının deneysel sonuçları açıklanmaktadır. Elde edilen deneysel sonuçlarda boyut indirgeme algoritmaları içerisinde en etkili olanlar Laplacian, FastMVU, ve t-SNE algoritmaları olduğu gözlenmiştir. Boyutu indirgenen veri setlerinde en etkili çalışan kümeleme algoritması FCM olduğu belirlenmiştir. Ayrıca veri setlerinin boyutu indirgendiğinde küme saflığı ve ortak bilgileri artmaktadır. ABSTRACT APPLICATION of HIGH DIMENSIONAL DATA IN DATA MINING Clustering analysis is one of the important technique in data mining. In the clustering analysis, unknown data groups are discovered. There are number of techniques and algorithms in cluster analysis. The aim of this thesis is to investigate the structure of high dimensional data resources and the problems about this issue, to use dimensional reduction techniques in high dimensional data and to cluster these data. Some kinds of tests have been made on the high dimensional data sets such as Iris, Diabet, Vehicle, Abalone, Milliyet, BBC with the help of algorithms as follows; K-Means, K-Medoids and Fuzzy C-Means with and without dimensional reduction process. Then, the performances of algorithms have been compared in terms of purity, entropi and common data. The dimensional reduction techniques such as PCA, MDS, Isomap, L-Isomap, Laplacian, LTSA, FastMVU, SNE, t-SNE and LLC were investigated on some data sets and then compared in terms of processor, using memory and time. After the dimensional reduction process these datas were clustered by using K-Means, K-Medoids and Fuzzy C-Means algorithms. The experimental results of clustering algorithms have been told. From the experimental results, it was observed that, the most efficient algorithms among the dimensional reduction algorithms are Laplacian, FastMVU and t-SNE algorithms. Among the data sets that its’ dimension reduced it was determined that the most efficient working clustering algorithm is FCM algorithm. In addition when the data sets dimension is reduced, its’ purity and common data are increases.