Uzaklık ve benzerlik ölçülerinin kümeleme sonuçlarına etkisi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, İktisat Fakültesi, Ekonometri Bölümü, Türkiye

Tezin Onay Tarihi: 2011

Tezin Dili: Türkçe

Öğrenci: ÖZLEM ERGÜT

Danışman: AHMET METE ÇİLİNGİRTÜRK

Özet:

UZAKLIK VE BENZERLİK ÖLÇÜLERİNİN KÜMELEME SONUÇLARINAETKİSİ Kümeleme analizi, küme sayısı bilinmeyen nesneleri/değişkenleri benzerliklerine göre sınıflandırmaya yarayan bir çok değişkenli analiz tekniğidir. Kümeleme analizinde amaç nesneleri küme içerisinde çok benzer, kümeler arasında farklı olacak biçimde kümelemektir. Benzer olan nesneleri kümelere ayırmak için uzaklık/benzerlik ölçülerinden yararlanılmaktadır. Literatürde verinin türüne göre hesaplanan çeşitli uzaklık ve benzerlik ölçüleri mevcuttur. Uzaklık/benzerlik ölçüsünün seçiminden sonra araştırmanın amacına uygun olarak doğru kümeleme yönteminin seçilmesi gerekmektedir. Kümeleme analizi için bugün literatüre kazandırılmış çok sayıda teknik ve algoritma mevcut olmasına karşın bunları hiyerarşik ve hiyerarşik olmayan teknikler olarak iki başlık altında toplanmak mümkündür. Bu çalışmanın amacı uzaklık/benzerlik kavramlarını açıklayarak, mevcut uzaklık/benzerlik ölçülerini ortaya koyarak hangi durumda hangi uzaklık/benzerlik ölçüsünü kullanılacağına belirlemek, farklı kümeleme tekniği ve uzaklık/benzerlik ölçülerinin kullanılması durumunda elde edilen kümeleme sonuçlarını karşılaştırmaktır. Bu amaç doğrultusunda OECD ülkelerine belirlenen sosyo-ekonomik değişkenlere göre farklı kümeleme teknikleri ve uzaklık/benzerlik ölçülerine göre kümeleme analizi uygulanmış ve kümeleme analizinde sadece uzaklık ölçüsünü seçimi değil aynı zamanda tekniğin seçimi de önemli olduğu sonucuna ulaşılmıştır. ABSTRACT THE EFFECT OF DISTANCE AND SIMILARITY MEASURES ON CLUSTERING Cluster analysis is a multivariate statistical technique that classifies objects in terms of their similarities, whose number of clusters are unknown. Aim of cluster analysis is classification of the objects in such a way that points in the same cluster have a high degree of similarity while the objects belonging the different cluster have a high degree of dissimilarity. Similarity or distance measures are used to group similar objects into cluster. In literature according to the type of data a variety of distance/similarity measures are avaliable. After selection the correct distance measure a clustering method must be selected in accordance with the purpose of study. Although today there are a large number of cluster analysis techniques and algorithms, it is possible to put them into under two headings as hierarchical and non hierarchical techniques. The aim of this study is to explain the concepts of distance/similarity, determine in which case in which distance /similarity measure to use and compare the outcomes of clustering that obtained the use of different clustering techniques and distance /similarity measures. For this purpose according to socio-economic variables different clustering techniques and distance/similarity measures applied to cluster OECD countries and it’s found that not only the measure of distance but also the selection of the technique is crucial in cluster analysis.