Application of metaheuristics for the feature selection problem


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği (İngilizce) Anabilim Dalı, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: İngilizce

Öğrenci: GÜLŞAH KALAYCI

Danışman: Ali Fuat Alkaya

Özet:

Özellik seçimi, bir problemde veri doğruluğunu korurken, asgari özellik kümesini elde etmeyi amaçlar. Özellik seçimi, problem çözümüyle ilgili özellikleri seçerek daha verimli bir veri analizi yapabilmek için ön süreçtir. Özellik seçimi, alakasız özellikleri eleyip kolon sayısını azaltarak algoritmaların tahmin yeteneğini arttırır. Bu çalışmada, 4 algoritma gerçeklendi ve özellik seçimi literatürde sıklıkla kullanılan UCI veritabanındaki veriler üzerinde koşturularak karşılaştırıldı. Bu çalışma, göçmen kuşlar optimizasyon algoritmasının özellik seçimi problemine ilk uygulanışı olma niteliğini taşımaktadır. Kullanılan algoritmalar şu şekilde sıralanabilir; son zamanlarda gelişen ancak kuvvetli bir algoritma olan göçmen kuşlar optimizasyonu, biyolojik organizmaların davranışlarından esinlenen parçacık sürü algoritması, demire şekil verilmesinden esinlenerek gelişirilen benzetilmiş tavlama algoritması ve diferansiyel gelişim algoritması. Seçilen özellik kümesinin doğruluğunu ölçmek için tutarlılık tabanlı küme değerlendirici kullanıldı. Algoritmaların performansı en yakın k komşu algoritması kullanılarak karşılaştırıldı. Sonuçlar, üstün çıkma sayısı bazında göçmen kuşlar algoritmasının kazandığını gösterdi. -------------------- Feature selection aims to gain a minimal feature subset in a problem domain while conserving the accuracy of the original data. Feature selection is a process for making more efficient data analysis by selecting more relevant features for the related problem solving. Feature selection increases prediction probability of algorithms by decreasing the dimensionality, eliminating irrelevant features. In this study, four computational intelligence techniques are implemented and compared on the well-known data instances taken from University of California, Irvine (UCI) database. This is the first time that Migrating Birds Optimization (MBO) is used for the feature selection problem. Specifically, the exploited algorithms are (i) MBO, which is a recently proposed but successful technique, (ii) particle swarm optimization, which has originated from the simulation of behavior of biological organisms, (iii) simulated annealing, which is a well-known and frequently used as a benchmark algorithm and (iv) differential evolution. In our filter-based approach, we also implemented the inconsistency based subset evaluator to evaluate the performance of a given feature subset. Performance comparison is done with k-nearest neighbor, as the classifier where all features are used in the benchmark. Results show that the MBO algorithm presents the best performance in terms of number of winning cases.