Tak N. (Yürütücü), Eğrioğlu E.
TÜBİTAK Projesi, 1001 - Bilimsel ve Teknolojik Araştırma Projelerini Destekleme Programı, 2025 - 2027
Gelişen teknoloji ve dijitalleşmeye geçişin hızı ile elde edilen verilerin karmaşık ve büyük boyutlu olması alternatif yöntemlere olan ilgiyi arttırmış ve klasik yöntemleri daha az kullanışlı hale getirmiştir. Klasik yöntemler belli bir teorik/matematiksel alt yapısı olan belirli varsayımları bünyesinde barındıran ve varsayımların sağlanması halinde en uygun çözüm kümesini veren yöntemlerdir. Günümüzdeki verinin karmaşıklığı göz önünde bulundurulduğunda, yöntemlere ait varsayımların sağlanması daha zor bir hal almıştır. Bu durum alternatif yöntemlere olan ilgiyi arttırmıştır. Temel olarak bulanık mantık, sezgisel öğrenme, makine öğrenmesi ve yapay zekâ gibi esnek hesaplama yöntemleri alternatif yöntemler içeresinde en çok karşılaşılan başlıklardır. Makine öğrenmesinde, özellikle modelin genelleme yeteneğini artırmak ve aşırı uyumu önlemek için çeşitli yöntemler kullanılmaktadır. Karmaşık verinin modellenmesinde en yaygın olarak tercih edilen yöntemlerden biri olarak karşımıza topluluk öğrenme yöntemlerinden en çok bilinenlerinden biri olan torbalama yöntemi çıkmaktadır. Torbalama, verilerin rastgele örneklenmesi ve elde edilen bu örneklem kümelerinde farklı modellerin eğitilip birleştirilmesi prensibine dayanır. Bu yöntemde, temel olarak şu adımlar izlenir:
1. Veri Örneklemesi: Veri kümesinden, orijinal veri kümesiyle aynı boyutta, ancak verilerde tekrarlar olabilecek şekilde (iadeli örnekleme) yeni örneklem kümeleri oluşturulur.
2. Model Eğitimi: Her bir örneklem kümesi üzerinde aynı tipte bir temel model (örneğin, karar ağacı, yapay sinir ağı) eğitilir.
3. Model Birleştirme: Eğitilen tüm modellerin tahminleri, genellikle ortalama alınarak veya oylama yöntemiyle birleştirilerek nihai tahmin elde edilir.
Torbalama yönteminin gözlenen en temel avantajları,
· Varyansın Azaltılması: Farklı örneklem kümeleri üzerinde eğitilen modeller, farklı hatalara sahip olacaktır. Bu sayede, modellerin birleştirilmesiyle oluşan nihai modelin varyansı azalır ve daha kararlı hale gelir.
· Genelleme Yeteneğinin Artması: Torbalama, modelin aşırı uyumunu önleyerek genelleme yeteneğini artırır. Özellikle yüksek varyanslı modellerde bu etki daha belirgindir.
· Eğitim Verisinin Daha Etkin Kullanılması: Her bir model, veri kümesinin farklı bir bölümünü kullanarak eğitilir. Bu sayede, eğitim verisi daha etkin bir şekilde kullanılır ve modelin öğrenme kapasitesi artar.
Torbalama, birçok makine öğrenmesi probleminde (Sınıflandırma ve Regresyon) başarılı bir şekilde kullanılmaktadır. Ancak, torbalama yönteminin başarısı, kullanılan temel modelin türüne ve veri kümesinin seçimine bağlıdır. Bu proje bu iki durumu efektif bir şekilde iyileştirmeye yönelik tasarlanmıştır. İlk olarak veri kümesinin seçimi rastgele olduğundan model birleştirme aşamasında iyi sonuç vermeyen veri kümesi seçimlerinin elemine edilmesi amaçlanarak daha iyi nihai tahminler elde edilmesi ve ikinci olarak, seçilen iyi veri kümeleri için farklı yöntemler denenerek, iyi sonuç verenin elde edilmesi amaçlanmaktadır.
Bu projede, bireysel torbalama örneklerinin, meta bulanık fonksiyonlarla birleştirilmesi amaçlanmaktadır. Tak tarafından 2018 yılında önerilen meta bulanık fonksiyonlar (MBF), çeşitli yöntemlerden elde edilen sonuçları birleştirmeyi amaçlar. Bu yöntemler, aynı probleme uygulanan farklı algoritmalar olabilir (örneğin, tahmin, öngörü veya sınıflandırma). MBF' ler, yöntemleri performanslarına göre gruplandırmak için Bulanık C-Ortalamaları (BCO) kümeleme kullanır. Daha sonra, kümeleme işleminden elde edilen üyelik dereceleri kullanılarak yöntemlerin ağırlıklı ortalamaları hesaplanır. Buradaki fikir, daha iyi ve daha kötü yöntemler arasında zeki bir şekilde seçim yaparak sonuçların birleştirilmesi mantığı vardır. BCO ve meta-analiz ilkelerini kullanarak, MBF'ler genel tahmin kalitesini artırmayı amaçlamaktadır. Tak (2018) tarafından yönetilen veya araştırmacısı olduğu çalışmalar, MBF’nin gücünü farklı alanlarda göstermiştir. Bu anlamda, torbalama yönteminden daha iyi sonuçlar elde etmek için MBF kullanılacaktır.