Semi-supervised classification of documents via label propagation in graphs


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: İngilizce

Öğrenci: Gökhan Kocaman

Danışman: MURAT CAN GANİZ

Özet:

ÖZET ÇİZGELERDE ETİKET YAYILIMI İLE BELGELERİN YARI EĞİTİMLİ SINIFLANDIRILMASI Doğal dil işleme alanının genel sorunlarından biri de kelimenin cümle içerisinde hangi anlamda kullanıldığının tespitidir. Makine öğrenmesi tabiri ile bu bir gözetimlisınıflandırma sorunudur. Buna alternatif olarak eğer elimizde çok az etiketli veri bulunuyorsa ve çok sayıda etiketsiz veri varsa yarı gözetimli sınıflandırıcılar kullanılabilir. Biz bu çalışmamızda kelime anlam ayrımı için en bilinen sınıflandırma algoritmalarından biri olan Label Propagation algoritmasını iyileştirmeyi amaçladık. Yaklaşımımız ise semantik diffusion kernel kullanmak olacaktır. Geliştirdiğimiz bu algoritmayı diffused label propagation algorithm (DILP) olarak adlandırdık. Algoritmamızı belirginleştirilmiş yapıda bulunan farklı boyutlardaki eğitim kümeleri ile denedik. Yaptığımız bu deneyler ile şu sorulara cevap vermeye çalıştık: 1. Ürettiğimiz semantic kernel formülü mevcut popüler kernellerden daha iyi performans sağlıyor mu? 2. Hangi koşullarda diğer kernellerden daha iyi sonuç vermektedir? 3. Ne tür regülasyon metodu daha iyi sonuç verir? Deneylerimiz sonucunda bazı koşullarda yaklaşımımızın daha iyi performans gösterdiği gözlemlenmiştir THESIS ABSTRACT SEMI-SUPERVISED CLASSIFICATION OF DOCUMENTS VIA LABEL PROPAGATION IN GRAPHS Word sense disambiguation is the one of major natural language processing problems. It is used to identify the correct sense of a many sense word based on its context. In terms of machine learning, this can be considered as a supervised classification problem. A better alternative can be the use of semi-supervised classifiers since labeled data is usually scarce yet we can access large quantities of unlabeled textual data. We propose an improvement to Label Propagation which is a well-known transductive classification algorithm for word sense disambiguation. Our approach make use of a semantic diffusion kernel. We name this new algorithm as Diffused Label Propagation Algorithm (DILP). We evaluate our proposed algorithm with experiments utilizing various sizes of training sets of disambiguated corpora. Our experiments help us to answer the following questions: 1. Does our algorithm with semantic kernel formulation yield higher classification performance than the popular kernels? 2. Under which conditions does a kernel design perform better than others? 3. What kind of regularization methods result with better performance? Our experiments demonstrate that our approach can outperform baseline in terms of accuracy in several conditions -------------------- SEMI-SUPERVISED CLASSIFICATION OF DOCUMENTS VIA LABEL PROPAGATION IN GRAPHS