Combination Of Word Embeddings


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği (İngilizce) Anabilim Dalı, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: İngilizce

Öğrenci: SELİN DEĞİRMENCİ

Danışman: Murat Can Ganiz

Özet:

Kelime vektörleri, Doğal Dil İşlemede kelimeleri temsil etmektedir ve son yıllarda Doğal Dil İşleme görevlerinde başarıyla kullanılmıştır. Kelime vektörü oluşturma yöntemleri, kelimelerin anlamsal benzerliğini kodlarken, genellikle çok büyük bir veri kümesinden, terimlerin vektörel gösterimini oluşturur. Farklı kelime vektörlerinin doğal dil işleme görevlerindeki başarıları, doğal dil işleme görevinin çeşidine göre farklılık gösterdiğinden söz konusu kelime vektörlerinin seçimi bu alanda önemli bir hiperparametredir. Makine öğrenme modelleri birlikteliklerinin kendi bileşenlerinden daha iyi performans gösterme eğiliminde oldukları da bilinmektedir. Bu nedenle, performansı iyileştirmek için farklı modelleri birleştirmek mantıklıdır. Word2vec ve fastText modelleri Doğal Dil İşlemedeki iki popüler modellerdir. Bu modeller kelime başına iki vektör verir: bir kelime ve bir bağlam vektörü. Tipik olarak bağlam vektörleri, farklı Doğal Dil İşleme görevleri için faydalı bilgiler içerme ihtimaline rağmen, eğitimden sonra atılır. Bu nedenle bu tezde, kelime ve bağlam vektörlerini kelime vektörlerinin kombinasyonu çerçevesinde birleştiriyoruz. Deneylerimiz, metin sınıflandırma, anlamsal benzerlik ve kelime analojisi gibi birçok Doğal Dil İşleme görevinde performans artışı olduğunu göstermektedir. Sonuç olarak, bu yaklaşım maliyeti az bir değişiklik ile Doğal Dil İşleme görevlerinde performansı artırmak için kullanılabilir. -------------------- Word embeddings are representations of words in Natural Language Processing (NLP). This approach is applied in NLP tasks successfully in recent years. Word embedding methods provide vector representations of a terms in a corpus while encoding semantic similarity of words. The choice of word embeddings is a significant hyperparameter for NLP tasks, since it has been observed that different embedding models tend to provide stronger representations for different types of downstream tasks. It is also known that ensembles of machine learning models tend to perform better than their individual parts. It makes sense, then, to combine different embeddings in order improve performance. The word2vec and fastText models are two popular vector models in NLP. These models train two vectors per word: a word and a context vector. Typically, the context vectors are discarded after training, even though they may contain useful information for different NLP tasks. Therefore, in this thesis, we combine word and context vectors in the framework of meta-embeddings. Our experiments show performance increases at several NLP tasks include text classification, word similarity and word analogy in different datasets. In conclusion, this approach can be used to increase performance at downstream tasks while requiring minimal additional computational resources.