Sosyal medya paylaşımlarında duygu analizi : makine öğrenimi yaklaşımı üzerine bir araştırma


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Öğrenci: Ümit Topaçan

Danışman: LEVENT ELDENİZ

Özet:

Mobil cihazlara erişimin artması ve kullanım maliyetlerinin düşmesine paralel olarak Twitter ve benzeri sosyal medya platformları toplumun her kesimine ulaşmış ve gündelik yaşamları ilgili bilgiler veren kullanıcı sayısı giderek artmıştır. Böylece, sosyal medya platformları toplumun duygu ve düşüncelerini yansıtan birer ortama dönüşmüştür. Çalışmanın amacı, sosyal medya aracılığı ile üretilen metinlerin istatistisel yöntemler kullanılarak analiz edilmesi; yazarın konuya karşı düşüncesinin olumlu, olumsuz ya da tarafsız sınıflandırılarak ağdaki meta enformasyonun ortaya çıkarılması ve ağı oluşturan topluluğun genel eğilimin tahmin edilmesidir. Bu kapsamda, bir metnin yansıttığı duyguyu tespit edip yorumlama olarak tanımlanan Duygu Analizi yöntemi kullanılmıştır. Sosyal medya platformlarında katılımcının paylaştığı içeriğin konu olarak sınırlandırılması mümkün değildir. Dolayısıyla, farklı alanlarda ve konularda paylaşılan enformasyon dikkate alınmalı ve ağın eğilimini yansıtan meta enformasyon çıkarımı konudan bağımsız olmalıdır. Kendi kendine öğrenebilen esnek yapısından dolayı çalışmada makine öğrenimi yaklaşımı kullanılmıştır. Yapılan çalışmalar sonucu, makine öğrenimi yaklaşımı ile Türkçe paylaşım yapılan sosyal ağlardaki meta enformasyonun ortaya çıkarılması ve ağdaki genel duygu eğiliminin yönünün tespit edilmesinin mümkün olduğu görülmüştür. Ayrıca, bu yaklaşımın farklı konu başlıkları ya da sektörlerde uygulanması durumunda benzer sonuçlar ürettiği gözlemlenmiştir. Türkçe metinlerde en başarılı sınıflandırma işlemi, 1-3-gram ve ikili kodlama terim seçim yöntemleriyle oluşturulan kelime torbasının, bilgi kazanımı öznitelik seçim yöntemiyle daraltılması ve Naïve Bayes algoritması ile eğitilmesi sonucu elde edilmiştir. Ayrıca, sınıflandırmaya en çok katkı sağlayan ögeler isim, sıfat, fiil ve duygu simgeleri olmuştur. ABSTRACT With the help of increasing access to mobile devices and decreasing in operating cost, Twiter and other social media platforms have reached every segments of the society and growing number of users start to share information about their lives. Thus, social media platforms has become a medium that reflects the thoughts and feelings of the community. Purpose of the study is analyzing the texts produced through social media by using statistical methods; classifing author’s positive, negative or neutral thoughts toward the subject; uncovering the meta information of the network; estimating the overall trend of the communities that make up network. In this context, Sentiment Analsis methods, defined as identifing and interpreting emotions in a text, was used. It is not possible to restrict the issues that participants share on social media platforms. So, the process of extracting meaningful knowledge from the content should be domain independent. Therefore, the machine learning approach was used in the study due to its easily adaptable self-learning capabilities.  The results shows that by using machine learning approach it is possible to discover the meta information on a social network environment people write in Turkish language. Moreover, the application of this approach in different domains have been observed to produce similar results. The most successful classification in Turkish language obtained by creating bag-of-words by using 1-3-gram and binary feature selection methods, applying information gain feature reduction and training with naive bayes algorithm. Features providing the largest contribution to the classification are names, adjectives, verbs and emoticons.