METİN MADENCİLİĞİ YÖNTEMLERİ İLE E-TİCARET MARKALARINA YÖNELİK SOSYAL MEDYA YORUMLARININ ANALİZİ

NURFER IŞIK

METİN MADENCİLİĞİ YÖNTEMLERİ İLE E-TİCARET MARKALARINA YÖNELİK SOSYAL MEDYA YORUMLARININ ANALİZİ

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Sosyal Bilimler Enstitüsü, İşletme Anabilim Dalı, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: NURFER IŞIK

Danışman: Özgür Çakır

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

Metin verilerinden anlam çıkarılması adına yapılan analizler teknolojik gelişmeler ile hızla değişebilmektedir. Müşterilerin satın aldıkları ürün/hizmetler hakkında yazdıkları geri bildirimlerin ve sosyal medya platformlarında yazdıkları mesajların/yorumların içerdiği duygunun araştırılabilir ve yorumlanabilir oluşu bu metin verilerine anlam katmaktadır. Bu metin verilerinin analiz edilmesi ile elde edilen bilgileri işletmelerin kullanması ise işletmelere değer katmaktadır. Bu tez çalışmasında, makine öğrenmesi tekniklerinden denetimli öğrenme yaklaşımı kullanılarak sosyal medya yorumlarının duygu analizi yapılmıştır. Denetimli öğrenme sınıflandırma algoritmalarından Naive Bayes, Sıralı Minimal Optimizasyon(SMO), k-en yakın komşu (kNN=IBk) algoritmaları kullanılmıştır. Bazı e-ticaret firmalarına, ürünlerine/hizmetlerine yönelik yapılan yorumlardan oluşturulan veri kümesi Twitter platformu kullanılarak elde edilmiştir. Sosyal medya yorumları olumlu, olumsuz, nötr olarak el yordamı ile etiketlenerek üç sınıfta toplanmıştır. Bu çalışmada ‘sınıflardaki veri dağılımının’ ve ‘öznitelik seçiminin’ sınıflandırma üzerindeki etkileri incelenmiştir. Bu incelemeler Weka 3.8 yazılımında yer alan Naive Bayes (NB), Sıralı Minimal Optimizasyon (SMO) ve 1-en yakın komşu (IB1) sınıflandırma algoritmaları kullanılarak ve 16 farklı model oluşturularak yapılmıştır. Elde edilen deneysel sonuçlarda dengesiz veri kümesinin, dengeli veri kümesine göre daha iyi performans sağladığı gözlemlenmiştir. Ayrıca veri kümelerinde öznitelik seçimi yapıldığı durumlarda da veri kümelerinin daha iyi performans sağladığı gözlemlenmiştir. En iyi performansı gösteren sınıflandırma algoritması ise dengesiz veri kümesi üzerinde öznitelik seçimi yapıldığında ortalama %93,52 sınıflandırma doğruluğu ile kNN olmuştur. -------------------- The analysis for extracting meaning from text data can change rapidly with technological developments. The customers' feedback about the products/services that purchase and the messages/comments that write on social media platforms are searchable and interpretable. This situation adds meaning to the text data. The use of the information obtained by the analysis of this text data adds value to the enterprises. In this thesis, a sentiment analysis of social media comments is performed by using supervised learning approach from machine learning techniques. Naive Bayes, Sequential Minimal Optimization (SMO), k-nearest neighbor (kNN = IBk) algorithms are used in the supervised learning classification algorithms. The data set created from the comments made for some e-commerce companies, their products / services is obtained by using Twitter platform. Social media interpretations are gathered into three groups, labeled manually as positive, negative and neutral. In this study, the effect of 'data distribution in groups' and 'attribute selection' on the success results of Naive Bayes (NB), Sequential Minimal Optimization (SMO) and 1-nearest neighbor (IB1) classification algorithms in Weka 3.8 software are examined by creating 16 different models. It is observed that the unbalanced data set provided better performance than the balanced data set. In addition, it is observed that data sets perform better when attribute selection is made in data sets. The best performing classification algorithm is kNN with 93,52% classification accuracy rate when the attribute selection is made on unbalanced data set.