Türkçe metinlerde sözlük tabanlı yaklaşımla duygu analizi ve görselleştirme


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: Abdoulaye Issa Baban Chawai

Eş Danışman: BUKET DOĞAN, ÖNDER DEMİR

Özet:

TÜRKÇE METİNLERDE SÖZLÜK TABANLI YAKLAŞIMLA DUYGU ANALİZİ VE GÖRSELLEŞTİRME Metin madenciliği (TM) yaklaşımları, yapılandırılmamış metinden otomatik olarak faydalı bilgilerin çıkarılmasını kolaylaştırmak için önem kazanmaktadır. Bu amaçla kullanılan metin madenciliği yöntemleri ile büyük miktardaki metin verileri, kısa zamanda ve yüksek performans ile analiz edilebilmektedir. Bu çalışmanın temel amacı, kelime sıklığı, bilgi çıkarma, sınıflandırma, makine öğrenmesi, veri işleme ve çıkarma gibi araçlarla Türkçe metinlerinin işlenmesi ve görselleştirilmesidir. Metin madenciliği alanlarından biri olan duygu analizi veya fikir madenciliği, görüşler, tutumlar ve duygular gibi öznel bilgilerin algılanmasını otomatikleştirmek için kullanılmaktadır. Bu tezde sunulan çalışmada, tweet, roman, müşteri yorumları gibi Türkçe metinlerin analizine ihtiyaç duyulduğu durumlarda kullanılabilecek yeni bir araç önerilmektedir. Geliştirilen uygulama esas olarak duygu analizi yaparken "kelime düzeyinde" çalışmaktadır. Buna ek olarak, duygu analizinde kullanılan sözlük sıfatlar, isimler, fiiller, zarflar, ön ekler, son ekler tğrğnde kelimeler içermektedir. Kullanılan birinci sözlük 5.000 kelime, ikinci sözlük 25.000 kelime ve üçüncü için de yaklaşık 25.000 kelime içermektedir. Tez üç bölümden oluşmaktadır.: Bölüm 1'de Tezin genel girişinde sırasıyla metin madenciliğine ve duygu analizine özgü tanımlar verilmiştir, ardında tez çalışmanın amacı ve önemi hakkında daha fazla bilgi paylaşmıştır. Son olarak metin madenciliği ile ilgili alanlardan ve çalışmalardan bahsedilmiştir. Bölüm 2'de ise kullanılan materyal ve yöntemlerden bahsedilmiştir. Bu bölümde belge korpusunun nasıl temsil edildiği, kullanılan sınıflandırma teknikleri, duygu analizi yöntemleri, tez çalışmasında kullanılan sözlükler ve genel sistem mimarisi açıklanmaktadır. Bölüm 3'te ise geliştirilen duygu analizi sistemine ait sonuçlar ve önerileri içermektedir Anahtar Kelimeler: Metin madenciliği, duygu analizi, metin sınıflandırması, makine öğrenmesi. -------------------- Text mining (TM) approaches are important in order to facilitate the automatic extraction of useful information from unstructured text. In this purpose, with the utilization of Text Mining methods, large amounts of text data can be analyzed in a short time and with high performance. The main purpose of this study is to process and visualize Turkish texts with the help of tools such as word frequency, information extraction, classification, machine learning, data processing and extraction. Sentiment Analysis or Opinion Mining is one of the text mining fields wich is used to automate the perception of subjective information such as opinions, attitudes and emotions. The study presented in this thesis is a new tool proposed that can be used when the analysis of Turkish texts such as tweets, novels, customer comments is needed. While searching or making sentiment analysis, the developed application works mainly at the word level. In addition, the dictionary used in emotion analysis includes differents words like adjectives, nouns, verbs, adverbs, prefixes, suffixes. The first dictionary used is AFINN with 5,000 words, the second dictionary BING contains 25,000 words and the third dictionary NRC contains approximately 25,000 words. The thesis consists of three parts: In Chapter 1, in the general introduction of the thesis, the specific definitions of Text Mining and Sentiment Analysis are given respectively, after which the thesis shares more information about the purpose and importance of the study. Finally, the fields and studies related to text mining are mentioned. In Chapter 2, the materials and methods used are mentioned. This section describes how the document corpus is represented, the classification techniques used, the sentiment analysis methods, the dictionaries used in the thesis study and the architecture of the general system. Chapter 3 contains the results and recommendations of the developed Sentiment Analysis system. Keywords: Text Mining, Sentiment Analysis, Text Classification, Machine Learning.