Hilenin veri madenciliği ile ortaya çıkartılması ve perakende sektöründe bir uygulama

Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, İşletme Fakültesi, İşletme Bölümü, Türkiye

Tezin Onay Tarihi: 2016

Tezin Dili: Türkçe

Öğrenci: ÇAĞLA AKDEMİR

Danışman: NEJAT BOZKURT

Özet:

HiLENİN VERİ MADENCİLİĞİ İLE ORTAYA ÇIKARTILMASI VE PERAKENDE SEKTÖRÜNDE BİR UYGULAMA Hilenin en kısa zamanda ortaya çıkartılması, hile riski yönetimindeki önemli süreçlerden bir tanesidir. Bu durumun nedeni hilenin devam ettiği süre boyunca işletmeye zarar veriyor olmasıdır. Uygun teknikler kullanılarak veri kümesinde anormallik aranması, hilenin ortaya çıkartılmasına yönelik uygulanabilecek en etkili araçlardan biridir. Büyük veri kümelerinden anlamlı bilgi elde etme süreci olarak ifade edilen veri madenciliği ise büyük veriler üzerinde oldukça etkilidir. Veri madenciliği alanında yapılan çalışmaların büyük kısmı, veri içerisinde var olan paternleri bulmaya odaklanmaktadır. Genellikle aykırı değerlerin, verilerin kalitesini bozduğu ve doğru olmama eğilimi olduğu düşünülmektedir. Ancak aykırı değerlerin tamamen ortadan kaldırılmaya çalışılması, veri kümesinde yer alan önemli gizli bilgilerin kaybedilmesi ile sonuçlanabilmektedir. Çünkü aykırı değerler, hilenin ortaya çıkartılması konusunda önemli bir yere sahip olup, hileli eylemleri işaret edebilmektedir. Çalışmamızın amacı veriler içerisinde yer alan ve hile belirtisi olabilecek anormalliklerin, aykırı değer tespiti teknikleri kullanılarak ortaya çıkartılmasının sağlanmasıdır. Bu kapsamda altı algoritma kullanılarak ( Uzaklık Tabanlı Yaklaşım, Yoğunluk Tabanlı Yaklaşım, k-NN Global Anormallik Skoru, Lokal Aykırılık Faktörü (LOF), Kümeleme Tabanlı Lokal Aykırılık Faktörü (CBLOF), Lokal Yoğunluk Kümeleme Tabanlı Aykırılık Faktörü (LDCOF)) veri kümesi içerisinde yer alan anormallikler tespit edilmiştir. Anahtar Kelimeler : Hilenin Ortaya Çıkartılması, Veri Madenciliği, Aykırı Değerlerin Ortaya Çıkartılması ABSTRACT DETECTING FRAUD BY USING DATA MINING TECHNIQUES AND AN APPLICATION IN RETAIL SECTOR Detecting fraud is one of the most important process in fraud risk management. This importance comes from the correlation between duration of fraud and financial loss. Searching for fraud in data by using appropriate techniques is one of the most effective tool to discover fraud. Data mining is process of analyzing data and summarizing it into useful information. This technique is highly effective in large datasets. Most of studies in data mining focus on finding patterns in dataset. Some studies ignore outliers based on the idea that outliers cause to decrease quality of data. But ignoring outliers might cause to lose all the secret information in datasets. Because outliers are very important in fraud detection process and generally indicates fraud. The aim of this study, finding outliers in dataset by using outlier detection algorithms. Six algorithms ( Distance Based Outlier Detection, Density Based Outlier Detection, k-NN Global Anomaly Score, Local Outlier Factor (LOF), Cluster-Based Local Outlier Factor (CBLOF), Local Density Cluster-Based Outlier Factor (LDCOF)) are used to detect outliers. A series of data obtained after the detection process for further fraud investigation process. Keywords : Fraud Detection, Data Mining, Outlier Detection