Veri Bilimi, cilt.4, sa.3, ss.113-122, 2021 (Hakemli Dergi)
Teknolojinin gelişmesi ve internet kullanıcı sayısındaki artışla orantılı olarak siber suçlarda
da artış gözlemlenmiştir. Birçok farklı siber saldırı tekniği bulunmaktadır. Bu saldırı
tekniklerinden biri olan kötü amaçlı web siteleri, siber saldırılar ve dolandırıcılık olaylarında
önemli rol oynamaktadır. İnternette masum görünen bir bağlantıya tıklamak veya e-posta ve
mesaj yoluyla gönderilen bir web sayfasını ziyaret etmek arka planda kimlik avı
kampanyalarının başlatılmasına, kötü amaçlı yazılımların, casus yazılımların, fidye
yazılımların indirilmesine ve ciddi parasal kayıplar oluşmasına yol açar. Dolayısıyla bu
tehditlerin etkin bir şekilde tespit edilmesi ve önlenmesi bireyler, kurumlar ve hükümetler
için oldukça önemli bir konu haline gelmiştir. Kara listeye dayalı yöntemler, kötü amaçlı
URL'leri tanımlamak için kullanılan standart yöntemlerden biridir. Ancak kara listeler hiçbir
zaman kapsamlı değildir ve yeni oluşturulan URL'leri algılama yeteneğinden yoksundur. Kara
listeye dayalı yöntemlerin mevcut ihtiyacı ve eksiklikleri de göz önünde bulundurularak bu
çalışmada toplulukla öğrenme yöntemleri kullanılarak bir sınıflandırma yaklaşımı
önerilmiştir. Çalışmada iyi huylu ve kötü huylu URL’lerden elde edilmiş 79 sözcüksel özellik
içeren Kanada Siber Güvenlik Enstitüsü'nün URL veriseti (ISCX-URL-2016) üzerinde
çalışılmıştır. Verisetinde benign, spam, phishing, malware ve defacement olmak üzere beş
farklı URL türü bulunmaktadır. Toplam 7781 iyi huylu ve 28.917 tane zararlı URL kaydı
üzerinde zararlı, zararsız etiketleri kullanılarak ikili sınıflandırma işlemi ve beş farklı etiket
bilgisi kullanılarak çoklu sınıflandırma işlemi gerçekleştirilmiştir. Makine öğrenmesi
yöntemlerinden Rastgele Orman algoritması uygulanan yöntemin başarısının sınanması için
10-katlamalı çapraz doğrulama (10-fold cross validation) ile birlikte kullanılmıştır ve 10 temel
bileşen kullanılarak ikili sınıflandırma problemi için ortalama %99.42, çoklu sınıflandırma
problemi için ortalama %95.68 doğruluk değeri elde edilmiştir. Böylece her gün yeni web
sitelerinin katıldığı bu dinamik internet ağını kötü niyetli tasarlanmış web sitelerinden
korumaya yönelik yüksek başarım oranına sahip bir model önerisi sunulmuştur.
In parallel with the development of technology and the increase in the number of internet
users, an increase in cybercrime has been observed. There are many different cyberattack
techniques. Malicious websites, one of these attack techniques, play an important role in
cyberattacks and fraud events. Clicking on an innocent-looking link on the Internet or visiting
a web page sent via email or text will result in phishing campaigns being launched in the
background, downloading malware, spyware, ransomware, and serious monetary losses.
Therefore, effective detection and prevention of these threats has become a very important
issue for individuals, institutions and governments. Blacklist-based methods are one of the
standard methods used to identify malicious URLs. However, blacklists are never
comprehensive and lack the ability to detect newly created URLs. Considering the current
needs and deficiencies of blacklist-based methods, a machine learning based classification
approach was used in this study to combat malicious URLs. In the study, the URL data set of
the Canadian Cyber Security Institute (ISCX-URL-2016) was studied, which contains 79 lexical
features obtained from benign and malignant URLs. There are five different URL types in the
dataset: benign, spam, phishing, malware and defacement. A binary classification process
using harmless, malicious labels and a multi-classification process using five different labels
information was performed on a total of 7781 benign, harmless and 28,917 malicious URL
records. Random Forest algorithm, one of the machine learning methods, used together with
10-fold cross validation to validate the success of the applied method, and an average accuracy
value of 99.42% for the binary classification problem and 95.68% for the multiple
classification problem was obtained. Thus, a model proposal with a high-performance rate is
presented to protect this dynamic internet network, where new websites are added every day,
from maliciously designed websites.