Multivariate time series clustering using variable order markov models and its applications on cyber-physical systems


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2019

Tezin Dili: Türkçe

Öğrenci: Barış Gün Sürmeli

Danışman: Mustafa Borahan Tümer

Özet:

Siber-Fiziksel Sistemler’den elde edilen Çok-değişkenli Zaman Serileri (CZS) verisi, sistemin karakteristik özellikleri hakkında değerli bilgiler içermektedir. Bir Makine Öğrenmesi yöntemi olan, Çok-değişkenli Zaman Serileri (CZS) Kümelemesi, sistemin değişik çalışma aralıklarında gösterdiği davranışların arasındaki benzerlikleri açığa çıkarmak için kullanılabilir. Sistem hakkındaki bu bilgiler, hata tespiti, sistem bakımı ve kök neden analizi gibi görevlerin gerçekleştirilmesi için ön bilgi sağlayabilir. Bu tezde, her bir CZS‘yi, istatistiksel bir yöntem olan Değişken Dereceli Markov Zincirleri (DDMZ) ile modellenmiş, ve elde edilen bu modelleri karşılaştırarak aralarındaki uzaklıkları/benzerlikleri hesaplamak için kullanılmak üzere yeni bir metrik sunulmuştur. Elde edilen bu ikili uzaklıklar baz alınarak DDMZ’ler kümelendirilmiş ve bu şekilde CZS Kümelemesi görevi sonuçlandırılmıştır. Biri Gizli Markov Modelleri, diğeri ise Temel Bileşenler Analizi kullanarak CZS’leri modelleyen iki yöntem karşılaştırma amacıyla açıklanmıştır. Sunulan yöntemin üstünlüğü, biri siber-fiziksel laboratuvar göstericisinden elde edilmiş, diğeri ise endüstriyel bulaşık makinesi üretim fabrikasından elde edilmiş iki veri seti üzerinde yapılan deneylerle doğrulanmıştır. Ayrıca, yeni bir DDMZ öğrenme yöntemi sunulmuş ve üç CZS Kümeleme yöntemi için hesaplama karmaşıklığı tartışılmıştır. -------------------- Multivariate Time Series (MTS) data obtained from Cyber-Physical Systems carry resourceful information about the internal characteristics of the system. As one of the exploratory Machine Learning methods, Multivariate Time Series Clustering can enable one to discover the similarities and differences of the manifested behavior in different working periods/cycles of a system. This information can then be used as a prior knowledge for tasks such as anomaly detection, system maintenance or root-cause analysis. In this thesis, we make use of the statistical method, Variable Order Markov Models (VOMMs) to model each individual MTS and present a new metric to calculate the distances between those VOMMs. The VOMMs are then clustered with respect to these pairwise distances to complete the MTS Clustering task. Two other MTS Clustering methods which use Hidden Markov Models and Principal Component Analysis to model the MTSs are also explained. The superiority of the proposed method is confirmed with the experiments on two data sets; one obtained from a cyber-physical lab demonstrator and one from an industrial dishwasher production plant. A new VOMM construction method as well as the computational complexity of the three MTS Clustering methods are also discussed.