Regresyonda Maksimum Entropi modellemesi

Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Sosyal Bilimler Enstitüsü, Ekonometri Anabilim Dalı, Türkiye

Tezin Onay Tarihi: 2014

Tezin Dili: Türkçe

Öğrenci: ÖZER DEPREN

Danışman: İlknur Esen Yıldırım

Özet:

GENEL BİLGİLER İsim ve Soyadı : Özer Depren Anabilim Dalı : Ekonometri Programı : İstatistik Tez Danışmanı : Doç. Dr. İ. Esen Yıldırım Tez Türü ve Tarihi : Doktora – Mart 2014 Anahtar Kelimeler : Genelleştirilmiş Maksimum Entropi, Destek Vektörü Sınırları, Lineer Regresyon REGRESYONDA MAKSİMUM ENTROPİ MODELLEMESİ En Küçük Kareler veya En Çok Olabilirlik yöntemleri bağımlı değişken ve bağımsız değişkenler arasındaki fonksiyonel ilişkiyi açıklamak için sıklıkla kullanılan yöntemlerdir. Bu yöntemlerin uygulanabilmesi için, bazı varsayımların sağlanması gerekmektedir. Varsayımlar sağlanamadığı takdirde, fonksiyonel ilişkiyi ölçebilmek adına literatürde farklı yöntemler kullanılabilmektedir. Alternatif yöntemlerden birisi optimizasyon tekniğini temel alan Genelleştirilmiş Maksimum Entropi Yöntemidir. Bu yöntemde, klasik yöntemlerden farklı olarak çok daha az varsayım söz konusudur. Literatürde saf ters alma problemi olarak bilinen model ilk olarak Jaynes tarafından geliştirilmiştir. Golan ve diğerleri ise, bu yöntemi geliştirerek, Genelleştirilmiş Maksimum Entropi adı ile anılan yöntemi önermişlerdir. Bu yöntemde önsel bilginin olmadığı varsayımıyla Shannon’ın entropi formülü belirli kısıtlar altında maksimize edilmektedir. Golan ve diğerleri model parametrelerini reel değerler olarak elde edebilmek için, parametre destek matrisi adı verilen destek vektörleri ile katsayıları yeniden parametrelendirmişlerdir. Yeniden parametrelendirmedeki en önemli nokta, destek vektörlerinin sınırlarının doğru bir şekilde oluşturulmasıdır. Bu çalışma ile araştırmacının parametreler ile ilgili önsel bilgiye sahip olmadığı durumlarda mevcut yöntemlere göre daha iyi parametre tahminleri elde edilmesini sağlayan destek vektörlerinin belirlenmesi amaçlanmıştır. Bu amaç doğrultusunda farklı veri setleri üzerinde çalışılarak alternatif bir yöntem önerilmiştir. Mevcut yöntemlere alternatif olarak önerilen yeni yöntemin test edilmesi aşamasında altı farklı veri seti üzerinde çalışılmıştır. Tüm veri setleri için “önsel bilgi var olmadığında daha başarılı/sağlam (robust) model tahminleri elde edilebilir mi” sorusuna yanıt aranmıştır. Rassal veri setleri küçük ve büyük örneklem, uç değerlere sahip olan olmayan ve yüksek korelasyona sahip örneklem ayrımında oluşturularak analiz edilmiştir. Analiz sonuçları, literatürde sıklıkla kullanılan R2, Ayarlı R2, MSE ve RMSE uyum iyiliği kriterlerine göre yorumlanmıştır. GENERAL KNOWLEDGE Name and Surname : Özer Depren Field : Econometrics Programme : Statistics Supervisor : Assoc. Prof. Dr. İ. Esen Yıldırım Degree Awarded and Date : Doctorate – March 2014 Keywords : Generalized Maximum Entropy, Support Vector Bounds, Linear Regression SUMMARY MAXIMUM ENTROPY MODELLING IN REGRESSION Least Square and Maximum Likelihood Approaches are frequently used for determining the relationship between dependent and independent variable(s). However, strict assumptions must be met for these approaches. Once some of the assumptions are not meet, alternative methods might be used. One of these alternative methods is Generalized Maximum Entropy Method. In this method, there are fewer assumptions than classical methods. In literature, pure invers problem is pioneered by Jaynes. Golan et. al. developed this model and then suggested a new method named as Generalized Maximum Entropy. With this method, Shannon’s entropy formula is maximized under some constraints and it is assumed there is no prior information about parameters. Golan et. al. re-parameterized coefficient by using support vectors which are known as parameter support matrix to obtain model coefficients as real values. The most important point of this process is to determine appropriate parameter support vector bounds. In this study, the main purpose is to determine support vector bounds which allow obtaining more efficient parameters than classical methods without any prior information. In line with this goal, it is suggested an alternative approach using different dataset. In this new approach which is suggested an alternative method instead of classical methods, six different dataset are used. For all dataset, “could be obtained more robust models without any prior information” is questioned. Small and big, outlier existence and highly correlated dataset are analyzed. All outcomes are interpreted in defiance of R2, Adjusted R2, MSE and RMSE which are frequently used in the literature.