Kayıp veriler ve kayıp veriler için bir çoklu veri atama yöntemi: Propensity skor


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, İktisat Fakültesi, Ekonometri Bölümü, Türkiye

Tezin Onay Tarihi: 2011

Tezin Dili: Türkçe

Öğrenci: ELİF ÇİĞDEM KASPAR

Danışman: DİLEK ALTAŞ

Özet:

Kayıp veriler istatistiğin tüm uygulamalarında karşılaşılan ortak bir problemdir. Kayıp veri problemini giderebilmek için çeşitli çözüm ve veri atama yöntemleri geliştirilmiştir. Propensity Skor Yöntemi ise son yirmi yılda gözleme dayalı çalışmalarda kullanılan önemli bir yöntem olup, özelliği iki karşılaştırılacak grup arasında ortak değişkenlerdeki farklılığı gidererek sistematik hatayı azaltmak ve hatta düzeltebilmektir. Yöntemin bu dengeleme özelliğinden faydalanılarak da Propensity Skor veri atama yöntemi kayıp veri problemini giderebilmek için geliştirilmiştir. Çalışmada Propensity Skor veri atama yöntemleri ile diğer veri atama yöntemlerinin birbirlerine olan üstünlüklerinin incelenmesi amaçlanmıştır. Bu amaçla iki farklı veri setine uygulama yapılmıştır. Birinci uygulamada, Dünya Bankası’ndan elde edilen 2008 yılına ait kayıp gözlemi olmayan 80 ülkenin tarım, ihracat, gayrisafi milli hasıla, gayri safi yurtiçi hasıla ve endüstri değişkenlerinden ve ikinci uygulamada, normal dağılıma uyan 5 değişkenli türetilmiş bir veri setinden faydalanılmıştır. Bu tam veri setlerinden sırasıyla iadesiz ve rassal olarak çeşitli sayılarda birimler silinerek farklı sayıda eksik gözlem içeren örneklemler oluşturulmuş ve kayıp veri setlerinin her birine kayıp veri problemini giderebilmek için; Ortalama, Medyan, EM, Regresyon, Hot-Deck ve Propensity Skor veri atama yöntemleri uygulanmıştır. Bu yöntemlerin etkinliği gerçek veri ile atama yapılmış veri arasındaki farka bakılarak ve veri ataması yapılmış veri setleri ile tam veri setinin ortalamaları ve standart sapmaları karşılaştırılarak değerlendirilmiştir. Ayrıca veri ataması yapılmış veri setlerinin tam veri setine göre değişkenliğinin değişip değişmediğini test etmek için Box-M testi yapılmıştır. Sonuç olarak, Propensity Skor veri atama yöntemlerinin az sayıda kayıp veri içeren veri setlerinde diğer veri atama yöntemlerine göre daha tutarlı sonuçlar verdiği, bunun yanında kayıp veri sayısı arttıkça yöntemlerin üstünlüklerinin değiştiği tespit edilmiştir.ABSTRACT Missing data is a common problem in all applications of statistics. Various solution and imputation methods were developed for dealing with the missing data problem. The Propensity Score is a very important method in observational studies which have been used to balance the covariates, to reduce or even to correct the bias between two groups since last twenty years. Utilizing this balancing feature of the propensity score, Propensity Score imputation method is developed for handling missing data problem. In this study it is aimed to compare the advantages of the imputation methods with each other. For this purpose, the applications were performed in two different data sets. In the first application: non-missing observations of agriculture, exports, gross national product, gross domestic product and industry variables of eighty countries were used, obtained from the data of World Bank 2008. In the second application: a normally distributed and generated data set was used. Data sets having different missing values were evolved from these complete data sets by deleting various numbers of units as respectively, random and without replacement. For each missing data sets; Mean, Median, EM, Regression, Hot-Deck and Propensity Score imputation methods were applied to handle missing data problem. The efficiency of the imputation methods was evaluated by comparing real values with the imputed values and also by comparing the means and the standard deviations of the complete data sets with the the means and the standard deviations of the imputed data sets. Furthermore, Box-M test was applied to see the difference in variability between the imputed data sets and the real data sets. As a result, it was found that Propensity Score imputation methods provided more consistent results than other imputation methods in data sets consisting of small number of missing values. Besides, it was also determined that advantages of the imputation methods differ as the number of missing values increases.