İstatistiksel uygulamalarda lojistik regresyon analizi

Ersan Ürük

İstatistiksel uygulamalarda lojistik regresyon analizi

Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2007

Tezin Dili: Türkçe

Öğrenci: Ersan Ürük

Danışman: MÜJGAN TEZ

Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu

Özet:

İSTATİSTİKSEL UYGULAMALARDA LOJİSTİK REGRESYON ANALİZİ Lojistik Regresyon, bağımsız değişkenlerin sonuç değişkenler üzerindeki etkilerini olasılık olarak hesaplar ve bu risk faktörlerinin olasılık olarak belirlenmesini sağlar. Lojistik Regresyon, sonuç değişkeninin ikili ve çoklu aşamalarda bağımsız değişkenlerle aralarındaki ilişkiyi sorgulayan bir yöntemdir. Farklı alanlarda karşılaşılan problemleri sayısal verilere dayandırarak problemin çözümü ya da yorumu için istatistiksel analizler yapılmaktadır. Bu analizler sonucunda problemle ilgili bazı modeller kurulmaktadır. Lojistik Regresyon Analizi, bu modelin kurulması aşamasında problemin verilerine göre alternatif bir yöntemdir. Sıkça kullanılan ve tercih edilen bu yöntem için belli nedenler vardır. Bu nedenlerin neler olduğu konusuna çalışmada değinilmiştir. “ İstatistiksel Uygulamalarda Lojistik Regresyon Analizi ” adlı bu çalışma altı bölümden oluşmaktadır. Birinci bölümde, lojistik regresyon model hakkında genel bilgiler ve amaçlara yer verilmiştir. Ayrıca lojistik regresyonun, lineer regresyon ile arasında ilişki kurarak lojistik regresyonun neden tercih edildiği ve kullanım alanları ile tarihsel gelişiminden sözedilmiştir. İkinci bölümde, lojistik regresyon analizinde parametre tahmin yöntemleri olan En Çok Olabilirlik, Yeniden Ağırlıklandırılmış İteratif En Küçük Kareler Yöntemi, Minimum Logit Ki-Kare yöntemi ve işlenişleri hakkında bilgiler verilmiştir. Ayrıca seçilen parametrenin anlamlılığı bakımından önem testlerinden bahsedilmiştir. Model bir değişkenden daha fazla değişken içermesi durumunda “Çoklu Lojistik Regresyon Modelden” söz edilmiş, bu modelin uydurulması ve önem testinden bahsedilmiştir. Ayrıca Lojistik Regresyonda çoklu iç ilişkinin ne olduğu, nasıl saptandığı ve bunun sonucunda neler yapılabileceğinden sözedilmiştir. Üçüncü bölümde, Lojistik Regresyon Modelin katsayılarının yorumlanmasında kullanılan faktörlerden; bağımsız değişkenler, çok değişkenli durum, etki ve etki karışımı, etkileşimin varlığında odds-oranlarının kestirimine yer verilmiştir. Bunlardan bağımsız değişkenleri, iki sonuçlu, çok sonuçlu ve sürekli olmak üzere alt başlıklar halinde tanımları ve amaçlarıyla ilgili bilgiler verilmiştir. Çok değişkenli durumun ne olduğu ve nasıl işlendiğiyle ilgili bir örneğe yer verilmiştir. Ayrıca modeldeki kestirilen katsayıların etkileşimden ve etki karışımından nasıl etkilendiğinden sözedilmiş ve son olarak ta etkileşim olduğunda, odds oranı kestiriminin onunla etkileşime giren değişkenin değerine bağlı olduğundan, odds oranının varyansının kestirimi ve odds-oranlarının güven aralığının başlangıç ve bitiş noktalarına değinilmiştir. Dördüncü bölümde, modelin uyumunun belirlenmesinde uyum iyiliği testinin, kurulan modelin kalitesi hakkında bizi bilgilendirdiğine yer verilmiştir. Uyumun belirlenmesi için kullanılan bazı istatistikler; İlk-ki kare istatistiği, -2LogL istatistiği, model Ki-Kare istatistiği ve blok Ki-Kare istatistikleri hakkında bilgiler verilmiştir. Ayrıca Lojistik Regresyonda modellerin karşılaştırılması için, “ Cox ve Snell ” ve “ Nagelkerke ” istatistiklerinden söz edilmiştir. Modeldeki değişken seçimi için üç farklı yöntem anlatılmıştır. Bunlar, ileriye doğru seçim, geriye doğru seçim ve adım adım seçim şeklindedir. Son olarak modellerin değerlendirilmesinde, gerçek olasılıklar ile tahmin edilen olasılıklar arasındaki standart farklara bakılmasından dolayı lojistik regresyonda hesaplanabilen hatalardan, uzaklık ve bazı değerlerden sözedilmiştir. Beşinci bölümde, bir yoğun bakım ünitesinin, hastaların yaşamları ile ilgili bir çalışmadan veri kümesi ele alınmıştır. Bu uygulamada 20 farklı değişken ve 200 denek kullanılmıştır. Bu uygulamada model kurmak ve uygunluğunun değerlendirilmesi için her üç değişken seçimi yöntemi kullanılarak üç farklı model oluşturulmuştur. Ayrıca bu uygulama çalışmasında kullanılan veriler SPPS 13.0 versiyonunda hesaplanmıştır. Altıncı bölümde, sonuç olarak modellerin karşılaştırılması neticesinde hangi yöntemin daha uygun olduğundan söz edilmiştir. Ayrıca uygun modelden etkili olan değişkenlerin her birinin ayrı ayrı çıkartılarak odds-oranı baz alınarak, ölüm riski hakkında yorumlar yapılmıştır. ABSTRACT LOGISTIC REGRESSION ANALYSIS IN STATISTICAL APPLICATIONS Logistic regression, calculates the effects of independent variables on result variables as probabilities, therefore risk factors could be determined as probabilities. Logistic regression is a method that examines relationship between result variables and bivariate or multivariates. Statistical analyses based on numerical data and used for solving and interpretation of problems in different applications . By these analyses some models related to the problem built. Logistic regression analysis is a alternative of some methods based on data of problem in modelling. There are some reasons for using this popular method. This study, "Logistic Regression Analysis in Statistical Applications", consists of six chapters, explains these reasons. In first chapter, purpose and general informations about logistic regression models are given. Historical development and applications of logistic regression is briefly stated. Furthermore, popularity of logistic regression is discussed by building relationship between logistic regression and linear regression. In second chapter, parameter estimation methods, Maximum Likelihood, Re-Weighted Iterative Least Squares Method and Minimum Logit Chi-Square methods are examined. Moreover, importance tests based on significance of chosen variables are discussed. When model has more than one variables, fitting and importance tests of Multiple Logistic Regression is discussed. Furthermore, multicollinearity is introduced. At third chapter, factors used in interpreting coefficients which are independent variables, multi-variable case, interaction and confounding, estimation of odds-ratios in presence of interaction are discussed. Independent variables is explained in two resulted, multi resulted and continuous headlines. An example explains multivariable case is given. Interaction of estimated coefficients and how estimated coefficients affected from confounding are discussed. In case of interaction, it is stated that odds ratio estimation is related to interacted coefficient. At last, estimation of variance of odds-ratio and odds-ratio’s interval of confidence are discussed. In chapter four, information given by quality of model based on goodness of fit test is discussed. Some statistics used to determine fitness as, First Chi-Square Statistics, -2LogL Statistics, Model Chi-Square Statistics and Block Chi-Square Statistics are discussed. Moreover “ Cox ve Snell ” and“ Nagelkerke " statistics which are used for comparing models in Logistic Regression are introduced. Three methods used for choosing variables in models; Forward Stepwise, Backward Stepwise and Enter tests are expressed. Finally, in evaluating models, distance and some values which can be calculated in logistic regressions are discussed since standart errors between real probabilities and estimated probabilities are important. In fifth chapter, a data set about life time of patients in a emergency unit is examined. In the example 20 different variables and 200 subjects are used.Three models formed for modelling and testing of fitness by using three different variable choosing method. Data set is calculated with SPSS 13.0 software. In sixth and last chapter, determining the appropriate model is discussed. Moreover, comments made about death rate based on odds-rate by removing effective coefficients in appropriate model one by one.