Nonlineer lojistik regresyon ve uygulaması


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Marmara Üniversitesi, Türkiye

Tezin Onay Tarihi: 2009

Tezin Dili: Türkçe

Öğrenci: Esra Zeynep Şensoy

Eş Danışman: MÜJGAN TEZ, Müjgan Tez

Özet:

NONLİNEER LOJİSTİK REGRESYON VE UYGULAMASI Lojistik Regresyon, bağımsız değişkenlerin bağımlı değişkenler üzerindeki etkisini olasılık olarak ortaya koyar. Risk faktörlerinin olasılık olarak belirlenmesini sağlar. Lojistik Regresyonun amacı, en az değişkeni kullanarak en iyi uyuma sahip olacak şekilde yanıt değişkeni ile bağımsız değişkenler arasındaki ilişkiyi tanımlayabilmek ve amaca yönelik kabul edilebilir model kurmaktır. Lojistik Regresyonda neden sonuç ilişkisinin ortaya konulması amacıyla, bağımlı değişken olumlu-olumsuz, başarılı-başarısız gibi kategorik olarak ikili (binary) kodlanmıştır. Bu yöntem, sayısal verilerle kolay yorumlanabildiği için popülerdir. Bu nedenlerle son zamanlarda epidemiyolojik çalışmalarda, biyolojide, ziraatte, taşımacılıkta, ekonomi gibi alanlarda yaygın bir şekilde kullanılmaktadır. Lojistik Regresyon modelinde lojistik fonksiyonun doğal logaritmasının alınmasıyla elde edilen lojit fonksiyon her zaman doğrusal olmayabilir. Bazen verinin doğrusallığa uygun olmayışından bazen de model denkleminin istenilen sonucu iyi karşılayamamasından kaynaklanan bu durum model denkleminin karesel ya da kübik olarak biçimlendirilmesiyle çözümlenebilir. Bu durumda splayn foksiyonlarla lojistik regresyon çalışılacaktır. Bu çalışmada, lojistik regresyon modelinin kurulması ve analizi başlığı altında parametre tahmin yöntemleri, parametrelerin önem testi açıklanmıştır. Modelde bağımsız değişken sayısının birden fazla olması durumunda ‘Çoklu Lojistik Regresyon Model incelenmiştir. Lojistik regresyon için katsayıların yorumlanması stratejileri açıklanmıştır. Lojistik regresyon fonksiyonu doğrusal olmadığında kullanılabilecek yöntemler hakkında bilgiler verilmiştir. Buna göre çalışmamızda yer alan segmentli fonksiyonlardan bahsedilerek splayn fonksiyonlar açıklanmıştır. Uygulama çalışmamızda, 243 kişilik veri kümesinde hemoglobin kan değeri incelenerek ilgili risk durumu üzerine Doğrusal Olmayan Lojistik Regresyon Modeli kurulmuştur. SAS version 9.1 kullanılarak model analiz edilmiştir. Ayrıca segmentli lojistik regresyona bir başka örnek olacak Mulla’nın albümin çalışması Matlab programına uyarlanarak incelenmiştir. Son olarak her iki uygulama çalışmasının sonuçları, farklı istatistiksel programlarda değerlendirilmiştir. ABSTRACT NONLINEAR LOGISTIC REGRESSION AND ITS APPLICATION Logistic Regression produces effects of independent variables on dependent variables as probability. Risk factors could be determined as probability by Logistic Regression. The aim of Logistic Regression Analysis is to establish the best acceptable model with least variable, which gives the relationship between outcome and independent variables. In Logistic Regression, dependent variable is coded binary as positive-negative, successful-unsuccessful for showing dose-response relationship. This method is popular because of easy interpretation by numerical data. Thus it is commonly used in many fields including business and finance, ecology, health policy, agriculture, biology and transportation. Logit function obtained by computing the natural log of the logistic function in Logistic Regression model can not always be linear. Sometimes data is not available as linear. Sometimes model equation can not satisfy the probable cause. This situation can be analyzed as quadratic or cubic shape. At this stage, logistic regression is studied with spline functions. At this study, the title under building logistic regression models and analysis, parameter estimation method and test of significance of parameters are explained. When model has more than one variable, ‘Multiple Logistic Regression Model’ is investigated. For logistic regression, strategies for interpretation coefficients are explained. The information is given about that the method can be used, when Logistic Regression isn’t linear. According to that, spline functions are explained to talk about segmented functions in our study. In our application work, blood hemoglobin values in the data set of 243 people were examined. The Nonlinear Logistic Regression Model was established based on the risk status. The model is analyzed to use SAS version 9.1. Additionally, Mulla’s albumin study was adapted to Matlab programme as an example of segmented logistic regression. Finally, the results of both application studies are evaluated by different statistical programmes.