Makine öğrenmesi yöntemleriyle kalp hastalarının sağkalım tahmini
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Kalp hastalıkları, dünya genelinde yaşlanan nüfusla birlikte her geçen gün daha fazla kişiyi etkilemektedir. Bununla birlikte, her yıl yaklaşık 18 milyon insan kalp hastalıklarına bağlı nedenlerle yaşamını yitirmektedir. Bu nedenle kalp hastalığının erken teşhisi ve sağkalımı etkileyen faktörlerin ortaya çıkarılması önemli bir problemdir. Teknolojinin gelişmesiyle birlikte hastaların elektronik sağlık kayıtları toplanıp depolanmakta ve elde edilen veriler makine öğrenmesi yöntemleri ile hastalık teşhisi veya sağkalım tahmini için yaygın olarak kullanılmaktadır. Yapılan çalışma kapsamında kalp hastalarının sağkalımını tahmin etmek için makine öğrenmesi algoritmalarından; Destek Vektör Makinesi, Rastgele Orman, Karar Ağacı, XGBoost, CatBoost ve Lojistik Regresyon kullanılmıştır. Sağkalım tahmin başarısını artırmak için veri dengeleme, özellik seçimi ve normalizasyon yöntemleri tekil ve bütünsel olarak makine öğrenmesi algoritmalarına uygulanmıştır. Ayrıca, deneylerde 5-fold ve 10-fold çapraz doğrulama işlemi kullanılarak doğruluk, kesinlik, duyarlılık ve f1-skor açısından önerilen yöntemlerin ve algoritmaların performans ve çalışma sürelerinin karşılaştırması yapılmıştır. Son olarak veri seti %80 eğitim, %20 test ve %70 eğitim, %30 test olarak bölünmüş ve deneyler tekrar edilmiştir. Elde edilen sonuçlara göre kalp hastalarının sağkalım tahmininde 5-fold çapraz doğrulama ile en yüksek doğruluk başarısına sahip algoritma %86,4649 değeriyle Destek Vektör Makinesi olmuştur. Çapraz doğrulama kullanmadan elde edilen sonuçlara göre %80 eğitim, %20 test işlemi ile en yüksek doğruluk başarısına ulaşan algoritmalar %93,9 değeri ile Rastgele Orman ve CatBoost olmuştur.
Heart disease is affecting more and more people in the ageing population around the world. Nevertheless, about 18 million people die each year from causes related to heart disease. Therefore, early diagnosis of heart disease and revealing the factors affecting survival is an important problem. With the advancement of technology, electronic health records of patients are extracted and stored, and the resulting data is utilized extensively for disease diagnosis or survival prediction using machine learning methods. Within the scope of the study, machine learning algorithms to predict the survival of heart patients; Support Vector Machine, Random Forest, Decision Tree, XGBoost, CatBoost and Logistic Regression are used. Data balancing, feature selection and normalization methods have been applied to machine learning algorithms singly and together to increase the survival prediction success. In addition, the performance and running times of the proposed methods and algorithms were compared in terms of accuracy, precision, sensitivity and f1-score using 5-fold and 10-fold cross validation in the experiments. According to the results obtained, the algorithm with the highest accuracy in predicting the survival of heart patients was the Support Vector Machine with a value of 86.4649%. According to the results obtained without using cross validation, the algorithms that achieved the highest accuracy with 80% training and 20% testing were Random Forest and CatBoost with 93.9%.