Kısa metinlerde makine öğrenmesi yöntemleriyle yüksek performanslı dil tanıma
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Dil tanıma doğal dil işlemede öne çıkan çalışma başlıklarından birisidir. Bugüne kadar manuel, otomatik ya da yarı otomatik yöntemlerle yerine getirilmiştir. Son dönemde artan metin boyutları ve miktarı nedeniyle makine öğrenmesi tabanlı dil tanıma çalışmalarında bir artış meydana gelmiştir. Özellikle sosyal medya üzerinde paylaşılan metinler gibi kısa boyutlu metinlerde dil tanıma her geçen gün daha fazla önem kazanan bir konudur. Bu çalışmada beş farklı makine öğrenmesi algoritması Python programlama dili imkânları ile çalıştırılmıştır. Dil tanıma verisi olarak Hugging Face tarafından oluşturulan Papluca veri seti kullanılmıştır. Veri setinde yer alan 20 farklı dile ait örnekler kısa boyutlu metinlerden meydana gelmektedir. Dil tanımada en yüksek doğruluğu %97,0 ile Lojistik Regresyon algoritması vermiştir. Lojistik regresyon algoritmasını Karar Ağacı algoritması takip etmiştir. Elde edilen en düşük sınıflandırma doğruluğunu %47,0 ile Tf-idf vektörize yöntemini kullanan K-En Yakın Komşu algoritması vermiştir. Yapılan çalışmalardan elde edilen en değerli bulgu; dil tanıma doğruluklarına dilin kendisinin, kullanılan makine öğrenmesi algoritmalarının ve kullanılan vektörize yönteminin etki etmesidir. Çalışmamız dil tanıma alanında çalışacaklara yardımcı olacak içerikte hazırlanmıştır. Anahtar kelimeler: Dil tanıma, makine öğrenmesi, sınıflandırma, metin sınıflandırma
Language recognition is one of the prominent research topics in natural language processing. To date, it has been carried out by manual, automatic or semi-automatic methods. Recently, there has been an increase in machine learning-based language recognition studies due to increasing text sizes and amounts. Language recognition is an issue that becomes more important every day, especially in short-sized texts such as texts shared on social media. In this study, five different machine learning algorithms were run with Python programming language facilities. The Papuan dataset created by Hugging Face was used as language recognition data. The samples from 20 different languages in the data set consist of short-sized texts. The Logistic Regression algorithm gave the highest accuracy in language recognition with 97.0%. The logistic regression algorithm was followed by the Decision Tree algorithm. The K-Nearest Neighbor algorithm using the Tf-idf vectorized method gave the lowest classification accuracy of 47.0%. The most valuable finding obtained from the studies; The language recognition accuracy is affected by the language itself, the machine learning algorithms used, and the vectorization method used. Our study has been prepared with content that will help those working in the field of language recognition. Keywords: Language identification, machine learning, classification, text classification