Deteksi Ujaran Kebencian dengan Metode Klasifikasi Naïve Bayes dan Metode N-Gram pada Dataset Multi-Label Twitter Berbahasa Indonesia
DOI:
https://doi.org/10.36423/index.v4i2.894Keywords:
Ujaran Kebencian, Tingkat Ancaman, Naïve Bayes, N-Gram, Multi-LabelAbstract
Ujaran kebencian adalah ungkapan atau bahasa yang digunakan untuk mengekspresikan kebencian terhadap seseorang atau sekelompok orang. Ujaran kebencian juga memiliki tingkatan ancaman, semakin tinggi tingkat ancaman ujaran kebencian maka akan semakin luas dan cepat penyebarannya sehingga dapat menimbulkan konflik antar individu sampai konflik antar kelompok. Untuk dapat mendeteksi dan mengklasifikasikan ujaran kebencian sekaligus tingkat ancamannya dalam penelitian ini digunakan dataset multi-label dari penelitian sebelumnya dengan menggunakan label yang masuk kedalam topik ujaran kebencian dan tingkat ancaman dengan total sebanyak 4 label. Dalam menyelesaikan permasalahan multi-label tersebut digunakan metode Naïve Bayes sebagai metode klasifikasi dan metode Label Power-set sebagai metode transformasi data, dalam penelitian ini juga digunakan pembobotan TF-IDF sekaligus melakukan beberapa skenario penelitian berdasarkan metode ekstraksi fitur n-gram. Hasil terbaik yang didapatkan berdasarkan hasil evaluasi F-score adalah sebesar 64,957% ketika menggunakan kombinasi metode ekstraksi fitur word unigram, word bigram dan character quadgram. Dari penelitian ini juga didapatkan bahwa semakin banyak fitur yang digunakan maka semakin baik nilai hasil evaluasinya terhadap jenis dataset yang digunakan.
References
A. Tontodimamma, E. Nissi, A. Sarra, and L. Fontanella, “Thirty years of research into hate speech: topics of interest and their evolution,” Scientometrics, vol. 126, no. 1, pp. 157–179, 2021, doi: 10.1007/s11192-020-03737-6.
N. Chetty and S. Alathur, “Hate Speech Review in the Context of Online Social Networks,” Aggress. Violent Behav., vol. 40, pp. 108–118, 2018, doi: 10.1016/j.avb.2018.05.003.
M. O. Ibrohim and I. Budi, “Multi-label Hate Speech and Abusive Language Detection in Indonesian Twitter,” pp. 46–57, 2019, doi: 10.18653/v1/w19-3506.
I. Alfina, R. Mulia, M. I. Fanany, and Y. Ekanata, “Hate Speech Detection in the Indonesian Language: A Dataset and Preliminary Study,” in 2017 International Conference on Advanced Computer Science and Information Systems (ICACSIS), Oct. 2017, vol. 2018-Janua, no. October, pp. 233–238, doi: 10.1109/ICACSIS.2017.8355039.
M. Hakiem, M. A. Fauzi, and Indriati, “Klasifikasi Ujaran Kebencian pada Twitter Menggunakan Metode Naïve Bayes Berbasis N-Gram Dengan Seleksi Fitur Information Gain,” J. Pengemb. Teknol. Inf. dan Ilmu Komput., vol. 3, no. 3, pp. 2443–2451, 2019, [Online]. Available: http://j-ptiik.ub.ac.id/index.php/j-ptiik/article/view/4682.
O. Oriola and E. Kotze, “Evaluating Machine Learning Techniques for Detecting Offensive and Hate Speech in South African Tweets,” IEEE Access, vol. 8, pp. 21496–21509, 2020, doi: 10.1109/ACCESS.2020.2968173.
H. Watanabe, M. Bouazizi, and T. Ohtsuki, “Hate Speech on Twitter: A Pragmatic Approach to Collect Hateful and Offensive Expressions and Perform Hate Speech Detection,” IEEE Access, vol. 6, no. c, pp. 13825–13835, 2018, doi: 10.1109/ACCESS.2018.2806394.
M. O. Ibrohim and I. Budi, “A Dataset and Preliminaries Study for Abusive Language Detection in Indonesian Social Media,” Procedia Comput. Sci., vol. 135, pp. 222–229, 2018, doi: 10.1016/j.procs.2018.08.169.
F. Del Vigna, A. Cimino, F. Dell’Orletta, M. Petrocchi, and M. Tesconi, “Hate me, hate me not: Hate speech detection on Facebook,” CEUR Workshop Proc., vol. 1816, no. January, pp. 86–95, 2017.
F. A. Prabowo, M. O. Ibrohim, and I. Budi, “Hierarchical multi-label classification to identify hate speech and abusive language on Indonesian twitter,” 2019 6th Int. Conf. Inf. Technol. Comput. Electr. Eng. ICITACEE 2019, pp. 1–5, 2019, doi: 10.1109/ICITACEE.2019.8904425.
M. A. Fauzi and A. Yuniarti, “Ensemble Method for Indonesian Twitter Hate Speech Detection,” Indones. J. Electr. Eng. Comput. Sci., vol. 11, no. 1, p. 294, Jul. 2018, doi: 10.11591/ijeecs.v11.i1.pp294-299.
F. Herrera, F. Charte, A. J. Rivera, and M. J. Del Jesus, Multilabel Classification: Problem Analysis, Metrics and Techniques. 2016.
S. Khomsah and A. S. Aribowo, “Model Text-Preprocessing Komentar Youtube Dalam Bahasa Indonesia,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 1, no. 10, pp. 648–654, 2021, doi: 10.13140/RG.2.2.32319.74403.
S. Mujilahwati, “Pre-Processing Text Mining Pada Data Twitter,” Semin. Nas. Teknol. Inf. dan Komun., vol. 2016, no. Sentika, pp. 2089–9815, 2016.
X. Tian and W. Tong, “An improvement to TF: Term distribution based term weight algorithm,” NSWCTC 2010 - 2nd Int. Conf. Networks Secur. Wirel. Commun. Trust. Comput., vol. 1, no. March 2011, pp. 252–255, 2011, doi: 10.1109/NSWCTC.2010.66.
S. Agarwal, Data mining: Data mining concepts and techniques. 2014.
A. Rahman and A. Doewes, “Online News Classification Using Multinomial Naive Bayes,” ITSMART J. Ilm. Teknol. dan Inf., vol. 6, no. 1, pp. 32–38, 2017.
Downloads
Published
Issue
Section
License
Copyright (c) 2022 Rija Muhamad Yazid, Fajri Rakhmat Umbara, Puspita Nurul Sabrina
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.