Deteksi Tingkat Keparahan Ujaran Kebencian Menggunakan Bi-LSTM pada Teks Bahasa Indonesia
Abstract
Ujaran kebencian di media sosial merupakan fenomena yang semakin mengkhawatirkan,
terutama di Indonesia yang memiliki keragaman suku, agama, ras, dan antargolongan. Identifikasi
tingkat keparahan ujaran kebencian (weak, moderate, strong) sangat penting untuk menangani
potensi konflik secara efektif dan proporsional. Penanganan yang tepat pada setiap level dapat
mencegah eskalasi konflik dan tindak kekerasan, serta membantu dalam moderasi konten yang
lebih akurat di platform media sosial. Pendekatan yang lebih rinci ini memberikan dasar yang
lebih kuat bagi pembuat kebijakan dan penegak hukum dalam menanggapi ancaman berdasarkan
tingkat keparahannya.
Penelitian ini menggunakan dataset berbahasa Indonesia yang terdiri dari 13.169 entri
dengan anotasi untuk 12 label, yang kemudian difokuskan pada tiga label tingkat keparahan
ujaran kebencian dan satu label baru untuk konten bersih. Data tidak seimbang diatasi melalui
oversampling, menghasilkan 30.432 entri yang seimbang. Proses pra-pemrosesan mencakup case
folding, pembersihan data, stemming, dan tokenisasi. Model BiLSTM dibangun menggunakan
TensorFlow dengan tujuh lapisan, termasuk embedding, BiLSTM, dan dense layers.
Hyperparameter tuning dilakukan untuk menentukan konfigurasi terbaik, yang ditemukan pada
30 epochs, 20 unit BiLSTM, dan batch size 128. Model mencapai akurasi keseluruhan 93,14%,
dengan performa terbaik pada kategori strong hate speech (precision 99,35%, recall 100%, F1-
score 99,67%).
Model yang dihasilkan memiliki potensi aplikasi praktis dalam moderasi konten di platform
media sosial dan mendukung penegakan hukum dalam memantau ujaran kebencian. Disarankan
untuk penelitian selanjutnya, eksplorasi dilakukan terhadap potensi penerapan model ini di
platform web atau seluler untuk analisis real-time. Ini akan meningkatkan kapasitas deteksi dan
mitigasi ujaran kebencian secara langsung.
Kata Kunci: ujaran kebencian, twitter, Bi-LSTM, multi label, moderasi konten