OPTIMASI ALGORITMA K-NEAREST NEIGHBOR DALAM MENDETEKSI KOMENTAR SPAM BERBAHASA INDONESIA PADA INSTAGRAM MENGGUNAKAN CONVERT NEGATION DAN TF-IDF (TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY) PADA TAHAP PREPROCESSING


Nanang Arif Andriyani , 4611415002 (2019) OPTIMASI ALGORITMA K-NEAREST NEIGHBOR DALAM MENDETEKSI KOMENTAR SPAM BERBAHASA INDONESIA PADA INSTAGRAM MENGGUNAKAN CONVERT NEGATION DAN TF-IDF (TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY) PADA TAHAP PREPROCESSING. Under Graduates thesis, Universitas Negeri Semarang.

[thumbnail of OPTIMASI ALGORITMA K-NEAREST NEIGHBOR DALAM MENDETEKSI KOMENTAR SPAM BERBAHASA INDONESIA PADA INSTAGRAM MENGGUNAKAN CONVERT NEGATION DAN TF-IDF (TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY) PADA TAHAP PREPROCESSING]
Preview
PDF (OPTIMASI ALGORITMA K-NEAREST NEIGHBOR DALAM MENDETEKSI KOMENTAR SPAM BERBAHASA INDONESIA PADA INSTAGRAM MENGGUNAKAN CONVERT NEGATION DAN TF-IDF (TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY) PADA TAHAP PREPROCESSING) - Published Version
Download (449kB) | Preview

Abstract

Indonesia merupakan negara dengan pengguna Instagram terbesar nomor 3 di dunia. Instagram menyediakan ruang bebas dan terbuka dalam berinteraksi, kemudahan dalam mengunggah foto atau video serta dalam berkomentar. Permasalahannya, banyak sekali komentar spam yang ditulis pada Instagram dan sampai saat ini belum ada solusi penyelesaian yang efektif, terutama untuk spam berbahasa Indonesia. Dalam penelitian ini dilakukan pengumpulan dataset komentar Instagram dari 10 akun publik figur Indonesia dengan follower di atas 10 juta sejumlah 500 data, dimana data setelah diolah dapat dimanfaatkan menggunakan aplikasi Instablock untuk memblokir semua username yang terindikasi sebagai spammer. Pada penelitian ini penulis menggunakan metode K-Nearest Neighbor, karena metode ini mudah untuk diimplementasikan, dijalankan dan waktu yang dibutuhkan untuk menjalankan pembelajaran ini relatif cepat serta mudah dimodifikasi. Metode K-Nearest Neighbor memberikan tingkat akurasi yang lebih dapat dipercaya dalam klasifikasi dengan menentukan nilai k yang terbaik. Pada penelitian ini terdiri dari 3 tahapan proses analisis sentimen. Tahap pertama yaitu proses prepocessing yang terdiri dari case folding, cleansing, convert negation, stopword removal, tokenizations dan stemming, Selanjutnya pada tahap kedua yaitu proses perhitungan bobot pada setiap kata menggunakan metode TF-IDF (Term Frequency – Inverse Document Frequency). Tahap terakhir yaitu proses klasifikasi komentar menjadi 2 kategori yaitu spam dan ham menggunakan metode K-Nearest Neighbor. Hasil pengujian komentar Instagram berbahasa Indonesia dari 10 kali percobaan dengan nilai k adalah angka genap mulai dari 2 sampai 20 menggunakan metode K-Nearest Neighbor tanpa Convert Negation dan TF-IDF pada tahap preprocessing menghasilkan rata-rata akurasi sebesar 88,45%. Sedangkan hasil pengujian metode K-Nearest Neighbor menggunakan Convert Negation dan TF-IDF pada tahap preprocessing menghasilkan rata-rata akurasi sebesar 95,75%. Dari hasil penelitian tersebut dapat disimpulkan bahwa penambahan metode Convert Negation dan TF-IDF pada tahap preprocessing dapat meningkatkan akurasi sebesar 7,3%

Item Type: Thesis (Under Graduates)
Uncontrolled Keywords: KNN, Convert Negation, TF-IDF, Komentar Spam.
Subjects: T Technology > Computer Engineering
Fakultas: Fakultas Matematika dan Ilmu Pengetahuan Alam > Ilmu Komputer, S1
Depositing User: Retma IF UPT Perpus
Date Deposited: 16 Apr 2020 20:18
Last Modified: 16 Apr 2020 20:18
URI: http://lib.unnes.ac.id/id/eprint/35827

Actions (login required)

View Item View Item