Efek Penggunaan Keterkaitan Kata pada Algoritma Similaritas Semantik Terhadap Kinerja Proses Klasifikasi Teks dengan K-Nearest Neighbour
Abstract
Klasifikasi teks merupakan proses untuk mengelompokkan dokumen teks ke kelas-kelas yang telah ada. Metode
k-nearest neighbour dapat digunakan dalam proses klasifikasi teks yang mengandalkan hasil perhitungan
similaritas semantik untuk menentukan skor jarak/kedekatan antar dokumen teks. Perhitungan similaritas
dua dokumen tidak hanya dipengaruhi oleh kesamaan kata-kata yang terkandung dalam dokumen, namun
dipengaruhi juga oleh faktor keterkaitan kata di antara kedua dokumen. Tulisan ini membandingkan kinerja
proses klasifikasi yang menerapkan fungsi kosinus tanpa memperhitungkan keterkaitan kata dan fungsi Dice
yang memperhitungkan keterkaitan kata dengan Google bi-gram. Metode klasifikasi yang diuji adalah k-nearest
neighbour. Hasil pengamatan menunjukkan bahwa penambahan faktor Google bi-gram pada fungsi Dice
meningkatkan skor similaritas dua dokumen dan meningkatkan kinerja proses klasifikasi. Algoritma tanpa
penambahan keterkaitan kata menghasilkan nilai F-Measure sebesar 0.648, sedangkan dengan penambahan
faktor keterkaitan kata diperoleh F-Measuer sebesar 0.759.