Efektivitas Algoritma Similaritas Semantik Berbasis Jejaring Kata Untuk Mengukur Kemiripan Kalimat Bahasa Indonesia
Abstract
Algoritma similaritas semantik adalah urutan langkah untuk menghitung
kemiripan kalimat atas dasar makna/konsep kata yang menyusun kalimat. Algoritma
similaritas banyak diterapkan misalnya untuk software deteksi plagiasi, pengelompokan
dokumen, dan software penerjemah. Penerapan algoritma similaritas semantik pada teks
bahasa Indonesia belum banyak menunjukkan hasil antara lain karena belum adanya
jejaring kata bahasa Indonesia. Penelitian ini mengupayakan penyusunan jejaring kata
bahasa Indonesia dan melakukan studi “Efektivitas Algoritma Similaritas Semantik
Berbasis Jejaring Kata dalam Mengukur Kemiripan Kalimat Bahasa Indonesia.”
Tujuan dari program penelitian ini pada tahun pertama ada dua. Pertama adalah
membuat sistem basis data kamus bahasa Indonesia yang menyediakan informasi tentang
kata termasuk dalam konteks jejaring kata melalui web service. Kedua adalah membuat
aplikasi yang menerapkan algoritma similaritas semantik berbasis jejaring kata atau
kamus untuk mengukur similaritas kata, frase atau kalimat dalam sebuah kalimat bahasa
Indonesia.
Penelitian pada tahun pertama menghasilkan kamus online bahasa Indonesia yang
dapat memberi informasi tentang kata, definisi kata, dan sinonim. Kamus online semacam
ini sudah tersedia. Kamus yang dihasilkan dalam penelitian ini memberikan informasi
tambahan yang tidak ada pada kamus lain yaitu informasi tentang hiponim dan meronim.
Informasi tentang sinonim dan hiponim merupakan dasar pembentukan jejaring kata.
Pengetahuan tentang kata, sinonim dan hiponim digunakan dalam penelitian ini sebagai
ukuran keterkaitan antar kata. Keterkaitan antar kata digunakan dalam algoritma
similaritas untuk mengukur kemiripan antar kalimat. Penggunaan pengetahuan tentang
sinonim dan hiponim terbukti meningkatkan skor kemiripan antara kalimat yang
mengandung kata berbeda namun mempunyai keterkaitan sebagai sinonim atau hiponim.
Pengujian algoritma dilakukan lebih lanjut dengan menerapkan algoritman pada
proses pengelompokan teks (text clustering). Objek pengelompokan teks diambil dari
ratusan kalimat pendek yang diperoleh dari analisis SWOT (strength weakness
opportunity threat) sebuah lembaga. Pengujian menunjukkan bahwa klustering
berdasarkan kemiripan kalimat yang memanfaatkan pengetahuan sinonim dan hiponim
tidak lebih baik dibanding klustering dengan perhitungan kemiripan kosinus biasa.
Kesimpulan penelitian ini adalah bahwa skor kemiripan kalimat dapat diperbaiki
jika algoritma memperhatikan keterkaitan makna antar kata. Pemanfaatan algoritma
dalam proses klustering tidak memperbaiki hasil pengelompokan kalimat. Tahap
berikutnya yang perlu dilakukan adalah membuat kumpulan dokumen (korpus) sebagai
alat uji standar dari observasi tentang similaritas, menguji algoritma pada proses
klasifikasi dokumen, dan menguji proses klustering pada dokumen dengan jumlah kata
yang bervariasi.