Pemodelan Topik Dengan Latent Dirichlet Allocation
Abstract
Latent Dirichlet Allocation (LDA), model probabilistik generatif pada sekumpulan data teks (corpus) . LDA adalah model Bayesian Hirarki , di mana sekumpulan data teks dimodelkan sebagai model campuran dari berbagai topik. Dalam kontek pemodelan teks, Pengembangan pemodelan LDA senduru merupakan pengembangan pada model topik sebelumnya yang dikenal sebagai Probabilistic Latent Semantic Analysis (PLSA), PLSA sendiri memiliki suatu keterbatasan dalam menentukan suatu topik dari sekumpulan data teks dikarenakan model PLSA tidak memperhatika urutuan kata sehingga suatu teks dengan jumlah kata yang sama akan bermakna lain jika memperhatikan urutannya. Salah satu pemodelan topik yang memperhatikan urutan dari suatu kata adalah model LDA. Model LDA pada penelitian ini merupakan model LDA yang dikembangkan oleh Blei (2003). Model LDA merupakan model probabistik dari sekumpulan latent (Topik) dari sekumpulan data teks (corpus) atau dikatakan model probabilitas topik yang memberikan representasi eksplisit dari sebuah dokumen. Pada penelitian ini menyajikan teknik inferensi berdasarkan algoritma Gibbs, untuk mengestimasi parameter Bayes dalam pemodelan pengelompokkan dokumen teks.