Pengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K-Nearest Neighbour

Suwanto Sanjaya, Ersad Alfarsy Absar

Abstract


Text mining dapat didefinisikan sebagai suatu proses menggali informasi oleh seorang user yang berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen- komponen dalam data mining. Dalam text mining dikenal beberapa metode untuk klasifikasi teks, salah satunya adalah K-Nearest Neightbour (KNN). KNN adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Pada penelitian ini akan dilakukan klasifikasi terhadap dokumen teks menggunakan metode KNN berdasarkan winnowing fingerprint. Winnowing adalah algoritma yang biasa digunakan untuk mendeteksi kesamaan isi suatu dokumen teks dengan cara memecah kalimat yang ada pada dokumen teks menjadi beberapa karakter sepanjang k-grams dan menghasilkan output berupa kumpulan nilai hash yang disebut fingerprint. Penelitian ini mencoba untuk menjadikan fingerprint sebagai ciri suatu dokumen teks lalu mengelompokkan dokumen teks berdasarkan ciri tersebut. Proses klasifikasi diawali dengan mengumpulkan dokumen latih yang akan dijadikan sebagai acuan dalam pengelompokan dokumen. Dokumen latih tersebut diproses dengan metode winnowing untuk mendapatkan ciri dari dokumen tersebut. Dokumen uji yang ingin dikelompokkan juga harus melewati proses winnowing, setelah fingerprint didapat maka dilanjutkan dengan proses klasifikasi menggunakan metode KNN. Dari hasil pengujian terhadap 10 dokumen uji didapat nilai akurasi pengelompokan 80%.


Full Text:

PDF

References


Han, J & Kamber, M. 2006. Data Mining Concepts and Techniques. San Fransisco Morgan Kaufmann Publishers.

Priantara, I Wayan Surya., Diana Puspitasari., Umi Laili Yuhana. 2011. Implementasi Deteksi Penjiplakan Dengan Algoritma Winnowing Pada Dokumen Terkelompok. Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh November Surabaya.

Diana, Widia Nur., Achmad Ridok., M. Tanzil Furqon. 2011. Penerapan Algoritma Improved K-Nearest Neighbors Untuk Pengkategorian Dokumen Teks Berita Berbahasa Indonesia. Jurusan Matematika Program Studi Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Brawijaya.

Even,Y. & Zohar. 2002. Introduction to Text Mining. Automated Learning Group National Center For Supercomputing Aplications.

University of Illionis.

Schleimer, Saul., Daniel S. Wilkerson, dan Alex Aiken. 2003. Winnowing : Local Algorithms for Document Fingerprint. San diego: In Proceedings Of The ACM SIGMOD International Conference On Management Of Data.

Kusrini, & Luthfi, Emha. 2009. Algoritma Data Mining. Yogyakarta:Penerbit Andi.

Rifqi, Maharani., Shaufiah. 2011. Analisis dan Implementasi Klasifikasi Data Mining Menggunakan Jaringan Syaraf Tiruan dan Evolution Strategis. Institut Teknologi Telkom Bandung.

Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. United States of America: John Wiley & Sons, Inc.

Xhemali, D., Hinde, C.J. & Stone, R.G. 2009. Naive Bayes vs Decision Trees vs Neural Networks in the Classification of Training

Web Pages. International Journal of Computer Science Issues.




DOI: http://dx.doi.org/10.24014/coreit.v1i2.1229

Refbacks

  • There are currently no refbacks.




Creative Commons License  site stats  
Jurnal CoreIT by http://ejournal.uin-suska.ac.id/index.php/coreit/ is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.