Aplikasi pendeteksi karakteristik berita hoax menggunakan metode text mining topic modeling
E ra ini merupakan era dimana internet menjadi sarana dalam menjalankan kegiatan sehari-hari, sehingga hal ini menyebabkan makin cepatnya peredaran aliran data dan informasi. Hal ini membuat makin tidak tersaringnya data dan informasi yang masuk, sehingga akibatnya banyak informasi-informasi hoax yang beredar. Riset ini bertujuan untuk membuat sebuah aplikasi berbasis web yang dapat menjadi sarana dalam mendeteksi karakteristik berita hoax dan berita fakta.Pada pembuatan aplikasi ini, data yang dikumpulkan dibedakan menjadi dua buah corpus, yaitu corpus fakta yang terdiri dari 64 dokumen dan corpus hoax yang terdiri dari 55 dokumen. Adapun, analisis yang dilakukan pada penelitian ini menggunakan 4 teknik pra-proses dan 3 jenis analisis. Pra-proses yang digunakan dan dibandingkan dalam riset ini adalah teknik case folding, tokenizing, stopword removal, dan stemming. Sedangkan 3 metode analisis yang digunakan dalam penelitian ini adalah analisis Word Cloud, Social Network Analysis, dan Doc2Vec. Word Cloud digunakan untuk mencari kata yang paling sering digunakan dari masing-masing corpus. Social Network Analysis digunakan untuk mencari kata-kata yang paling dapat mendeskripsikan masing-masing corpus menggunakan analisa centrality. Lalu, Doc2Vec digunakan untuk mencari nilai similarity antar corpus hoax dan fakta.Dari analisa Word Cloud pada corpus hoax didapatkan kesimpulan yaitu kata yang paling sering digunakan dalam corpus ini adalah “pesanâ€. Sedangkan pada corpus fakta, didapatkan kata yang paling sering digunakan adalah kata “Jakarta†“Indonesia†“Golkar†“Jokowi†“Orang†dan “DKIâ€. Pada analisa Social Network pada corpus hoax, didapatkan kesimpulan bahwa kata-kata yang paling dapat mendeskripsikan corpus ini adalah kata “pesan†dan “orangâ€. Lalu, kata yang paling dapat mendeskripsikan corpus fakta adalah kata “Jakarta†dan “Indonesiaâ€. Selanjutnya, pada analisa similarity menggunakan metode Doc2Vec dapat ditarik kesimpulan bahwa berita hoax dan fakta tidak mirip karena memiliki nilai similarity sebesar 0.1224058493971824. Adapun, tahapan pra-proses yang paling berpengaruh dalam penelitian ini adalah tahapan stopword removal.
T his is the time where the internet is used for everything. This fact causes a rapid flow of information and data. Eventually, it makes the information filtering process more obscure, resulting in an enormous spreading of hoax. This research has a purpose in making a web-based application in which can be a tool to detect and distinguish the characteristics of hoax and non-hoax information.The collected data is separated into two corpus. The first one is the non-hoax/facts corpus with 64 documents, and the other one is the hoax corpus with 55 documents. As for, the study which is conducted in this research is using 4 pre-processing techniques (Case folding, Tokenizing, Stopword Removal, Stemming), and 3 analysis methods (Word Cloud Analysis, Social Network Analysis, Doc2Vec or Paragraph Vector Analysis). The Word Cloud Analysis is used to seek the most used word from each of the corpus. Social Network Analysis is used to seek the most representative word of the hoax corpus as well as the non-hoax corpus using centrality analysis. Whereas, Doc2Vec is used to get the similarity value between hoax and non-hoax corpus.In conclusion, from the Word Cloud Analysis viewpoint, the word “pesan†is recognized as the most used word of the hoax corpus, while the words “Jakartaâ€, “Indonesiaâ€, “Golkarâ€, “Jokowiâ€, “Orangâ€, and “DKI†are recognized as the most used words in the non-hoax corpus. And then from the Social Network Analysis viewpoint, the word “pesan†and “orang†are the most representative words of the hoax corpus, while as the word “Jakarta†and “Indonesia†are the most representative for the non-hoax corpus. Furthermore, from the similarity analysis using Doc2Vec method, can be deduced that the hoax and non-hoax information are not similar from their vector representation, because the similarity value between those two corpus is only 0.1224058493971824. As for, the pre-processing technique that has the most impact to the study is the Stopword Removal technique.