DETAIL KOLEKSI

Perolehan informasi kembali (Information Retrieval/Ir) menggunakan Topic Modelling untuk dataset Tempo


Oleh : Wilda Anggriani

Info Katalog

Penerbit : FTI - Usakti

Kota Terbit : Jakarta

Tahun Terbit : 2019

Pembimbing 1 : Dedy Sugiarto

Subyek : Information storage and retrieval systems

Kata Kunci : topic modelling, natural language processing, doc2vec, information retrieval

Status Posting : Published

Status : Lengkap


File Repositori
No. Nama File Hal. Link
1. 2019_TA_SIF_064001500022_Halaman-Judul.pdf
2. 2019_TA_SIF_064001500022_Lembar-Pengesahan.pdf
3. 2019_TA_SIF_064001500022_Bab-1_Pendahuluan.pdf
4. 2019_TA_SIF_064001500022_Bab-2_Tinjauan-Pustaka.pdf
5. 2019_TA_SIF_064001500022_Bab-3_Metodologi-Penelitian.pdf
6. 2019_TA_SIF_064001500022_Bab-4_Analisis-dan-Pembahasan.pdf
7. 2019_TA_SIF_064001500022_Bab-5_Kesimpulan.pdf
8. 2019_TA_SIF_064001500022_Daftar-Pustaka.pdf 2
9. 2019_TA_SIF_064001500022_Lampiran.pdf

P Pada era tekonologi seperti sekarang ini, banyak teknologi dan informasi yang semakin berkembang. Hadirnya teknologi informasi memudahkan setiap orang dalam mencari informasi. Biasanya orang-orang menggunakan search engine seperti google, yahoo, dan lain sebagainya untuk mencari informasi.Search engine sangat membantu manusia untuk mendapatkan informasi. Biasanya search engine salah satu contoh pencarian informasi kembali (Information Retrieval/IR). Dokumen yang dikeluarkan oleh search engine merupakan dokumen yang relevan berdasarkan permintaan pengguna.Pada penilitian ini, Penulis mengimplementasikan proses IR untuk mencari dokumen relevan berdasarkan kueri yang ada. Hasilnya akan dibandingkan dengan dokumen relevan dari penelitian sebelumnya menggunakan dataset yang sama, yaitu dataset Tempo tahun 2000 sampai 2002. Hal ini dapat mengetahui seberapa jauh kinerja metode yang digunakan penelitian ini berdasarkan penelitian sebelumnya. Metode yang digunakan penelitian ini adalah metode doc2vec.Dari hasil yang didapat menggunakan model doc2vec yaitu semakin kecil epoch pada model doc2vec maka semakin kecil hasil rata-rata persentase kemiripan antara dokumen relevan yang dihasilkan model doc2vec dengan dokumen relevan sebelumnya. Sedangkan hasil rata-rata persentase kemiripan yang model doc2vec berdasarkan vector size yaitu setelah vector size 30 hasilnya adalah di atas 35%. Epoch yang menghasilkan rata-rata persentase tertinggi adalah epoch 25 dari epoch 25, 50, 75, dan 100. Vector size yang menghasilkan rata-rata persentase kemiripan tertinggi adalah vector size 40 dari vector size 10, 20, 30, 40, 50, 60, 70, 80, 90, dan 100. Hasil rata-rata persentase kemiripan tertinggi dihasilkan oleh model doc2vec yang menggunakan epoch 25 dan vector size 40 sebesar 41,930.

I In the era of technology as it is today, many technologies and information are growing. The presence of information technology makes it easy for everyone to find information. Usually people use search engines like Google, Yahoo, etc. to find information.Search engines really help humans to get information. Usually the search engine is one example of information retrieval (Information Retrieval / IR). Documents issued by search engines are relevant documents based on user requests.In this study, the author implemented the IR process to find relevant documents based on existing queries. The results will be compared with relevant documents from previous studies using the same dataset, namely the Tempo dataset from 2000 to 2002. This can find out how far the performance of the method used in this study is based on previous research. The method used in this study is the doc2vec method.From the results obtained using the doc2vec model, the smaller the epoch on the doc2vec model, the smaller the results of the average percentage similarity between the relevant documents produced by the doc2vec model and the relevant documents beforehand. While the results of the percentage similarity average of the doc2vec model are based on the vector size which is after the vector size 30 the result is above 35%. Epoch which produces the highest percentage average is epoch 25 from epoch 25, 50, 75, and 100. Vector size that produces the highest average percentage similarity is vector size 40 from vector size 10, 20, 30, 40, 50, 60, 70, 80, 90, and 100. The highest results of the highest percentage similarity are generated by the doc2vec model that uses epoch 25 and vector size 40 is 41,930.

Bagaimana Anda menilai Koleksi ini ?