Klasifikasi Teks untuk Ekstraksi Pasangan Pertanyaan-Jawaban dari Mega-Thread di Forum Online
Abstrak
Forum online dapat dimanfaatkan dalam pengembangan chatbot dengan mengekstraksi pasangan pertanyaan-jawaban (PJ) dari thread. Pasangan PJ ini akan menjadi sumber pengetahuan untuk chatbot. Makalah ini membahas proses ekstraksi otomatis pasangan PJ dari thread berukuran besar (ribuan posting) yang disebut mega-thread. Klasifikasi teks digunakan untuk menentukan pasangan PJ yang valid dan tidak. Dengan menggunakan 1030 data pasangan quote-tanggapan yang tidak seimbang, akurasi model terbaik diperoleh dengan menggunakan teknik klasifikasi SVM (Support Vector Machine) dengan precision, recall dan F1 kelas minoritas PPJ masing-masing sebesar 0.77, 0,46 dan 0.58. Kinerja model klasifikasi masih memiliki potensi ditingkatkan lebih lanjut dengan penambahan fitur-fitur lain.Referensi
Cong G, Wang L, Lin CY, Song YI, Sun Y. Finding question-answer pairs from online forums. InProceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval 2008 Jul 20 (pp. 467-474). ACM.
Ding S, Cong G, Lin CY, Zhu X. Using Conditional Random Fields to Extract Contexts and Answers of Questions from Online Forums. InACL 2008 Jun 15 (Vol. 8, pp. 710-718).
Hong L, Davison BD. A classification-based approach to question answering in discussion boards. InProceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval 2009 Jul 19 (pp. 171-178). ACM.
Buitinck L, Louppe G, Blondel M, Pedregosa F, Mueller A, Grisel O, Niculae V, Prettenhofer P, Gramfort A, Grobler J, Layton R. API design for machine learning software: experiences from the scikit-learn project. arXiv preprint arXiv:1309.0238. 2013 Sep 1.