Thứ bảy, 25/08/2018 00:48
Gom nhóm văn bản dựa trên mẫu hữu ích được đánh trọng phổ biến

Trần Thanh Trâm1, Võ Đình Bảy2*

1Trường Đại học Công nghệ thông tin, Đại học Quốc gia TP Hồ Chí Minh

2Khoa Công nghệ thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh

Ngày nhận bài: 26/03/2018; ngày chuyển phản biện: 30/03/2018; ngày nhận phản biện: 22/04/2018; ngày chấp nhận đăng: 27/04/2018

Tóm tắt:

Gom nhóm văn bản là chủ đề quan trọng trong khai thác dữ liệu văn bản, và phương pháp hiệu quả để gom nhóm văn bản là dựa trên mẫu phổ biến. Đã có nhiều thuật toán được phát triển nhằm nâng cao độ chính xác cho bài toán gom nhóm văn bản dựa trên mẫu phổ biến, nhưng lại không quan tâm tới trọng số của từ trong văn bản. Trong bài báo này, các tác giả đề xuất một phương pháp mới để gom nhóm văn bản dựa vào mẫu hữu ích được đánh trọng phổ biến thông qua việc sử dụng TF (Term Frequency) cho mỗi từ trong văn bản. Trọng số của từ trên toàn bộ tập văn bản được tính dựa vào IDF (Inverse Document Frequency), sau đó sử dụng thuật toán MWIT-FWUI để khai thác các mẫu hữu ích phổ biến. Tiếp theo, tiến hành gom nhóm văn bản bằng thuật toán MC (Maximum Capturing). Kết quả thử nghiệm trên kho ngữ liệu gồm 1.600 văn bản (16 chủ đề) cho thấy, phương pháp mới đã cải thiện đáng kể độ chính xác của việc gom nhóm văn bản so với phương pháp dựa vào mẫu phổ biến.

Từ khóa:

Cơ sở dữ liệu số lượng, gom nhóm văn bản, mẫu hữu ích được đánh trọng phổ biến, mẫu phổ biến, trọng số của từ.

Text clustering using frequent weighted utility itemsets

Thanh Tram Tran1, Dinh Bay Vo2*

1University of Information Technology, Vietnam National University Ho Chi Minh City

2Faculty of Information Technology, Ho Chi Minh City University of Technology

Received: 26 March 2018; accepted: 27 April 2018


Text clustering is one of the important topics of the text mining. One of the most effective methods for text clustering is the frequent itemsets based approach. There are many frequent itemsets based algorithms to improve the accuracy of text clustering. However, these algorithms do not focus on the weight of terms in documents. In fact, the frequency of each term in each document has a great impact on results. In this paper, we propose a new method for text clustering based on frequent weighted utility itemsets. First, we calculate TF (Term Frequency) for each term in documents to create a number matrix for the documents. The weights of terms in the documents is based on the IDF (Inverse Document Frequency). Next, we use MWIT-FWUI algorithm for mining frequent weighted utility itemsets from a number matrix and the weight of terms in the documents. Finally, based on frequent utility itemsets, we cluster text using MC (Maximum Capturing) algorithm. We have tested this method on a corpus consisting of 1,600 documents including 16 different topics. Experimental results have shown that our method significantly improves the accuracy of the text clustering compared with the clustering method using frequent itemsets.


frequent itemsets, frequent weighted utility itemsets, quantitative databases, text clustering, weight of terms.

