基于关键词相似度的Web用户挖掘研究与实现
The Study and Implementation of Web User Mining System Based on the Similarity of Words

作者: 刘城霞 :北京邮电大学计算机学院; 吴菲滢 :北京信息科技大学计算机学院;

关键词: 词语相似度关键词集合相似度用户聚类The Similarity of Words The Similarity Between Clients (Keyword Sets) User Clustering

摘要:
Web挖掘极度盛行的今天,收集大量网络数据已经不是问题而如何在海量数据中抽取去噪后的有用数据成为要解决的关键问题。本文研究将网站用户的搜索关键词分析聚类,作为用户的兴趣、爱好标签,以供运营分析人员参考。文中根据世界知识或分类体系计算词语语义距离后转化为词语相似度的方法将词语间距离依据词频、词权重等因子加工计算出关键词集合间相似度矩阵后,用欧式距离表示其关键字集的相似度;之后聚类算法利用现有R软件中开源算法包——基于隐马尔科夫模型的depmix算法包进行的用户聚类算法。最终用某搜索引擎用户的真实数据,经过数据去噪后所得实验数据进行聚类,并于前台展示聚类及用户周边相关结果

Abstract:
Nowadays, as web mining is extremely prevalent, it is easy to collect huge amounts of data but to figure out which materials is useful to analyze after de-noising is more important. This article discusses how to use the result of user’s searching keywords clustering as the label of the client for operational analysts to refer to. The similarity between isolated words is calculated by turning the word semantic distance based on world knowledge or classification system. Then the similarity between clients (keyword sets) is defined as the Euclidean distance of a similarity matrix constituted by the similarities between keyword sets which determined by word frequency and word weight. The “depmix” package which based on the Hidden Markov Model in “R” software is used as the clustering algorithm and the user clustering result is displayed at last using the real data of the users of a search engine.

文章引用: 刘城霞 , 吴菲滢 (2013) 基于关键词相似度的Web用户挖掘研究与实现。 计算机科学与应用, 3, 232-238. doi: 10.12677/CSA.2013.34040

参考文献

[1] 董振东, 董强. 知网[URL], 2003. http://www.keenage.com/zhiwang/c_zhiwang_r.html

[2] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[D]. 北京:中国科学院计算技术研究所, 2002.

[3] 江敏, 肖诗斌, 王弘蔚, 施水才. 一种改进的基于《知网》的词语语义相似度计算[J]. 中文信息学报, 2008, 22(5): 84-89.

[4] 王小林, 王义. 改进的基于知网的词语相似度算法[J]. 计算机应用, 2011, 31(11): 3075-3090.

[5] 杨金柱, 刘金岭. 基于词语上下文的文本分类研究[J]. 计算机技术与发展, 2011, 21(8): 145-149.

[6] 张涛, 杨尔弘. 基于上下文词语同现向量的词语相似度计算[J]. 电脑开发与应用, 2005, 18(3): 41-43.

[7] Y. Yang, J. O. Pedersen. A comparative study on feature selection in text categorization. Proceedings of the 14th International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1997: 412-442.

[8] 金希茜. 基于语义相似度的中文文本相似度算法研究[D]. 浙江工业大学, 2009.

[9] 魏建香, 苏新宁. 基于关键词和摘要相关度的文献聚类研究[D]. 南京大学, 2008.

[10] 张文东, 易轶虎. 基于兴趣相似性的Web用户聚类[J]. 山东大学学报, 2006, 41(3): 45-48.

分享
Top