基于语义的文本数据流概念漂移检测算法-合肥工业大学计算机与信息学院-优发表

欢迎来到优发表网，发表咨询：400-888-9411 订阅咨询：400-888-1571股权代码(211862)

首页 > 期刊 > 计算机工程 > 基于语义的文本数据流概念漂移检测算法【正文】

基于语义的文本数据流概念漂移检测算法

作者：储光; 胡学钢; 张玉红合肥工业大学计算机与信息学院; 合肥230009

摘要：文本数据流中概念的频繁漂移导致有效信息不足,从而使得漂移检测和数据流分类准确率下降。针对该问题,引入潜在狄利克雷分布模型并考虑文本数据流隐含的语义信息,提出一种新的概念漂移检测算法。计算相邻模块中词和主题特征空间的语义相似度,其中主题的相似度根据主题-单词概率分布进行评估,当2个特征空间相似度都较低时判断为发生概念漂移。实验结果表明,与DDM、CDRDT、DWCDS、HDDM-W-Test和REDLLA算法相比,该算法对文本数据流中概念漂移的检测性能均有所提升,尤其在概念频繁漂移时可以显著减少漏检数量。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

期刊咨询免费咨询杂志订阅