一种有效的网页噪声消除的方法
作者:罗成; 李弼程; 张先飞 信息工程大学信息工程学院; 郑州450002
摘要:大多数网页都有如广告、版权、导航链接等噪声,影响Web应用系统的工作质量,因此快速准确地清除网页中的噪声内容是提高Web应用程序性能的关键技术之一。提出了一种网页净化方法,通过用模式树(PT)表示网页的布局结构,根据模式树中节点的信息熵来消除噪声,以达到网页净化的目的。试验将此方法应用于一个SVM分类系统,结果显示通过净化的网页对分类结果的正确率和高效性都有了一定的改进。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社