摘要:为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社。
计算机工程杂志, 月刊,本刊重视学术导向,坚持科学性、学术性、先进性、创新性,刊载内容涉及的栏目:特邀论文、专栏、专题、先进计算与数据处理、体系结构与软件技术、移动互联与通信技术、安全技术、人工智能及识别技术、图形图像处理、多媒体技术及应用、开发研究与工程应用等等。于1975年经新闻总署批准的正规刊物。