摘要:地址解析是地理编码的核心任务之一,而混乱的地址标准、随意的中文地址表达给地址解析带来了极大困难。该文提出一种基于条件随机场的非规范化中文地址解析方法。一方面,综合分析各种非规范化地址要素的类型特征,在现有标注体系基础上设计出一套优化的地址要素分类标注体系,并制定特征模板,然后采用自训练半监督学习与人工标注互补融合的策略,获取大量高质量的已标注语料供模型训练;另一方面,挑选已标注语料训练条件随机场模型,实现对地址要素的自动解析。选取广东省博罗县30 000条地址进行算法验证和解析性能评测。实验表明,与其他语料标注方法相比,该方法在获取有效地址解析的同时,显著降低了标注成本。结果表明,该方法适用于地理编码领域中大规模非规范化中文地址的自动解析。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社。
地理与地理信息科学杂志, 双月刊,本刊重视学术导向,坚持科学性、学术性、先进性、创新性,刊载内容涉及的栏目:地理信息系统理论与方法、遥感科学及其应用、空间信息技术综合应用、自然地理与国土资源、经济地理与旅游环境等。于1985年经新闻总署批准的正规刊物。