摘要:地址解析是地理编码的核心任务之一,而混乱的地址标准、随意的中文地址表达给地址解析带来了极大困难。该文提出一种基于条件随机场的非规范化中文地址解析方法。一方面,综合分析各种非规范化地址要素的类型特征,在现有标注体系基础上设计出一套优化的地址要素分类标注体系,并制定特征模板,然后采用自训练半监督学习与人工标注互补融合的策略,获取大量高质量的已标注语料供模型训练;另一方面,挑选已标注语料训练条件随机场模型,实现对地址要素的自动解析。选取广东省博罗县30 000条地址进行算法验证和解析性能评测。实验表明,与其他语料标注方法相比,该方法在获取有效地址解析的同时,显著降低了标注成本。结果表明,该方法适用于地理编码领域中大规模非规范化中文地址的自动解析。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社