基于词向量的维吾尔语词项归一化方法-中国科学院新疆理化技术研究所-优发表

欢迎来到优发表网，发表咨询：400-888-9411 订阅咨询：400-888-1571股权代码(211862)

首页 > 期刊 > 计算机工程 > 基于词向量的维吾尔语词项归一化方法【正文】

基于词向量的维吾尔语词项归一化方法

作者：罗延根; 李晓; 蒋同海; 杨雅婷; 周喜; 王磊中国科学院新疆理化技术研究所; 乌鲁木齐830011; 中国科学院新疆民族语音语言信息处理重点实验室; 乌鲁木齐830011; 中国科学院大学; 北京100049

摘要：使用无监督的方法,将口语文本中的非正规维吾尔语词项归一化到正规文本中意思相近的正规词,基于神经网络,利用大规模语料将维吾尔语单词映射到低维向量空间,对向量空间的非正规词进行聚类。引入一个贪心解码器对非正规词做归一化处理,并进行重采样迭代,从而将之前未能成功归一化的非正规词归一化。实验结果表明,使用该方法对维汉机器翻译的待翻译口语文本进行前编辑后,生成的译文质量有显著提高。该方法给维汉口语文本机器翻译系统提供一个前处理的流程,在缺乏双语口语平行语料的情况下也能有效提高机器翻译系统性能。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

期刊咨询免费咨询杂志订阅