欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

自动识别技术论文(合集7篇)

时间:2022-09-17 23:33:10
自动识别技术论文

自动识别技术论文第1篇

我从事计算语言学教学和研究已经50多年,在这半个多世纪的漫长岁月中,针对计算语言学的跨学科性质,我在北京大学学习过语言学,在中国科学技术大学研究生院学习过信息科学,在法国格勒诺布尔理科医科大学学习过数学,前后花了将近20年的时间更新自己的知识,成为跨学科背景的计算语言学家。现在我们已经进入了信息网络时代,以自然语言信息处理作为研究目标的计算语言学正越来越受到语言学家的关注。然而,由于大多数语言学家仅具有文科背景,他们对于计算语言学中涉及的数学知识和计算机知识了解不多,尽管他们怀着关注计算语言学的强烈愿望,可是一旦看到计算语言学的专业文献、接触到其中的数学和计算机方面的问题,往往望而生畏,敬而远之。他们精研通达的语言学知识,难以与数学知识和计算机知识融会贯通起来,这是十分可惜的!

我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。

2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。

2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。2009年9月,《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事!

本书由Ruslan Mitkov教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联、浑然一体、可读性强。《牛津计算语言学手册》内容丰富、深入浅出,全面地反映了国外计算语言学的最新成果,是我们了解国外计算语言学发展动向的一个窗口,正好满足了我国语言学界学习和了解国外计算语言学的研究成果和最新动态的要求。

本书主编Ruslan Mitkov是计算语言学家及语言工程专家,毕业于德国德累斯顿大学(Dresden University),现为英国伍尔弗汉普顿大学(University of Wolverhampton)教授。他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002年出版过名为《回指消解》(Anaphora Resolution)的专著。著名计算语言学家Martin Kay(马丁?凯伊)为本书作序。Martin Kay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。

二、内容简介

本书内容分三大部分:1.与计算语言学有关的语言学基础理论(1~9章);2.计算语言学中自然语言的处理、方法与资源(10~26章);3.计算语言学的应用(27~38章),几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表,每个术语均有简要的定义和解释,便于读者查询。下面分别介绍各章的内容。

第1章“音系学”(phonology)介绍了描写音系学和计算音系学的基本知识,着重介绍了非线性音系学中的有限状态模型、音位的特征-值矩阵描述方法以及音系学研究中的计算工具。

第2章“形态学”(morphology)介绍了诸如语素、词、屈折、派生等形态学的基本知识,分析了形态学对于音系学的影响,着重介绍计算形态学中的有限状态分析方法,并介绍了双层形态学和双层规则的形式化描述方法。最后介绍了结构段形态学。

第3章“词典学”(lexicography)首先简要地回顾了词典学的发展历史,接着讨论了人编词典在计算机应用中的不足,说明了计算词典学对于传统的词典编纂技术提出的挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用;说明了计算技术改变了词典编纂工作的面貌,为新型词典的编纂提供了有力的技术手段。本章强调指出,计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。

第4章“句法学”(syntax)首先列举了一些有趣的句法现象,分析了这些现象在计算上的意义,接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法(功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR语法)。最后,介绍了两种在语言学和计算上有意义的句法框架(广义短语结构语法、树邻接语法)。

第5章“语义学”(semantics)集中介绍了计算语义学的基本内容。首先讨论语义的表示问题,介绍了语义的高阶逻辑(higher-order-logic)表示法和语义的特征值矩阵(Attribute-Value Matrix)表示法。其次讨论句法语义接口,介绍了“并行对应模型”(Parallel Correspondence Model,简称PCM);针对 Frege的“组成性原则”(principle of compositionality),介绍了“非组成性的语义学”。最后介绍了语义解释的动态模型。

第6章“话语”(discourse)首先列举了一些话语平面的现象,阐明“话语”研究的对象是句子之间的关联问题,计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示(referring expressions)和话语结构(discourse structure),说明参照表示的工作原理和参照表示的选择方法,并讨论主题(theme)与述题(rheme)、话题(topic)与焦点(focus),以及预设(presupposition)、蕴含(implicature)等问题。最后讨论“话语树”(discourse tree),介绍了“修辞结构理论”(rhetorical structure theory)和“中心理论”(centering theory)。

第7章“语用学和对话”(pragmatics and dialogue)讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为(speech act)、言外语力(illocutionary force)、合作原则(cooperative principle,简称CP)、关联(relevance)等语用学的基本概念,并且介绍了意图(intention)、信念(belief)、知识(knowledge)和推论(inference)等与概念表达有关的问题。着重讨论了计算语用学中的对话模型(dialogue model),说明了从话语行为到对话行为的计算机制,并介绍了对话的管理模型(dialogue management models)。

第8章“形式语法与形式语言”(formal grammars and languages)介绍形式语言理论的基本知识,分别论述了形式语法和自动机,把形式语法看成是语言的生成装置,把自动机看成语言的识别装置。为了便于文科背景的读者理解本章的内容,对于一些基本概念都给出了定义和实例;为了避免抽象的数学推理,对于一些基本的结论不在数学上加以证明。首先介绍了Chomsky的形式语法,给出了形式语法的Chomsky分类,分别讨论了上下文无关语言(context-free languages)、线性和正则语言(linear and regular languages)、半线性语言(semilinear languages)、上下文有关语言(context-sensitive languages)、柔性上下文有关语言(mildly context-sensitive languages)。接着介绍自动机理论,分别讨论了有限自动机(finite automata)、下推自动机(pushdown automata)、线性有界自动机(linear bounded automata)、图灵机(Turing machine)。

第9章“计算复杂性”(complexity)介绍自然语言处理中的计算复杂性问题。首先介绍计算复杂性的度量方法和计算复杂性的类别,分别讨论了多项式算法(Polynomial algorithm,简称P)和非确定多项式算法(Nondeterministic Polynomial algorithm,简称NP),并介绍了自然语言处理中关于“NP完全问题”(NP-complete problem)的一些研究。接着讨论正则语言问题的计算复杂性,介绍了确定性(determinism)和非确定性(non-determinism)的概念、线性(linearity)和有限状态特性(finite-stateness)的概念,说明了有限状态方法的可应用性。然后讨论上下文无关语言的计算复杂性,介绍了基于搜索的上下文无关识别(search-based context-free recognition)、自顶向下识别(top-down recognition)、线性时间与空间中的确定性语法识别(deterministic grammar recognition in linear time and space)。最后讨论了概率语法和启发式搜索、并行处理和实际效用等问题,说明计算复杂性分析在理解自然语言的复杂性以及在建立实际的自然语言处理系统中的用途。

第10章“文本切分”(text segmentation)介绍两方面的内容:一方面是“词例还原”(tokenization),一方面是“句子分离”(sentence splitting)。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来,以便进行进一步处理。本章分别介绍了单词自动切分、缩写切分(例如:“Mr.,Dr.,kg.”中的小黑点)、连字符处理(例如:“self-asessment,forty-two,F-16”中的连字符)的技术,并且讨论了汉语和日语等东方语言中有关“词例还原”(也就是“切词”)的特殊问题。句子分离的目标是把文本中的句子分离出来,在很多自然语言处理系统中,都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。

第11章“词类标注”(part-of-speech tagging)介绍了词类标注器(POS tagger)的设计技术以及兼类词的排歧(disambiguation)方法。简要回顾了词类标注发展的历史,介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型(Hidden Markov Models)的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器,重点介绍了手工排歧语法(handwritten disambiguation grammars)。

第12章“句法剖析”(parsing)介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同,有浅层的句法剖析(shallow parsing),也有深层的句法剖析(deep parsing)。本章首先介绍了浅层句法剖析,这种剖析只要把句子剖析为语块(chunks)就可以了。之后,介绍了依存剖析(dependency parsing)。在介绍上下文无关剖析(context-free parsing)时,比较详细地讨论了CYK算法、自底向上剖析、左角分析法、自底向上的活性线图分析法(bottom-up active chart)。在介绍基于合一的剖析(unification-based parsing)时,讨论了特征-值矩阵。剖析时可能得到若干个结果,因此,本章还讨论了剖析结果的排歧问题。最后,讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。

第13章“词义排歧”(word-sense disambiguation,简称WSD)讨论如何利用上下文来确定多义词的准确意义。首先介绍了在计算语言学研究早期所提出的WSD优选语义学方法、词专家剖析方法。这些方法由于缺乏可供使用的词汇资源,出现了“知识获取的瓶颈问题”(knowledge acquisition bottleneck)。这些问题由于大规模词汇库和知识库的出现而得到缓解,又由于统计方法和机器学习方法的应用而可以从语料库中获取精确的数据。近年来,在WSD中普遍使用基于词典的方法、联结主义方法(connectionist)、统计方法、机器学习方法,取得了很大的进步。最后讨论WSD的评测,介绍了SENSEVAL的评测活动,并介绍WSD的一些实际应用。

第14章“回指消解”(anaphora resolution)首先列举了一些回指现象,说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状,讨论了今后回指消解研究中应当注意的问题。

第15章“自然语言生成”(natural language generation,简称NLG)介绍了自然语言生成研究的理论和实践问题,力图说明在人们的心智上以及在计算机中,语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题,可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题,也可以把它看成一个选择问题,还可以把它看成一个规划问题。自然语言生成可以分为四个问题:宏观规划(macroplanning)、微观规划(microplanning)、表层实现(surface realization)、物理表达(physical presentation)。对于宏观规划,介绍了说话内容的规划、文本的规划,以及使用修辞结构理论的规划方法;对于微观规划,着重介绍了词汇生成的问题。最后介绍了表层生成的技术。

第16章“语音识别”(speech recognition)研究如何把作为声学信号的声波转换为单词的序列。现在,最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术:声学语音信号的建模、语音识别中的词汇表示、语音识别中的语言模型和解码。重点介绍独立于说话人的大词汇量连续语音识别(large-vocabulary continuous speech recognition,简称LVCSR)的最新的技术。目前,语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别技术未来的研究前景。

第17章“文本-语音合成”(text-to-speech synthesis,简称TTS)介绍文本-语音合成的最新成果。TTS既涉及自然语言处理技术,也涉及数字信号的处理技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS系统的概貌以及它的商业应用价值。然后描述TTS系统的功能结构以及TTS系统的组成部分,TTS系统中的自动形态-句法分析、自动语音分析、自动韵律生成,说明了如何从文本中近似地计算语音的声调和时长。最后介绍了声波生成的两种技术:规则合成技术(synthesis by rules)与毗连合成技术(concatenative synthesis)。

第18章“有限状态技术”(finite-state technology)首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念,然后介绍基本正则表达式的运算方法和复杂的正则表达式,最后讨论有限状态网络的形式特性。

第19章“统计方法”(statistical methods)介绍了计算语言学中的统计方法。目前,统计方法已经成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念(如:样本空间、概率测度、随机变量、条件概率、熵、随机过程)以及如何把它们应用于自然语言的模拟问题,分别介绍了隐马尔科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介绍了这些模型的一些技术细节,如:韦特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。

第20章“机器学习”(machine learning)介绍了如何通过有指导的训练实例(supervised training examples)来自动地获取语言资源中蕴含的决策树(decision-tree)和规则(rules),描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术,并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法(instance-based categorization),较详细地介绍了k-邻近分类算法(k nearest-neighbour categorization algorithm)。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动排歧、信息抽取、前指消解等各种各样的问题。

第21章“词汇知识的获取”(lexical knowledge acquisition)首先介绍了词汇知识自动获取的一些背景,包括词汇知识的形式、词汇知识获取的资源和工具、单词的共现和相似度。然后介绍了从语料库中自动获取词汇的搭配关系(lexical collocation)和联想关系(lexical association)的方法,词汇相似度(similarity)计算与叙词表(thesaurus)构建的方法,动词的次范畴框架(subcategorization frame)的获取方法;分析了词汇语义学(lexical semantics)和词汇知识获取的关系。最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用,自然语言处理的形式模型中越来越多地采用“词汇化”(lexicalized)的方法,词汇知识的自动获取是当前计算语言学研究的亮点之一。

第22章“评测”(evaluation)专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段,评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测(technology-based evaluation),在自然语言处理技术比较成熟时,就可以使用以用户为中心的评测(user-centred evaluation)。根据评测时的输入与输出,评测技术又可以分为分析成分的评测(evaluation of analysis components)、输出技术的评测(evaluation of output technologies)和交互系统的评测(evaluation of interactive systems)。分析成分的评测把语言映射为它的内部表达作为输出(例如:有标记的片段、树形图、抽象的意义表达式等)。输出技术的评测要把处理的结果用具体的语言表示出来(例如:文摘、生成的文本、翻译的译文等)。这种评测可以分别使用内部评测指标(intrinsic measures)和外部评测指标(extrinsic measures)来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术,并指出它们的优点和缺点。

第23章“子语言和可控语言”(sublanguage and controlled language)首先讨论了在限定语义领域中的计算语言学,指出了在当前的水平之下,在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发形成的子语言,分析了子语言的特性,讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中的应用问题。接着讨论可控语言,分析了使用可控语言的必要性和局限性,介绍了可控语言的一个实例――简化英语AECMA。最后讨论子语言与可控语言的关系,分析了把子语言转变为可控语言的途径。

第24章“语料库语言学”(corpus linguistics)主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求,简要地回顾了语料库的发展历史,然后着重地讨论了语料库的标注(annotation)问题。标注过的语料库的优点是:开发和研究上的方便性、使用上的可重用性、功能上的多样性和分析上的清晰性。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后,作者指出,不论标注过的语料库,还是没有标注过的语料库,在自然语言处理中都是有用的,语料库语言学有助于计算语言学的发展。

第25章“知识本体”(ontology)讨论了知识本体及其在自然语言处理中的应用。首先,分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体,并讨论了语言学中的知识本体与词汇语义学的关系;然后,说明在自然语言处理中,知识本体可以用来帮助系统进行语言的结构分析(例如:英语中的PP附着问题、错拼更正、句法检错、语音识别),也可以用来进行局部的自然语言理解(例如:信息检索中的问题搜索、文本分类),并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义排歧中的应用。

第26章“树邻接语法”(tree-adjoining grammar,简称TAG)介绍一种局部化的语法形式模型:树邻接语法(TAG)和词汇化的树邻接语法(lexicalized tree-adjoining grammar,简称LTAG)。首先讨论上下文无关语法CFG的局部化问题,说明TAG与CFG的不同:TAG以句法结构树作为核心操作对象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式来表达二维的树结构;而CFG以符号串作为操作对象,CFG是一个基于符号串的形式语法,而TAG是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题,介绍了LTAG。LTAG对于TAG的扩充主要在于把每一个初始树(initial tree)和辅助树(auxiliary tree)都与某一个或某一些叫作“锚点”(anchor)的具体单词关联起来。最后讨论LTAG的一些重要特性及其与别的形式系统的关系。

第27章“机器翻译:总体回顾”(machine translation:general overview)介绍了从20世纪50年代到90年代的基于规则的机器翻译系统(rule-based machine translation,简称rule-based MT)的主要概念和方法:直接翻译方法、中间语言方法、转换方法、基于知识的方法,并介绍了主要的机器翻译工具,简要回顾了机器翻译的历史。

第28章“机器翻译:新近的发展”(machine translation:latest developments)介绍了当前机器翻译系统的研究、开发和应用的情况,讨论了经验主义的机器翻译系统:基于实例的机器翻译(example-based MT)和统计机器翻译(statistical MT),并把它们与传统的基于规则的机器翻译系统进行了对比,同时还介绍了把各种方法融为一炉的混合机器翻译系统(hybrid MT)。当前基于规则的机器翻译的开发中,回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大进展,本章也做了介绍;此外,还介绍了口语的机器翻译,讨论了少数民族语言和不发达语言的机器翻译前景,讨论了因特网上的机器翻译(特别是网页翻译)问题。最后,本章介绍了译者的电子翻译工具,特别讨论了双语语料库、翻译记忆、双语上下文索引等问题,并介绍了一些面向译者的词处理工具。

第29章“信息检索”(information retrieval)主要介绍了文本的信息检索。信息检索系统的任务在于,对于用户提出的提问或者命题,给出与之有关的文献集合,作为检索的结果。首先分析了信息检索系统的软件组成成分,包括文献处理、提问处理、检索匹配技术。然后讨论自然语言处理技术对于信息检索的推动和促进作用,讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术,并且指出,当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。

第30章“信息抽取”(information extraction,简称IE)讨论如何从自由文本中自动地识别特定的实体(entities)、关系(relation)和事件(events)的方法和技术。本章主要讨论两种类型的信息抽取:一种是名称的自动抽取(extraction of names),一种是事件的自动抽取(extraction of events),并介绍书写抽取规则的方法。对于名称的自动抽取,本章介绍了名称标注器(name tagger);对于事件的自动抽取,介绍了事件识别器(event recognizer)。同时,还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习和抽取规则的方法,这种方法也就是信息抽取的统计模型。最后,介绍了信息抽取的评测和应用。

第31章“问答系统”(question answering,简称QA)讨论如何从大规模真实的联机文本中对于指定的提问找出正确回答的方法和技术,这是文本信息处理的一个新的发展趋向。由于QA要对指定的提问给出一套数量不多的准确回答,在技术上,它更接近于信息检索(information retrieval),而与传统的文献检索(document retrieval)有较大的区别――QA要生成一个相关文献的表作为对于用户提问的回答。与信息抽取相比,QA要回答的提问可以是任何提问,而信息抽取只需要抽取事先定义的事件和实体。在开放领域的QA系统中,使用有限状态技术和领域知识,把基于知识的提问处理、新的文本标引形式以及依赖于经验方法的回答抽取技术结合起来,这样,就把信息抽取技术大大地向前推进了一步。本章首先介绍了QA系统的类别和QA系统的体系结构,接着介绍了开放领域QA系统中的提问处理、开放领域QA系统中的提问类型以及关键词抽取技术,并讨论了开放领域QA系统中的文献处理方法和提问抽取方法,最后展示了QA系统的发展前景。

第32章“自动文摘”(text summarization)介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段:第一阶段是主题辨认(topic identification),第二阶段是主题融合(topic fusion),第三阶段是文摘生成(summary generation);并介绍了多文本的自动文摘。最后,介绍自动文摘的评测方法,讨论了自动文摘评测的两个指标:压缩比(compression ratio,简称CR)和内容保留率(retention ratio,简称RR)。

第33章“术语抽取和自动索引”(term extraction and automatic indexing)介绍术语自动处理的技术。术语广泛地出现在科技文献中,术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性作用。随着网络的普及和数字技术的发展,出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多,术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本章把面向术语的语言自动处理分为术语发现(term discovery)和术语识别(term recognition)两个部门,分别介绍了主要的技术和系统,最后介绍了双语言术语的自动抽取技术。

第34章“文本数据挖掘”(text data mining,简称TDM)介绍了本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别,分析了文本数据挖掘与计算语言学和范畴元数据(category metadata)的关系。本章举出实例,具体说明了怎样使用生物医学文献中的文本数据来推测偏头痛(migraine headaches)的病因,怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系,并介绍了LINDI(Linking Information for Novel Discovery and Insight)系统。这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。

第35章“自然语言接口”(natural language interaction简称NLI)介绍计算机自然语言接口系统。这样的NLI系统可以把用户使用的口头自然语言或书面自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI系统的基本组成部分、意义表达语言(meaning representation language,简称MRL)、同义互训软件(paraphraser)、问题生成软件(response generator)以及可移植工具(portability tools)。然后介绍口语对话系统(spoken dialogue systems,简称SDS),分别介绍了SDS的单词识别软件、任务模型、用户模型、话语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS系统的灵活性、现状以及将来的应用前景。

第36章“多模态和多媒体系统中的自然语言”(natural language in multimodal and multimedia systems)讨论自然语言在多模态系统和多媒体系统应用中的重要作用,说明了怎样把自然的口语或书面语与多媒体输入协同地融合为一体,怎样把自然语言与其他的媒体结合起来以生成更加有效的输出,怎样使用自然语言处理技术来改善多媒体文献的存取。首先介绍包含自然语言的多模态和多媒体输入的分析问题,讨论了怎样把自然语言处理技术作为多模态分析的基础,怎样把不同的模态结合起来的技术。接着介绍包含自然语言的多媒体输出的生成问题,讨论了怎样把自然语言处理技术作为多媒体生成的基础,并讨论了不同模态的协调问题(包括不同模态的配置、不同模态输出的裁剪、模态输出中空间和时间的配合)。还讨论了用于多媒体数据存取的自然语言处理技术(包括基于自然语言处理的图形和图像检索、图形和图像数据库的自然语言接口、多媒体信息的自然语言摘要)。最后讨论在多媒体环境中使用语言的问题。

第37章“计算机辅助语言教学中的自然语言处理”(natural language processing in computer-assisted language learning)介绍在计算机辅助语言教学(computer-assisted language learning,简称CALL)中使用自然语言处理技术的问题。首先介绍CALL的发展历史,接着介绍在自然语言处理背景下的CALL,语料库与CALL,双语语料库,讨论自然语言处理技术在形态学教学、语法教学、偏误的识别与诊断中的应用。最后讨论自然语言处理技术在CALL中应用的评估问题。

第38章“多语言的在线自然语言处理”(multilingual on-line natural language processing)讨论在因特网上的多语言处理问题。因特网现在已经发展成多语言的网络,英语独霸互联网天下的局面已经成为历史,非英语的网站越来越多,语言障碍日益严重。为了克服语言障碍,机器翻译当然是一个最重要的手段,除了机器翻译之外的各种使用自然语言处理技术的多语言处理工具也雨后春笋般地开发出来。本章介绍了语种辨别(language identification)、跨语言信息检索(cross-language information retrieval,简称CLIR)、双语言术语对齐(bilingual terminology alignment)和语言理解助手(comprehension aids)4个方面的研究情况。语种辨别的目的在于让计算机自动地判断书面文本是用什么语言写的,这显然是多语言自动处理必须经过的第一步。跨语言信息检索CLIR的目的在于使用一种语言提问来检索其他语言文本的信息。本章介绍了在CLIR中的译文发现技术(finding translation)、翻译变体的修剪技术(pruning translation alternatives)和翻译变体的加权技术(weighting translation alternatives)。在这些应用中,双语言词典或多语言词典是最重要的资源,而这些词典的覆盖面可以通过使用双语言术语对齐的技术来加以提升。语言理解助手的功能在于给用户提供软件工具来理解外语书写的文本,而不必使用全自动机器翻译的技术。本章介绍了施乐公司欧洲研究中心(Xerox Research Centre Europe,简称XRCE)的语言理解助手LocoLex和语义模型,并介绍了施乐公司使用语言助手来改善数字图书馆Callimaque的技术。

本章最后附有各章作者简介、计算语言学术语表、作者索引和主题索引,便于读者查阅。

三、简评

本书是手册性的专著,有如下三个明显特点:

1.深入浅出。本书各章写作风格一致,内容协调,浑然一体,特别适合对计算语言学感兴趣和初入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题,尤其适合文科背景的读者阅读。

2.专家执笔。本书的38章分别由各个领域内的46位知名专家执笔,由于这些专家具有所属领域的精湛知识,对于自己的领域有深刻的理解,有力地保证了本书的学术质量和专业水平。

3.涵盖全面。本书几乎涵盖了计算语言学的所有领域,反映了当前计算语言学的最新成就,使我们对计算语言学能够获得全面而系统的认识。

我国曾经翻译出版过有关计算语言学和自然语言处理的大部头专著,如冯志伟和孙乐翻译的《自然语言处理综论》(电子工业出版社,2005)被称为自然语言处理教材的“黄金标准”。但是,这部专著主要针对理工科背景的读者而写,数学公式较多,文科背景的读者阅读和理解起来常常会感到困难。与《自然语言处理综论》相比,本书尽量避免使用繁难的数学公式,文笔浅显而流畅,内容新颖而有趣,更适合文科背景的读者阅读。目前,计算语言学这个新兴的学科不仅吸引了大量理工科背景的研究人员,同时也有不少文科背景的研究人员投身到计算语言学的研究行列中来。本书的上述特点正好可以满足文科背景研究人员的需要。当然,由于本书内容涵盖面广、专业性强,对理工科背景的研究人员也有很大的参考价值。

自动识别技术论文第2篇

关键词:高阶累积量;目标识别;应用

中图分类号:U666.7 文献标识码:A 文章编号:1674-7712 (2013) 02-0141-02

一、前言

自动识别技术论文第3篇

 

关键词:自然语言处理 语言翻译 人工智能  

一、引言  

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。  

二、自然语言信息处理技术简介  

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。  

三、智能应用  

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。  

(一)自然语言信息处理在文本方面的智能应用  

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。  

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用  

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对

[1] [2] 

自动同声传译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。  

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。  

四、结论  

自动识别技术论文第4篇

 

关键词:自然语言处理 语言翻译 人工智能  

一、引言  

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。  

二、自然语言信息处理技术简介  

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。  

三、智能应用  

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。  

(一)自然语言信息处理在文本方面的智能应用  

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。  

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用  

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对自动同声

[1] [2] 

传译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。  

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。  

四、结论  

自动识别技术论文第5篇

 

关键词:自然语言处理 语言翻译 人工智能  

一、引言  

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。  

二、自然语言信息处理技术简介  

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。  

三、智能应用  

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。  

(一)自然语言信息处理在文本方面的智能应用  

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。  

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用  

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对自动同声传

[1] [2] 

译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。  

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。  

四、结论  

自动识别技术论文第6篇

 

关键词:自然语言处理 语言翻译 人工智能  

一、引言  

近年来随着计算机技术和人工智能的快速发展,自然语言信息处理技术已取得了长足的发展。于此同时人们在快速信息检索、语言翻译、语音控制等方面的需求越来越迫切。如何将自然语言处理中取得的研究成果应用于文本、语音等方面已成为目前应用研究的一个关键。论文将从自然语言信息处理的基础出发,系统的论述它在语音和文本方面的广泛应用。  

二、自然语言信息处理技术简介  

自然语言信息处理技术产生于上个世纪40年代末期,它是通过采用计算机技术来对自然语言进行加工处理的一项技术。该技术主要是为了方便人与计算机之间的交流而产生的。由于计算机严密规范的逻辑特性与自然语言的灵活多变使得自然语言处理技术较复杂。通过多年的发展,该项技术已取得了巨大的进步。其处理过程可归纳为:语言形式化描述、处理算法设计、处理算法实现和评估。其中,语言形式化描述就是通过对自然语言自身规律进行研究,进而采用数学的方法将其描述出来,以便于计算机处理,也可认为是对自然语言进行数学建模。处理的算法设计就是将数学形式化描述的语言变换为计算机可操作、控制的对象。处理算法实现和评估就是通过程序设计语言(如C语言)将算法实现出来,并对其性能和功能进行评估。它主要涉及到计算机技术、数学(主要是建模)、统计学、语言学等多个方面。  

三、智能应用  

通过多年的研究,自然语言信息处理技术已经取得了巨大的进步,特别是在应用方面。它主要被应用于文本和语音两个方面。  

(一)自然语言信息处理在文本方面的智能应用  

在文本方面,自然语言处理技术主要应用在语言翻译、字符识别、文本信息过滤、信息检索与重组等方面。其中,语言自动翻译是一个十分重要并具有极大现实意义的项目。它涉及到计算机技术、数学建模技术、心理学以及语言学等多个方面的学科。通过近些年的努力已得到了一定的发展。自然语言处理技术已在多个方面提升了翻译的效率和准确性。如自然语言处理中的语言形态分析与歧义分析对翻译技术来说十分重要,可以很好的处理翻译中的多意现象和歧义问题,从而提高翻译的准确性。字符识别具有广泛的商业应用前景,它是模式识别的一个分支。字符识别的主要过程可分为预处理、识别以及后期处理。目前,字符识别已得到了广泛的应用,并且效果良好,但还存在识别不准确的问题,其主要问题就出在合理性上,其中后期处理就涉及到采用词义或语料库等对识别结果进行合理性验证,通过该技术就能很好的解决识别不准确的问题,当出现识别不准确、出现多个识别结果时可以通过合理性验证技术高效的过滤掉异常选项,从而实现快速、准确的识别。目前自然语言信息处理技术在文本方面应用最广的就是文本检索。通过采用自然语言信息处理技术,一方面能快速分析用户输入信息并进行准确理解为检索提供更加准确的关键词,并且可以扩展检索输入的范围,让其不仅仅局限在文本输入方面,如采用语音输入或基于图像的输入;另一方面,通过采用自然语言信息处理技术可以对搜索到的信息进行处理让用户获取的是更加有效、准确的信息而不是海量的信息源(如许多网页)。因为将自然语言处理技术与文本重组技术相结合就可以极大的提高检索的效果,缩小答案的范围,提高准确性。当然,还可以提高检索的效率。目前,在中文全文检索中已得到了广泛的应用,并且效果良好。  

如果能进一步的研究自然语言信息处理技术,将能实现信息的自动获取与重组,这样将能实现自动摘要生成、智能文本生成、文件自动分类与自动整理。若能进一步结合人工智能技术,将能实现文学规律探索、自动程序设计、智能决策等诸多方面的应用。这样可以减轻人类的工作强度,让我们从繁琐的基础工作中走出来,拥有更多思考的时间,从而能更加有效的推动技术的进步。

(二)自然语言信息处理在语音方面的智能应用  

在语音方面,自然语言处理技术主要应用在自动同声传译、机器人聊天系统、语音挖掘与多媒体挖掘以及特定人群智能辅助系统等方面。其中,自动同声传译主要涉及到语音建模、识别以及语言翻译等方面,采用自然语言处理技术可以对自动同声

[1] [2] 

传译的每个方面都能得到提高,最直接的部分就是语言翻译部分,同时还可能涉及到语音与文本的转换。特别是在语音和文本的转换方面,目前在中文出来中出现的一个问题是音似问题,即音似字不同的情况,对这种情况如果能采用自然语言处理技术来对其进行校验,将能提高其转换的效果,从而提高转换的质量和准确性。机器人聊天系统涉及到更加广泛的内容,如自动回答系统。在机器人聊天系统中不可避免的涉及到语音与文本的转换、自动回答以及逻辑推理,通过自然语言处理技术将能在意义理解、逻辑推理和知识应用等方面得到明显提高,从而使得应答的速度和回复的针对性和准确性等方面都得到一定的提高,从而提高聊天系统的应用性。在语音挖掘与多媒体挖掘方面,自然语言处理技术的应用主要体现在增强意义理解和提高检索速度这两个方面。通过该技术一方面能根据准确的获取语音所包含的意义,从而为搜集信息提供基础。同时,由于采用该技术也有助于数据挖掘中的对相关信息的检索和归纳。  

随着人工智能、计算机视觉等技术的快速发展、自然语言处理技术将能应用于诸如自动场景解说系统等。也就是自然语言处理技术再结合图像理解技术和逻辑推理技术,就能准确的描述当前场景发生了什么事情,如果能和上一个场景进行比较就能及时的描述场景的变化,并通过有效的组织就能实现对场景的自动描述。再进一步利用人工智能技术、知识库及语音生成技术就能实现场景的自动解说,甚至能实现如自动足球运动这样快速场景变换的解说。同时,还能对特定人群提供辅助,如为盲人提供辅助的系统,帮助盲人识别物体以及其他的一些帮助。也可以应用于语音控制,语音控制目前也具有广泛的需求,可以应用在很多方面,将自然语言处理技术、语音建模技术、计算机技术以及控制技术相结合就能实现语音控制,甚至能应用于工厂的智能控制和管理。  

四、结论  

自动识别技术论文第7篇

随着科学技术的快速发展,我国物流领域实现了较为长足的进步,自动识别技术在物流管理中的广泛应用就是这一进步的最直观体现。基于此,就自动识别技术在物流管理中的应用展开研究,对自动识别技术的具体应用与发展趋势进行了深入分析,希望能够为我国物流领域的更好发展带来一定启发。

关键词:

自动识别技术;物流管理;射频识别技术

无论是出行所需的火车票与飞机票,还是与人们生活息息相关的快递行业,自动识别技术早已在其中实现了普及应用,这一应用在各领域所取得的成果,也使得自动识别技术受到的关注日渐提升,而为了保证自动识别技术更好服务于我国各行业发展,本文就自动识别技术在物流管理中的应用展开具体研究。

1自动识别技术概述

为了较为深入开展研究,首先需要较为全面地了解自动识别技术。结合相关文献资料不难发现,自动识别技术本身属于一种依托计算机实现数据信息自动采集、识别、输入的技术形式,而其所具备的功能能够满足物流领域的速度提升需求。在传统的物流领域中,信息的采集、识别、输入需要耗费大量时间,这就使得物流管理速度在很长一段时间难以实现提升,而随着自动识别技术的应用,以往物流管理中的编写、记录、扫描确认物品等耗费时间较久的环节将实现根本性升级,这使得自动识别技术支持下的物流管理将实现长足进步[1]。

2自动识别技术的分类

了解自动识别技术的概念后,还需要了解自动识别技术的分类,而结合相关文献资料与自身经验总结,笔者将对我国当下常见的条码识别技术与射频识别技术进行详细论述。

2.1条码识别技术

条码识别技术是自动识别技术的重要组成部分,这一技术在我国当下得到较为广泛的应用,很长一段时间条码识别技术都是自动识别技术的代名词,由此可见这一技术的影响力之深远。对于条码识别技术来说,其本身可以细分为一维码与二维码,其中一维码指的是由平行排列的宽窄不同的线条和间隔组成的二进制编码,人们在日常生活中的各类商品上都能够很轻松发现一维码的影子,而二维码则是一维码的衍生物,其能够从横纵两个方向表达信息,并具备相较于一维码更大的信息容量。在我国当下物流领域中,条码识别技术往往会通过条形码展示产品的生产日期、产地、货位码、装卸台条码等信息,这些信息就使得物流管理能够实现对物品的实时监控[2]。

2.2射频识别技术

除了条码识别技术外,射频识别技术同样属于自动识别技术的重要组成部分,这一自动识别技术通过无线电波传递数据,这一原理使得射频识别技术拥有优于条码识别技术的灵活性。对于射频识别技术来说,电子标签、读写器和计算机网络是其主要构成,其中电子标签负责存储商品信息,读写器负责进行信息的读取与修改,计算机网络则负责信息的传输与互通,而这些功能的实现就使得射频识别技术不仅具备较强灵活性,其本身的抗干扰能力、恶劣环境下的工作能力、信息存储量等都要优于条码识别技术。值得注意的是,射频识别技术还具备外形多样化、可重复使用的优点,这也是其拥有巨大发展潜力的原因[3]。除了条码识别技术与射频识别技术外,磁卡识别技术、图像识别技术、生物识别技术等同样属于自动识别技术的范畴,但这类技术或多或少存在一些实际应用方面的不足,故而本文不对其进行探讨。

3自动识别技术应用在物流管理中的重要性

结合上文内容较为全面地了解了自动识别技术,而为了更为深入开展研究,还需要明晰自动识别技术应用在物流管理中的重要性,而结合相关文献资料与自身认知,笔者将这一重要性概括为奠定物流管理信息化基础、促进现代物流发展、实现精准物流管理三方面。

3.1奠定物流管理信息化基础

传统物资传送手写记录存在速度慢、效率低、准确率难以保证等缺点,而自动识别技术在物流管理领域的应用能够实现物流信息及时掌控,这就使得传统物流管理方式被淘汰。在计算机技术的支持下,大量信息的存储、物流信息的读取和记录、全程的物流信息掌控、及时发现物流管理的问题、进行大量且迅速的物流信息管理等都属于自动识别技术应用在物流管理中重要性的表现,而这些就使得现代物流的大量化与效率化需求得到了较好满足[4]。

3.2促进现代物流发展

包装、运输、储存、加工配送等过程是传统物流的主要流程,而这一流程所具备的单一化功能与较小的服务范围早已无法满足我国经济与社会的发展需要,而在自动识别技术的支持下,物流管理的用户范围得到拓展、消费者多样化需求得到了满足、运输方法实现了整合,而以此为基础实现的物流管理信息化更使得物理运输的速度大大提升,这些都使得我国现代物流发展获得了较为有力的支持,由此可见自动识别技术在物流管理中的重要性[5]。

3.3实现精准物流管理

随着现代物流的快速发展,精准物流管理早已成为物流管理领域的共同追求,而这一追求想要得以真正实现,就必须得到自动识别技术的支持。在应用自动识别技术的物流管理中,大量物流信息能够在自动识别技术的支持下实现较高效率的记录、分类、识别、储存,而这些就较好解决了精准物流管理所面临的信息收集与整理问题,由此能够更为直观地了解自动识别技术应用在物流管理中的重要性。

4自动识别技术在物流管理中的具体应用

条形码、射频识别技术都属于自动识别技术在物流管理中应用的具体表现,而这些应用也使得我国物流管理领域实现了较为长足的进步。

4.1条形码的应用

这一应用主要实现了物流管理中物资信息的标识化,这种标识化对于商品的快速扫描、及时分类、位置记录都将带来较为积极的影响,而条形码所实现的货物自动扫描、数量监控,也使得物流管理在自动识别技术的支持下得以大大提升自身的效率与自动化水平。

4.2射频识别技术的应用

除了条形码外,射频识别技术同样在物流管理中有着较为广泛的应用,而这一应用就使得很多难以应用条形码的领域空白在射频识别技术的支持下得到了填补,这对于我国物流管理领域的发展同样会带来较为积极的影响。

5结语

本文就自动识别技术在物流管理中应用展开研究,详细论述了自动识别技术内涵、自动识别技术的分类、自动识别技术应用在物流管理中的重要性、自动识别技术在物流管理方面的具体应用等内容,希望该研究能够为相关从业人员带来一定启发。

参考文献

[1]陈东.基于自动识别技术的物流信息系统的研究与应用[D].济南:山东师范大学,2007.

[2]穆思竹.浅议自动识别技术在物流管理中的应用[J].全国商情,2016(36):8-9.

[3]陈婷.条码自动识别技术在柴油机制造业物流中的应用[D].昆明:昆明理工大学,2003.

[4]李一鹏.自动识别技术在数字图书馆管理系统中的应用研究[D].昆明:昆明理工大学,2006.