欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

文化自信的特征(合集7篇)

时间:2023-09-19 16:13:43
文化自信的特征

文化自信的特征第1篇

【关键词】变化检测;矢量;叠加

0 引言

在经济高速发展的今天,各种遥感卫星相继运行,多时态遥感数据不断积累,多时相遥感影像变化检测已经在土地利用、环境监测等各个领域得到广泛应用。目前,遥感影像变化检测技术正处于结合人工解译和计算机自动发现的阶段。

1 特征库设计与建立

建立多源特征库以辅助实现影像变化检测。该特征库主要包括感兴趣区域类别特征,感兴趣区域变化信息数据库,感兴趣区域图斑特征,光谱特征,纹理特征以及指数特征。

(1)感兴趣区域类别特征――通过分类体系来表达。将已建立的分类体系存放在特征库中,采用分类后比较进行变化检测时,调用特征库中的分类体系,方便快捷的进行遥感影像的分类,提高变化检测效率。

(2)感兴趣区域变化信息数据库――通过影像类别及其类别信息来表达。采用比较后分类的方案进行变化检测时,手绘变化图斑进行图斑地类判别,调用特征库中已存放的感兴趣区域变化信息数据库,方便快捷的进行前后时相变化图斑地类划分,提高变化检测效率。

(3)感兴趣区域图斑特征――感兴趣区域分类库,通过感兴趣区域表达。将比较后分类及分类后比较两种方法产生的不同地类变化图斑矢量层保存在特征库中,供用户查询不同区域地类变化信息。

(4)光谱特征――针对每一类别的光谱信息,统计每一类别地物的均值与方差等。光谱特征可用于影像信息提取,影像分类等方面。

(5)纹理特征――针对每一类别的纹理,利用共生矩阵计算纹理信息。

(6)指数特征――植被指数、水体指数等。指数特征应用广泛,是进行图像分割,影像信息提取等不可或缺的条件,因此,将指数特征入库管理,将大大提升遥感影像处理的效率。

该特征库主要实现三方面功能:一是,存放已建立分类体系与样本图斑,供变化检测导入使用。二是,存储变化地类矢量图层。三是,采取分类建立索引的方法,解决了查找速度慢的问题。可通过行政地名、行政境界、图层数据编码等方式进行快速定位搜索变化图斑,提高了数据库管理的效率。

2 变化检测流程设计

遥感影像变化检测由影像几何配准、辐射校正、变化信息提取及后处理等几大部分构成。本文采用自动一体化流程,实现计算机对同一地域多时相遥感图像的分析和比较,得出变化数量及类型,为决策者提供必要的参考信息。

2.1 数据输入

在以环境与灾害监测预报小卫星星座为主要数据源的基础上,结合气象卫星、海洋卫星、资源卫星等数据。

2.2 变化影像产生

不同时相影像通过基于直方图曲率的CVA变化检测方法得到变化掩膜,将掩膜影像与原影像进行叠加,利用MaskFilter滤波,得到变化影像。

基于直方图曲率的CVA分析法主要思路包括三个方面:

1)在已知的变化强度特征基础上,以两期影像每个像元的相关系数作为一个新的特征,采用两个特征来判断最佳阈值;

2)对变化强度图和相关系数图的直方图进行数值分析,计算直方图的曲率,从而确定初始分割阈值的上下限范围,在阈值上下限内计算Kappa系数,选取Kappa系数最大的变化强度值为最佳分割阀值,对变化强度图进行二值化分割,确定变化范围;

3)在发生交化的区城内,提取分类信息。

2.3 掩膜后处理

计算相应的错判误差,漏判误差,检测精度,总体精度,以及Kappa系数等精度评价指标。

2.4 变化检测

文采用分类后比较的方法,首先导入特征库中的感兴趣区域类别特征,即分类体系,利用已存放的各地类图斑,采用极大似然分类方法进行变化影像的分类处理。优化分类图斑边界。对各前后时相分类影像分层矢量化文件进行矢量叠置分析,得到不同地类变化矢量图层,系统将自动保存变化地类矢量图层,即感兴趣区域图斑特征到特征库中。

3 结论

本文研究遥感影像变化检测方法研究以环境卫星数据为基本数据源,实现了图像预处理、变化信息提取及后处理等一体化的技术流程,可以高效的进行变化信息的检测;特征库中的感兴趣区域类别特征可以辅助进行变化检测,其它特征具有实时查询、更新变化图斑数据库的功能;但是,基于地物的高强度变化,变化信息检测算法框架有待进一步细化与改进,使其达到更高的精度,得到更广泛的应用。

【参考文献】

[1]孙家.遥感原理与应用[M].武汉:武汉大学出版社,2006(4):115-116.

[2]汤国安,张有顺,等.遥感数字图像处理[M].北京:科学出版社,2004(1):270-271.

[3]赵英时.遥感应用分析原理与方法[M].北京:科学出版社,2005(3).

文化自信的特征第2篇

一、问题的提出

随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它Web站点上千差万别的信息。

面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。

二、文本分类技术的基本原理

数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。

文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。

从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:

f:AB其中,A为待分类的文本集合,B为分类体系中的类别集合

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:

系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。

三、文本分类技术在数字图书馆中的应用分析

为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。

(一)文本特征项

文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。

概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。

(二)特征项选择

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。

文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。

信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。

(三)特征值的提取

在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。

文化自信的特征第3篇

【关键词】英语教学资源;个性化检索;过滤技术;用户模型

【中图分类号】G434 【文献标识码】A 【论文编号】1009―8097 (2008) 12―0094―03

引言

英语教学资源是指蕴涵了特定的教育信息,可以提供给英语学习者使用,能帮助和促进学生学习的各类英语信息资源,特别是能以数字信号在互联网上进行传输的英语教学资源。数字化和教育价值是它的核心特征。网络多媒体技术与外语教学的有机整合极大地丰富了外语教学的信息资源。特别是,Internet的出现,使得大量的真实而鲜活的语料资源实现了电子化和网络化,变“供给制”为“自助餐式”,为学习者提供了自主选择语料的广阔天地。为主动式学习创造了有利条件。电子载体语料源不仅从数量上达到了“应有尽有”的丰富程度,而且从质量上实现了教学内容的“零时差”,从根本上改变了外语资源单一匮乏和陈旧老化的局面[1]。

按照教育部现代远程教学资源建设委员会于2000年5月所推出的《现代远程教学资源建设技术规范》的规定[2],从教学资源建设的实际出发,把教学资源分为以下几类:媒体素材、题库、试卷素材、课件、案例、文献资料、常见问题解答、资源目录索引和网络课程。

目前的英语教学资源库系统主要提供教学资源上传、教学资源查询和教学资源下载等功能。主要就是以“物”为主,未能体现“以人为本”的思想,特别是现有的教学资源库不具备个性化和智能化等特性,从而普遍存在海量教学资源与用户个性化需求之间的矛盾[3]。由于这个矛盾的存在,一方面造成了教学资源的巨大浪费,另一方面,为用户查找和使用所需要的教学资源造成了巨大的困难。这些问题都阻碍了英语教学资源在教学中作用的发挥,造成了极大的教学资源浪费。

向用户提供个性化教学资源服务能很好的解决这个矛盾。个性化教学资源服务是根据用户(这里指学习者)的使用行为和特点,来向用户提供满足其个性化教学资源需求的一种服务。由于学习者的学习起点、学习风格、学习愿望、学习步调等方面存在个体差异,在进行资源库建设时要考虑资源库建设的多层次、多元化、开放性和动态更新及时性,让不同的学习者能在资源库中取得各自所需要的资源。

本文针对目前教学资源服务中普遍存在的海量教学资源与用户个性化需求之间的矛盾,在校园网英语教学资源库系统中增加一个教学资源个性化检索模型(Individualized Search Model of Teaching Resource,以下简称ISMTR),该模块把基于网络的个性化信息服务引入英语教学资源体系,尊重用户中存在的差异,学习和跟踪用户的个性化兴趣,并根据用户的个性化兴趣特征对教学资源进行过滤,实现少而精的教学资源个性化检索。

一 关键技术

1 教学资源的描述

由于教学资源中,决大多数是多媒体信息,它们很难从其内容中提取特征。教育部现代远程教学资源建设委员在《现代远程教学资源建设技术规范》中指出,为了便于检索和共享,需要对教学资源进行属性标注。在这些属性中,很重要的一项为关键词属性。本文所设计的系统采用关键词属性作为教学资源特征。为了描述关键词某个关键词所代表的知识点占该教学资源总体内容的比重,我们在关键词结构类型中增加一个“比重”字段,类型为数值型。当然,也可以不增加这一字段,系统默认每个关键词在该教学资源的比重相同,即每个关键词的比重都为1/n,n为该教学资源的关键词数量,一般为5~10个[4]。

2 用户兴趣的描述与获取

(1) 用户兴趣的描述

用户兴趣即用户的个性化特征,它是指由人类个体特性所决定的其对英语教学资源的需求的特征信息的组合,也就是由特定用户对英语教学资源需求的决定关系而产生的一系列对个体有用的信息。

在教学资源采用了以关键词为特征后,用户对某一教学资源的兴趣就可以用他对该教学资源的这些关键词的兴趣。若用户对某个教学资源有较大兴趣就会花精力去获取这些教学资源。由于Web用户对教学资源的获取的基本途径是浏览,因此用户的既往浏览教学资源中的包含该用户的个性化特征,用户对教学资源的访问的次数越多、最近访问时间越近,用户对该教学资源的兴趣度越高。即兴趣强度应包含访问次数和最近访问日期这两个实际兴趣指标。

(2)用户兴趣的获取

获得反映用户信息的个性化信息有这样两种方法:第一种方法是由系统记录用户的访问特征形成日志文件,然后通过分析该日志文件或由浏览器产生的日志文件总结出用户兴趣模型。第二种方法由用户通过填写表单来提供自己的个性化特征信息。这种方式的优点是用户兴趣模型的收敛快,并且能比较准确地反映用户的需要和兴趣。需要用户事先总结自己的信息需求。由于语言表达的问题和分类的模糊性与多样性,用户往往不能通过这种方法将信息需求表达清楚。另外,因为它要求用户主动填写,所以系统不能主动跟踪用户的兴趣变化。

在本文所设计的系统中,对于新注册用户,我们采用第二种方法来收集他们的初始个性化特征,对于已注册用户,我们采用第一种方法来及时跟踪他们的个性化特征。

3 向量空间模型

向量空间模型是由Salton提出的关于文档表示的模型。它以特征项作为文档表示的基本单位,特征项可以由字、词或短语组成。所有的特征项构成特征项集。每个文档可以表示为一个向量,向量的维数是特征项集的个数,向量的每个分量是特征项在文档中出现的次数[5]。表达文档和用户兴趣比较直接的做法是利用文档特征。用户兴趣是多方面的,可以直接利用从浏览过的文档中抽取的词来表达用户兴趣。该方法不局限于预定义好的主题词表,矢量的维数一般是不固定的,当然也可以指定一个固定的大小。

采用向量空间模型表示文档的特征后,用户的兴趣就可以看成是一个文档,也就可以表示为一个向量U。文档与用户兴趣的相似程度就可以用文档向量V与用户兴趣向量U的余弦相似度sim(V,U)来表示。

4 信息过滤技术

目前人们习惯使用搜索引擎在广阔的互联网上获取所需信息。但是当人们输入一个关键词后,会有成百上千条乃至更多的信息被提供给用户,然而可能其中仅有一小部分信息满足用户的个性需求,甚至没有。这就是所谓的信息庞大而知识匮乏。这就需要根据用户的个性兴趣进行信息过滤,把所得到的不相关信息减至最小。

信息过滤技术(Information Filtering)正是为解决这一问题而提出的[6]。它是用来描述寻找符合人们兴趣的信息处理过程,也就是从大量的动态信息中找出最忠实地满足用户所需信息的过程。它使用用户模型(User Model)来描述用户兴趣主题,将新来的信息或者用户检索到的信息与用户模型进行相关度计算,然后对信息按相关度进行排序,过滤掉不相关的或者相关度小于某一个阈值的信息。通过信息滤波,与用户个性不相关的信息即用户不感兴趣信息被过滤掉了,反馈的结果都是用户感兴趣的信息,并按相关度大小排序。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

二 模块设计

ISMTR模型的主要功能是在网络英语教学资源库系统中学习和跟踪用户的个性化兴趣,并根据用户的个性化兴趣特征对教学资源进行过滤,帮助用户在海量的网络英语教学资源库系统中快速而准确检索他所感兴趣的教学资源。ISMTR模型的结构如图1所示:

(1)特征提取模块实现根据用户对英语教学资源浏览和相关反馈,来提取用户感兴趣的教学资源的特征信息,然后把这些特征信息保存在用户个性特征库中并及时跟踪和更新。当用户在对教学资源进行浏览、下载和检索操作时,特征提取模块提取用户个性化访问的特征信息,包括教学资源的关键词、访问日期和累计访问次数,并把这些信息保存在用户个性特征库中。

(2)用户个性特征库用于记录用户的个性化信息。它动态跟踪用户的兴趣,提取并记录关键词作为用户个性特征,并为用户模型构建模块提供用户特征;

(3)用户模型构建模块完成从用户个性特征库提取关键词来构成个体用户模型;

(4)个性化教学资源过滤模块是该ISMTR模型最重要的一个模块,它可以根据用户模型实现对英语教学资源的过滤;在我们的系统中,我们使用用户兴趣向量U来作为用户模型(User Model),以此来描述用户兴趣主题;同时我们提取教学资源的关键词来形成特征向量R。将用户检索到的教学资源的文档特征向量R与用户兴趣向量U进行余弦相关度计算,余弦值越大表明它们的相关度Sim(U,R)也就越大,反之则越小。计算公式如下:

(5)个性化检索模块是接受用户的检索请求,由过滤功能模块根据用户模型对英语教学资源进行过滤,形成个性化检索结果。用户把自己的查询需求表达成由关键词组成的检索词或检索表达式,通过用户界面输入到系统;系统接收到用户的检索词或检索表达式后,由资源库管理模块依据查询字段的匹配,从英语教学资源库中查找出所有满足条件的教学资源,形成第一次检索结果;然后,由过滤功能模块根据用户模型对英语教学资源库中符合第一次检索结果的教学资源进行过滤,得到按相关度排序的所有与用户模型相关的教学资源,形成个性化检索结果提交给用户。

(6)英语教学资源库保存英语教学资源的详细信息,包括资源编号、资源名称、适用对象、内容简介、关键词、文件大小、存储位置等。在这些属性中,很重要的一项为关键词属性,它是教学资源的特征属性。

(7)ISMTR模型的工作过程:首先由特征提取模块来提取用户感兴趣的英语教学资源的特征信息,并把这些特征信息保存在用户个性特征库中并及时跟踪和更新,其次由用户模型构建模块根据用户的个性化特征信息构成用户模型,然后由个性化教学资源过滤模块根据用户模型实现对教学资源的过滤,最后由个性化检索模块根据过滤结果实现个性化检索。

三 实验及实验结果分析

为了得到实验对比效果,我们把ISMTR系统进行简化,去除与个性化服务相关的特征提取模块、用户模型生成模块以及个性化教学资源过滤模块,形成一个不具备个性化服务的对照实验系统作为对比。用户在对照实验系统中进行英语教学资源检索时,把自己的查询需求表达成由关键词组成的检索词或检索表达式,通过用户界面输入到系统;系统接收到用户的检索词或检索表达式后,由传统的数据库管理系统依据查询字段的匹配,从教学资源库中查找出所有满足条件的教学资源,形成检索结果。

信息过滤的主要技术包括三个方面:一是用户模型和教学资源的表示技术,二是匹配技术,三是相关反馈的利用技术。系统中用户模板和文档的表示均采用向量空间模型,匹配技术采用计算向量空间距离的方法,相关反馈为用户对于给出的教学资源做出明确的二元判断,即“满意”或者“不满意”,其结果用来改进特征项的比重,进而影响相似度。

目前对信息检索的代表性的评估标准为:查准率(Precision)和查全率(Recall)。

这两个指标是目前信息服务系统最常用的指标,它们定义如下[7]:

查准率=(过滤结果中符合用户兴趣的信息条数)/(过滤结果得到得信息条数);

查全率=(过滤结果中符合用户兴趣的信息条数)/(信息源中符合用户兴趣的全部信息条数)。

ITRDS系统注册的用户总数为40人,建立40个用户个性特征库,兴趣小组的人数为21人,教学资源库规模为67个,取相似度最大的前10篇教学资源提供给相应的用户。

通过实验,ITRDS实验系统平均查准率为0.2平均查全率为0.13;而对照实验系统平均查准率为0.16平均查全率为0.09。

通过实验,我们发现ITRDS系统的平均过滤精度要略大于对照实验系统的平均过滤精度,主要原因在于前者是根据用户的个性化特征进行教学资源过滤,其结果更具有针对性。由此可得,我们设计的具有用户个性特征学习功能和过滤功能ISMTR模型能有效地提高英语教学资源服务中个性化检索的查全率和查准率。

然而,本文所设计的ISMTR模型主要针对的是海量数据库,对于小规模的数据库,它的优势不明显。此外,用户个性化特征有着一定的滞后性,需要经过多次学习后才能收敛。

四 结束语

在英语教学资源的应用中,每个学习者有各自不同的背景、语言、文化、兴趣爱好,他们的学习起点、学习风格、学习愿望、学习步调等方面存在个体差异,有各自不同的学习路径和学习方法。建设适应用户个性化学习需要的教学资源个性化检索模型将有助于英语教学资源库的有效运用,同时为用户选择更需要的教学资源,满足各种用户不同的个性化需求,使每个学习者能够在特长领域中得到充分发展。

参考文献

[1] 沈彩芬.网络多媒体环境下的外语教学特征及其原则[J]. 外语电化教学,2008,121(5): 23-27.

[2] 教育部.现代教育技术规范[M], 北京:清华大学出版社,2001:21-23.

[3] 李宝敏.从知识管理的角度看远程教育中个性化资源库的建设[J]. 中国远程教育,2003,192(3):28-30.

[4] 寇兴权, 刘兴环. 远程教育资源的描述、组织和管理系统设计[J]. 控制工程,20029,(4):35-37.

[5] Yan T W, at al. Index structure for information filtering under the vector space model[R]. Technical Report STAN CS 93. Stanford University. 1993.

[6] 曾春, 邢春晓, 周立柱. 基于内容过滤的个性化搜索算法[J]. 软件学报,2003,14(5):999-1004.

文化自信的特征第4篇

一、问题的提出

随着计算机技术与网络技术的普及和发展,数字图书馆在我国高校、政府以及科研机构都得到了有效发展。数字图书馆来源于图书馆馆藏的数字化从而充分地高效地利用图书馆信息资源。现有的图书馆资料主要是书籍、杂志、报刊、技术报告等。人们希望利用因特网把所有的数字化的资源站点连接起来,这样要管理的信息除了图书馆中的文本信息外,还希望管理博物馆、展览馆、档案馆、学术组织以及其它Web站点上千差万别的信息。

面对浩瀚无边的数字化信息使得数字图书馆关键核心技术之一的文本分类成为一个日益重要的研究领域。文本分类技术是人工智能和信息获取技术的结合,是基于内容的自动信息管理的核心技术。

二、文本分类技术的基本原理

数字图书馆是一个巨大的知识宝库。数字图书馆的服务重点是以人为主,而不是以馆以书为主。数字图书馆的特点使得其服务要深入到知识的层次,通过对信息内容的组织和加工的自动化,把资源组织成一个知识系统。文本的自动分类是为提高信息内容服务的质量而产生的文本处理技术。它们的出现使得信息内容服务出现了新的局面。

文本分类是指根据文本的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类算法是有监督学习的算法,它需要有一个己经手工分好类的训练文档集,文档的类别已标识,在这个训练集上构造分类器,然后对新的文档分类。如果训练集的类别未标识,就是无监督的学习算法,无监督学习算法从数据集中找出存在的类别或者聚集。

从数学角度来看文本分类是个映射程,它将未标明类别的文本映射到已有的类别中,用数学公式表示如下:

f:AB其中,A为待分类的文本集合,B为分类体系中的类别集合

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。但是由于大量的文本信息是一维的线性字符流,因此文本自动分类首先要解决的问题就是文本信息的结构化。在模式识别领域里,把文本信息的结构化称为"特征提取"。在文本信息内容处理领域,这项工作被称为文本的"向量空间表示"。其基本流程如图1所示:

系统使用训练样本进行特征选择和分类器训练。系统根据选择的特征将待分类的输入样本形式化,然后输入到分类器进行类别判定,得到输入样本所属的类别。

三、文本分类技术在数字图书馆中的应用分析

为了提高数字图书馆中分类准确率,加快系统运行速度,需要对文本特征进行选择和提取。两者的差别在于,特征选择的结果是初始特征项集合的子集,而特征提取的结果不一定是初始特征项集合的子集(例如初始特征项集合是汉字,而结果可能是汉字组成的字符串)。特征选择、提取和赋权方法对分类结果都有明显影响。

(一)文本特征项

文本的特征项应该具有以下特点:特征项是能够对文本进行充分表示的语言单位;文本在特征项空间中的分布具有较为明显的统计规律;文本映射到特征项空间的计算复杂度不太大。对于计算机来说,文本就是由最基本的语言符号组成的字符串。西文文本是由字母和标点符号组成的字符串,中文文本就是由汉字和标点符号组成的字符串。

概念也可以作为特征项,"计算机"和"电脑"具有同义关系,在计算文档的相似度之前,应该将两个词映射到同一个概念类,可以增加匹配的准确率。但是概念的判断和处理相对复杂,自然语言中存在同义关系(如老鼠、耗子)、近义关系(如忧郁、忧愁)、从属关系(如房屋、房顶)和关联关系(如老师、学生)等各种关系。如何很好地划分概念特征项,确定概念类,以及概念类的数量都是需要反复尝试和改进的问题。

(二)特征项选择

不同的特征项对于文档的重要性和区分度是不同的,通常高频特征项在多个类中出现,并且分布较为均匀,因此区分度较小;而低频特征项由于对文档向量的贡献较小,因此重要性较低。

文档频次就是文档集合中出现某个特征项的文档数目在特征项选择中计算每个特征项在训练集合中出现的频次,根据预先设定的闽值去除那些文档频次特别低和特别高的特征项。

信息增益方法是机器学习的常用方法,在分类问题中用于度量特征项在某种分类下表示信息量多少,通过计算信息增益得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征项,以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征项。

(三)特征值的提取

在文本分类中,我们称用来表示文档内容的基本单元为特征,特征可以是词、短语。目前,大多数有关文本分类的文献基本上采用词的集合来表示文档的内容。采用短语来表示文档存在两个缺点:第一短语的提取较困难,特别是准确的提取,需要较多的自然语言处理技术,而这些技术还不够成熟;第二采用词组表示文档在信息检索和文本分类中的效果并不比基于词的效果好,有时反而更差。

文化自信的特征第5篇

[关键词]图像分块 SIFT 自适应加权

中图分类号:TD353.5 文献标识码:A 文章编号:1009-914X(2016)18-0358-01

引言

人脸识别技术具有很大的实际应用价值,目前已广泛应用于金融、交通、身份识别等领域,人脸识别的关键在于对特征的提取。由于图像采集时光照、姿势、表情、遮挡变化等会使得人脸图像存在差异,这将给后续的识别阶段造成很大困难,如何能在非理想环境下提取出鲁棒性强的人脸特征是解决人脸特征识别的关键。本文提出了一种基于SIFT的优化人脸特征提取方法,能够更加细节地描述分块的边缘信息,并且充分考虑到了各分块的贡献度。

1 基于SIFT的分块加权人脸描述

1.1 图像分块处理

设样本图像为I,维数为,首先计算出分块模板的大小。其中,,b为重叠的范围,本文取10。之后根据分块模板对图像进行,,,边缘部分重叠分块,,分块结果如图1所示:

1.2 分块SIFT人脸特征提取

SIFT算法通过从不同的图像尺度空间上对图像的特征点进行检测与提取,确定关键点的方向信息。利用SIFT算法提取的关键点不会随着光照,缩放,仿射以及噪声等的变化而变化,图像特征提取的步骤为:

(1)建立尺度空间:利用高斯卷积核来获得高斯尺度空间金字塔并产生高斯差分尺度空间金字塔。

(2)对关键点进行检测:主要是通过将采样点处的像素值与其相邻的像素值进行比较,检测采样点处的像素值是否大于或者小于其图像域或尺度域中相邻的像素点的像素值。

(3)极值点中不稳定的极值点进行去除:去除不稳定的极值点主要利用三维二次的拟合函数来进行去除,通过删除不稳定的极值点以准确的对关键点的位置以及尺度进行确定。

(4)删除边缘效应:高斯差分算子有较强的边缘响应,去除边缘响应主要通过求Hessian矩阵的主曲率来去除。

(5)对关键点方向信息进行确定:方向信息的确定主要通过计算关键点周围的像素点的梯度方向的分布特性来实现的。

(6)特征点向量描述:特征点的描述有位置,尺度,方向信息,其中通过特征点周围的像素所形成的种子点的方向信息来对特征点的进行描述,形成128维的方向描述信息。

1.3 DICA优化降维处理

本文针对SIFT算法提取的特征向量维数过高的问题,利用DICA降维算法对传统的128维SIFT特征描述符进行降维。该降维方法很好的考虑到了人脸图像中的高阶统计特性,而人脸图像的高阶统计量中包含很多对人脸识别来说很重要的信息。

该降维方法首先用PCA方法对特征向量进行降维,并求取白化矩阵,之后用ICA来提取出特征矩阵中的独立的成分。经过DICA降维处理后的特征值向量从之前的128维降到20维,并且提取的特征向量对人脸图像更具有代表性,大大减少了后续进行分类识别的时间。

1.4 自适应加权

人脸图像进行重叠分块后,有些分块所含的信息量很大,而有些分块所含信息量确很少,本文考虑到每个分块的特征在进行识别时的贡献度不同,对分块图像提取的特征向量赋予权值,对提取的SIFT特征依据局部特征贡献度CM对其进行自适应加权处理,最后得到加权后的图像SIFT特征向量。

(1)

其中代表了第个子块中处的像素值。

2 试验结果

部分遮挡情况相当于在图像中添加了非常大的一个噪声,本文从ORL人脸库10个人的人脸图像中,每人选取1幅正面且姿势变化不大没有遮挡的人脸图像作为训练样本,测试样本为有部分遮挡的人脸图像。将本方法与LBP,PCA以及未改进的SIFT方法的识别效果进行比较,结果如图2所示:

3 总结

本文以提高人脸识别系统的识别率为目标,提出一种基于SIFT的改进分块自适应加权的人脸特征提取方法,重点对人脸识别系统中的特征提取方法进行改进研究。并在ORL人脸库中进行人脸识别实验,结果表明本算法用于非理想环境下具有良好的识别率。对姿态,表情,遮挡,光照的变化具有很好的鲁棒性,能达到理想的识别效果。

参考文献

[1]黄令允.基于自适应阈值的SIFT算法研究及应用[D].大连理工大学硕士学位论文,2010.

[2]刘佳,傅卫平,王雯,李娜.基于改进SIFT算法的图像匹配[J].仪器仪表学报,2013,05:1107-1112.

[3]胡敏,程天梅,王晓华.融合全局和局部特征的人脸识别[J].电子测量与仪器学报,2013,09:817-822.

文化自信的特征第6篇

关键词:特征选择;降维;评估函数;优缺点;遗传算法

中图分类号:TP301文献标识码:A 文章编号:1009-3044(2009)13-3489-02

1 引言

如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类(Textcate gorization)是指在给定分类体系下,根据文本的内容将其分到相应的预定义的类别的过程,是文本挖掘的一种重要的组成部分,对提高文本检索的速度和准确率作用显著。

文本分类大致可分为三个步骤:文本的向量模型表示,文本特征选择和分类器训练。为了兼顾运算时间和分类精度两个方面,我们不得不进行特征选择,力求在不损伤分类性能的同时达到降维的目的利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率

2 文本的向量模型表示

目前常用的向量模型表示方法是向量空间模型(Vector Space Model,VSM)是上个世纪 Salton 提出的检索系统的向量模型。向量空间模型将文档映射为一个特征向量V(d)=(t1, ω1(d);∧;tn, ωn(d)),其中ti(i=1,2,…,n)为一列互不相同的词条项,ωi(d)为ti在d中的权值,一般被定义为ti在d中出现频率tfi(d)的函数,即ω2(d)=ψ(tfi(d))。在该模型中,文本空间被视为一组正交词条向量所张成的向量空间。向量的维数往往是惊人的,包含噪声且特征不明显。

3 文本的特征选择

特征选择是对原始特征空间采取的降维措施即从一组候选特征中选出一些最有效的、对文本分类贡献最大的特征组成一个最优特征子集。从优化角度来看,特征选择的过程实际上是一个特征优化组合的过程。文本特征选择的目标是用少量的特征达到相同或更好的分类效果,因此,对于相同表达能力的个体,其特征数目越少越好。目前特征选择使用的统计统计方法主要有基于频数的特征频度、文本频度方法以及基于信息论的互信息、信息增益、期望交叉熵、χ2统计、相关系数、文本证据权等方法。下面就分别介绍最常用的4种方法:

3.1 文档频率(DF, Document Frequency)

文档频率可表示为

■(1)

它是最简单的评价函数,计算量小是它最大的特点。DF评价函数的理论假设是出现频率小的特征所含信息小,但这一假设显然是不全面的。因此,在实际运用中一般并不直接使用DF,而是把它作为评判它评估函数的一个标准。

3.2 信息增益(IG,Information Gain)

IG是一种在机器学习领域应用较为广泛的特征选择方法。它从信息论角度出发,以各特征取值情况来划分学习样本空间,根据所获信息增益的多少来筛选有效的特征。IG可以用下式表示:

■ (2)

式中,P(Ci|t)表示文本中出现特征t时,文本属于Ci的概率;P(Ci|t)表示文本中不出现单词t时,文本属于IG的概率;P(Ci)表示类别出现的概率;P(t)表示t在整个文本训练集中出现的概率。

3.3 互信息(MI, Mutual Information)

MI是信息论中的概念,用于度量一个消息中两个信号之间的相互依赖程度.在特征选择领域中,特征t和类别Ci的互信息体现了特征与类别的相关程度。在某个类别Ci中出现的概率高,而在其它类别中出现的概率低的特征t将获得较高的互信息。MI可表示为

■ (3)

3.4 χ2 统计量CHI(χ2 Statistic)

■(4)

式中,A是特征t和第A类文档共同出现的频度;B是特征t出现而第A类文档不出现的频度;C是第类文档出现而特征t不出现的频度;D是第A类文档和特征t都不出现的频度;N为总共的文本数。

χ2方法认为特征t与文本类别Ci之间的非独立关系类似于具有一维自由度的χ2分布。它基于如下假设:在指定类别Ci的文本中出现频率高的词语和在其他类的文本中出现频率高的词语,对判断文章是否属于类别Ci都有帮助。

4种特征选择方法的基本思想是对每一个特征即词条,计算它的某种统计的度量值,然后设定一个阈值T,把度量值小于T的那些特征过滤掉,剩下的即认为是有效特征。表1是4种特征选择方法的各自优缺点。

从表1可以看出,4种传统的特征选择方法都有自身的缺点,为了克服它们各自的缺点,本文提出在它们的基础上再利用遗传算法对其进行特征的选择。

4 遗传算法与传统文本特征选择方法相结合的算法

遗传算法模仿生物进化过程的自然选择和进化机制,是一种基于群体的全局随机优化算法。遗传算法对要求解的问题(参数)进行编码,在解空间产生初始解群体,通过遗传变异逐步向全局最优解进化。遗传算法作为比较成熟的算法,很多文献都有论述,这里不作详细介绍,可参阅文献[1,2,3]。本文所做的实验思想是:先利用传统的文本特征选择方法(DF、IG、MI、CHI)对文本特征进行选择,再用遗传算法进行筛选,最终选出符合文本分类的特征项。

4.1 遗传算法与传统文本特征选择法相结合的算法

输入:经过分词处理的词条集。

输出:文本特征集。

算法描述:

[T1].利用中科院的分词系统对文本进行分词,得一词条集T;

[T2].利用各公式对T进行传统文本特征选择方法的各公式计算,结果为T1;

[T3].T1的词条作为遗传算法的编码:出现的词条为1,未出现的词条为0,得一{0,1}的集合;

[T4].再利用TF-IDF公式进行权重计算:

■(5)

其中N为所有文档的数目,ni为含有词条ti的文档数目,tfi表示词条T在文档Di中的出现频数。

[T5] .适应度函数[4]

■ (6)

其中N为所有文档的数目,ni为含有词条ti的文档数目,tfi表示词条T在文档Di中的出现频数。

■ (7)

Wik、Wjk为向量Ti,Tj中的元素。

[T6].本文采用赌选择法,其基本思想是:各个个体被选中的概率与其适应度大小成正比。

■(8)

[T7] .交叉算子

本文采用一种新的交叉策略――插入交叉,其具体算法过程如下:

1) 随机选取父本,确定插入点和基因片段;

2) 插入基因片段;

3) 删除重复基因。

[T8] .变异算子

在本算法中先随机选取一个染色体,根据词条权重,由赌方式获取某个基因(即特征词),删除此基因,并在词汇表中随机选取一个染色体中没有的基因,放入该位置,从而形成一个新的原始后代。

5 实验结果与结束语

通过初步的实验,发现用特征选择法与遗传算法相结合的方法,在查全率与查准率上比单纯使用特征选择法或使用遗传算法进行特征的筛选上有明显的提高。但在时间上,使用的结合法所花时间就比较长,这是需改进的地方。

在四种选择法与遗传算法相结合中,IG+GA的效果是最好的,其次是CHI+GA,MI+GA的效果是最不佳的;DF+GA运行速度是最快的。

参考文献:

[1] 边肇祺,张学工.模式识别[M].北京:清华大学出版社,2000.

[2] 陈国良,王煦法,庄镇泉,等.遗传算法及其应用[M].北京:人民邮电出版社,1996.

文化自信的特征第7篇

〔关键词〕多模态信息;相似度计算;Folksonomy;RDF;文本聚类

〔中图分类号〕G250.73 〔文献标识码〕A 〔文章编号〕1008-0821(2016)12-0036-04

〔Abstract〕In a BIG DATA environment,the source of the crisis is complex,by using word similarity computation and network users free marking technology,the paper transfed the multimodal crisis information into a single information source,and an integrated model for the extraction of crisis information was established.The integrative course included three processes:collect information and extract features;describe and storage metadata;divide the feature domain.Realizing the integration of different sources of information sources,the paper provided a uniform information platform for emergency response of the crisis,to provide case analysis and intelligence warning.

〔Key words〕multimodal data;similarity computation;Folksonomy;RDF;text clustering

随着2015年“8.12”天津港的爆炸事件,应对突发事件的公共危机安全问题愈发受到了全社会的强烈关注。回顾近几年的公共安全突发事件[1],既有诸如“汶川”大地震的地质自然灾害,也有诸如“H7N9”禽流感的公共卫生事件。在网络化和信息化飞速发展的大数据环境下,面对诸如此类的公共安全突发事件,危机信息的呈现方式和载体形态逐渐多样化,采集的信息样本除了传统的结构化数据外,还有半结构化的文本数据和非结构化的图像数据。海量的多模态危机信息使管理决策部门迷失在信息的洪流中,给危机管理应对过程的预警机制和应急处理带来了巨大障碍,如何把形态各异的不同载体形式的海量危机信息进行统一标准和规范的整合与组织,为危机应对提供情报支持,是应对公共危机预警机制的重要环节,并受到了国内情报学领域专家的高度关注和积极探索。

毕玉青通过分析发现信息化社会中公共危机载体形态呈现出规模海量、影响广泛、未知性强、分散与集中相结合的大数据特质,提出应对危机管理的政府管理建议,从而提高危机应对的有效性[2]。

熊枫从传统政府危机信息管理中存在的问题出发,结合当前大数据时代的到来给政府危机信息管理带来的契机,进而深入探讨大数据时代政府有效管理危机信息,以弥补传统危机信息管理之不足的策略[3]。

武汉大学的李阳等通过分析大数据环境下的突发事件应急决策情报需求,提升应急决策情报支持能力,探索一种新的应急决策情报支持架构――以情报工程化为主导、情报平行化为支撑的“两融合”应急决策情报服务模式[4]。

吴春玉从政府决策过程入手,在分析不同决策过程信息需求的基础上,选定政府决策信息源,借鉴信息资源库的建设方法,构建政府决策信息采集模型[5]。

通过笔者对当前危机信息的相关文献整理研究后发现,危机情报的应急处理基本上都是围绕大数据环境下的情报需求,从研究作用机理入手,构建危机应对管理模型。本文通过理论研究和实例分析,使用词语相似度计算和Folksonomy自由标记语言,通过定量和定性相结合的分析手段,整合海量数据下不同载体形态的危机信息数据,按照统一的元数据标准规范进行存储,把多模态的危机信息转化成单一的情报信息源,聚类划分文本内容特征域集,从而为危机管理中的决策部门提供精准的危机情报。

1 TF.IDF、Folksonomy、RDF的概念及其模型

1.1 TF.IDF的概念及定义

著名的信息检索系统Smart中提出过一套词语权重的计算方法,这种度量词语在文档中反复出现程度的形式化指标称为TF.IDF。TF.IDF是信息检索领域常用的方法[6],计算词语的TF.IDF权重值,权重得分高的词语就是文本文档的主题词和关键特征词。

TF.IDF的定义如下:

定义1:假定文档集中有N篇文档,词项i在ni篇文档中出现,并且fij为词项i在文档j中出现的次数,词项i在文档j中的TF.IDF得分计算公式如下:

TFij.IDFi=(fij/maxkfkj)log2(N/ni)

TF是词项频率,是指词项在文档中出现次数和文档中所有词项出现的最大次数的比值,那么文档中出现次数最多的词项的TF值是1,文档中其余词项的频率都小于1;IDF是逆文档频率。

1.2 Folksonomy的概念及模型

随着WEB2.0的兴起,淡化了信息提供者和信息使用者之间的界限[7],网络用户越来越多的参与到资源的组织和共享中去。用户通过自己的主观认知和对资源的理解程度,对网络共享资源进行标记和整理,使得资源更加具体化并便于检索。从而形成了一种崭新的文献分类方法――自由分类法,即Folksonomy标记语言。

Folksonomy包含资源、标签和用户3个属性,基于Folksonomy的自由分类法是通过鼓励网络用户的兴趣爱好,针对网络资源标记标签的过程。譬如网络用户A和网络用户B,针对共享资源S1和S2,都标记了自己的标签Label1、Labe2、Labe3、Labe4。Folksonomy模型如图1所示。

1.3 RDF的概念与定义

资源描述框架(RDF)是面向语义Web的标准框架,是语义关联数据模型的重要组成部分,语义网的基本特征是面向文本所表示的数据,实现计算机自主阅读和理解的网络化搜索模式。语义网通过使用RDF资源描述框架直接进行深度的资源描述,RDF以标准的XML形式表达,提供一种表述、交换和利用元数据的框架[8]。

RDF的定义如下:

定义2:RDF通常采用三元组(R,D,F)的资源描述框架来描述信息资源或数据对象,其中R是表示资源信息或者数据对象的本身。di∈D={d1,d2,……dm}(i≤m),D是表示资源的m个属性,或者是事物的某些特性。fi∈F={f1,f2,……fm}(i≤m),F表示资源的每个属性相对应的键值等具体内容。

2 多模态危机信息的组织整合模型研究

网络泛在环境下,突发事件的危机数据来源复杂多样,因此采集获得的信息具有多元性和不确定性。危机信息的来源包括诸如危机管理平台以及遥感监控平台等途径,危机管理平台记录和收集了大量的文本类型数据集,而遥感监控平台则记录了大量的图像类型数据集。危机数据的组织整理是获得危机情报的基础工作,危机信息的组织整合过程包括数据集合内容特征项集的提取、信息的RDF资源描述存储和文本内容特征域的聚类划分3个阶段。危机信息的组织整合模型如图2所示。

2.1 内容特征项的提取

针对收集整理过程中生成的文本和图像数据载体信息,需要通过使用文本表示语言和网络用户自由标记的途径,把不同模态的危机信息源转化成计算机可以理解和阅读的单一的自然语言信息源,即通过文本数据和图像数据的语义降维模式,把多模态的信息源转化成基于内容特征项的词语集合表示。

2.2 元数据的统一存储

危机信息经过特征项的提取后,通过使用基于语义分析的RDF本体语言来描述危机信息的属性和概念,生成危机信息的资源描述框架,从而进行更深层次的资源信息组织。根据语义网技术RDF三元组的定义,重新进行深度的描述和整理,使非结构化的数据有序化、结构化和整体化,从而为危机信息数据的采集和萃取整合提供数据级的保障基础。

2.3 文本内容特征域的聚类划分

经过信息的整理和特征项集的采集提取之后,形成了以内容特征项集作为标识的词语集合。为了聚类发现已经存储的信息特征项集,通过采用计算词语集合的文本相似度距离来进行聚类计算,把规范化的信息集进行自组织分类,从而为危机信息的预警分析提供相同类型的案例。

3 多模态危机信息的内容特征项提取

公共危机信息采集的数据主要来源有两种:一种来源途径是危机管理平台通过采集网络社交网站的舆论信息而形成的文本数据;另外一种来源途径就是通过城市摄像头等传感设备采集到的图像数据格式。由于文本文档和图像文档都是不属于结构化的数据形态,为了使计算机能够识别和存储采集的危机信息,需要通过使用词语相似度计算和Folksonomy自由标记语言,转换成基于内容特征项的词语集合。

3.1 文本数据的内容特征项提取

文本载体类型的数据信息组织和存储,需要对文本文档的内容进行字词切分处理后,从文字中抽取能代表文档内容特征和彰显文档主题特征的关键词。把获得的关键词作为文档的项特征集合表示,使用文本内容的项特征集来描述相应的文本文档。描述主题的特征词的提取可以通过计算词语在文档中的重要程度来形式化表示,TF.IDF是信息检索中常见的形式化表示模型。

TF.IDF模型是测度词语在文本中重要程度的量化表示。其中TF是通过统计学的知识来衡量词语的重要性,是词语项在本文档中的出现频率,与词语在文档中出现次数成正比。IDF是逆文档频率,是样本集合中文档总数与出现词语项文档数的比值的对数,与词语项在样本集合中出现的次数成反比,TF.IDF模型通过测度TF和IDF的乘积,通过抑制单纯的词语频率度量方法,调整TF权值,可以有效的区分不同文档。

通过计算词语的TF.IDF权重值,选择TF.IDF计算得分最高的m个词语作为文本文档的特征词项,从而把文本载体型数据描述成m个词语项的集合进行信息存储。

文本载体型数据的内容特征项提取算法如下:

输入:N篇文档

输出:N个集合,每个集合包含m个词语

Begin

Step1.使用2-shingling算法进行字词的切分处理

Step2.调用停用词表删除文档中的停用词

Step3.计算词语文档中的TF.IDF权重,选择权重最大的m个词语作为文本的特征词项

Repeat Step1,Step2,Step3

Until所有文档处理完毕;

文本数据的内容特征项提取,即是通过使用词语相似度计算的表示算法,使用特征词语集合来表示文本内容,从而把获取的危机信息文本载体型数据进行结构化的统一表示和存储。

3.2 图像数据的内容特征项提取

图像数据的计算机存储是以图像的像素数组来构成,我们可以计算图像像素的平均数目等简单属性,但是无法给出任何图像特征的内容项。但是自由标记语言使得我们对图像内容的辨认和识别有了可能性,Folksonomy的自由标记语言允许和鼓励用户对网络上导航的图像信息数据库进行标记,因此针对图像数据的存储可以通过采用用户自由标记的关键词Tag项作为其内容特征的识别方法,使非结构化的图像载体类文件可以通过结构化的数据表示。

大数据环境下,Folksonomy中海量的用户参与资源信息的标记为我们确定图像的特征词项提供了数据基础,偶尔的错误标记也不会对该图像内容属性造成大的影响。自由标记语言统计图像的用户标签频次,通过可视化技术使资源的标签按照频次多少进行上浮和下沉,然后选择标引频次最高的关键词作为该图像的特征词项,从而完成图像载体形态数据的结构化表示过程。

图像数据的内容特征项提取算法如下:

输入:N个图像

输出:N个集合,每个集合包含m个词语

Begin

Step1.计算图像的所有标记词语的频率次数

Step2.选择频率次数最高的m个词语作为文本文档的特征词项

Repeat Step1,Step2

Until所有图像处理完毕;

根据图像数据表示的处理算法,把获取的危机信息图像格式数据进行文本表示,把图像数据的用户标记进行频次统计,提取对应的关键词项集合。

3.3 特征项集的RDF描述存储

文本文档格式和图像格式的危机信息数据经过提取代表内容特征的词语集合进行表示,萃取后的词语集合不但能够代表相应的数据源特征,而且能够把不同的数据来源进行归一化处理,转换成能够被计算机识别存储的结构化数据。

基于语义网关联数据挖掘算法的出现让突发事件应对相关的危机全数据采集成为可能。语义网是新一代的互联网核心,语义关联数据模型是指基于语义关联的数据表达和结构组织模型,该模型不但包含资源信息,同时也包含信息之间异构的语义结构。从而进行更深层次的资源信息组织,为危机数据的聚类计算提供基础条件。

危机信息中的资源描述框架中,R是危机信息来源,D是危机信息的内容特征属性,F是能够表示该危机内容特征的属性值,即特征项的集合。使用RDF三元组来表示和描述归一化处理后的危机数据,可以更深层次的揭示危机信息的内容特征属性,同时是非结构化的危机数据有序化。危机信息的元数据的RDF/XML表述如下:

〈?xml version=″1.0″?〉

〈rdf:RDF

xmlns:rdf=http:∥/1999/02/22-rdf-syntax-ns#

xmlns:dc=″WB000002″〉

〈rdf:Description〉

〈dc:feature〉

〈rdf:Bag〉

〈rdf:li〉关键词1〈/rdf:li〉

〈rdf:li〉关键词2〈/rdf:li〉

〈rdf:li〉关键词3〈/rdf:li〉

〈/rdf:Bag〉

〈/dc:feature〉

〈/rdf:Description〉

〈/rdf:RDF〉

危机信息的特征词项集合通过上述的RDF语义关联结构来描述和存储,把非结构化的多种数据存在形式转换成统一的、计算机可以识别的语义结构表示,为危机信息的聚类分析和情报预警提供数据级的基础保障。

4 基于Map-Reduce的危机信息聚类研究

公共危机信息经过采集后,形成了以内容项为特征的词语集合,因此可以通过采用计算不同词语集合之间的相似度距离来进行聚类计算,把采集的公共危机进行自组织分类,自动聚类已经存储的危机信息特征项集合,发现该危机的类型并建立危机模型,从而在危机预警期间为危机的管理决策部门提供相同类型的分析案例和预警方案,提高突发危机事件的应急处理能力。

本文词语集合之间的组织分类采用距离计算中的Jaccard距离度量。给定词语集合A和词语集合B,那么词语集合A和词语集合B的距离计算公式如下:

Jaccard(A,B)=1-SIM(A,B)(1)

SIM(A,B)=A∩B/A∪B(2)

假定词语集合A={关键词1;关键词2;关键词3;关键词4}和词语集合B={关键词1;关键词2;关键词3;关键词5},因此集合A和集合B的并集共有5个关键词语,集合A和集合B的交集是3个相同关键词,由公式(1)、(2)可知,词语集合A和词语集合B的距离Jaccard(A,B)=1-3/5=0.4,假定给定的距离阈值是0.5,距离阈值可以根据分类的实际效果进行设定。由于Jaccard(A,B)

在网络泛在环境下,通过各种渠道获得的危机信息是单个人和单台机器无法计算和处理的。面对海量的数据,分布式的高效存储系统具有高度的容错性和并发性,是处理海量数据的基础条件,同时分布式的高效处理系统就更加显得非常重要。Map-Reduce是非常强大的分布式计算方法,通过使用Map-Reduce计算模式的投影算法能满足非关系型危机数据的分布处理需要,支撑起组分异质型数据的融合处理,从而满足海量数据的同步计算和分布处理,保障大数据环境下海量危机信息数据的分类组织,为危机的预警管理提供情报支持。

5 结束语

针对危机信息中常见的两种存在形式,本文通过使用词语相似度计算和Folksonomy自由标记语言,把不同模态的危机信息源转化成单一的基于内容特征项的词语集合。然后通过使用基于语义分析的RDF本体语言来描述危机信息的属性和概念,生成危机信息的资源描述框架,聚类划分文本内容特征域集,把规范化的信息资源进行自组织分类,从而进行更深层次的资源信息组织和整合,为危机信息的预警分析提供相同类型的案例。但是还要加强其他信息情报机构的参与和纵向合作[9],为危机管理中的决策部门提供精准的危机情报,从而积极发挥情报效用,为突发事件的应急管理进行案例分析和情报预警。

参考文献

[1]郑红玲.突发事件应急管理面临的挑战及对策[J].领导科学,2010,29:55-56.

[2]毕玉青.基于大数据视野下的地方政府公共危机管理研究[J].现代经济信息,2016,(2):141,143.

[3]熊枫.基于大数据时代的政府危机信息管理研究[J].兰州学刊,2015,(5):193-197.

[4]李阳,李纲.工程化与平行化的融合:大数据时代下的应急决策情报服务构思[J].图书情报知识,2016,(3):4-14.

[5]吴春玉.政府决策信息采集模型研究[J].情报科学,2006,(3):373-376.

[6]覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013,(10):27-30.

[7]余本功,顾佳伟.基于Folksonomy和RDF的信息组织与表示[J].现代图书情报技术,2014,(11):24-30.