欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 期刊投稿 出版社 公文范文 精品范文

网络文化的分类(合集7篇)

时间:2023-06-12 16:09:08
网络文化的分类

网络文化的分类第1篇

P键词:深度学习;文本分类;多类型池化

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)35-0187-03

1 引言

为了进行分类,我们建立句子模型来分析和表示句子的语义内容。句子模型问题的关键在于一定程度上的自然语言理解。很多类型的任务需要采用句子模型,包括情感分析、语义检测、对话分析、机器翻译等。既然单独的句子很少或基本不被采用,所以我们必须采用特征的方式来表述一个句子,而特征依赖于单词和词组。句子模型的核心是特征方程,特征方程定义了依据单词和词组提取特征的过程。求最大值的池化操作是一种非线性的二次抽样方法,它返回集合元素中的最大值。

各种类型的模型已经被提出。基于成分构成的方法被应用于向量表示,通过统计同时单词同时出现的概率来获取更长的词组。在有些情况下,通过对词向量进行代数操作生成句子层面的向量,从而构成成分。在另外一些情况下,特征方程和特定的句法或者单词类型相关。

一种核心模型是建立在神经网络的基础上。这种模型包含了单词包或者词组包的模型、更结构化的递归神经网络、延迟的基于卷积操作的神经网络。神经网络模型有很多优点。通过训练可以获得通用的词向量来预测一段上下文中单词是否会出现。通过有监督的训练,神经网络能够根据具体的任务进行良好的调节。除了作为强大的分类器,神经网络模型还能够被用来生成句子[6]。

我们定义了一种卷积神经网络结构并将它应用到句子语义模型中。这个网络可以处理长度不同的句子。网络中的一维卷积层和多类型动态池化层是相互交错的。多类型动态池化是一种对求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化体现在两个方面。第一,多类型池化操作对一个线性的值序列进行操作,返回序列中的多个数值而不是单个最大的数值。第二,池化参数k可以被动态的选择,通过网络的其他参数来动态调整k的值。

卷积层的一维卷积窗口对句子特征矩阵的每一行进行卷积操作。相同的n-gram的卷积窗口在句子的每个位置进行卷积操作,这样可以根据位置独立地提取特征。一个卷积层后面是一个多类型动态池化层和一个非线性的特征映射表。和卷积神经网络在图像识别中的使用一样,为丰富第一层的表述,通过不同的卷积窗口应用到句子上计算出多重特征映射表。后续的层也通过下一层的卷积窗口的卷积操作计算出多重特征映射表。最终的结构我们叫它多类型池化的卷积神经网络。

在输入句子上的多层的卷积和动态池化操作产生一张结构化的特征图。高层的卷积窗口可以获取非连续的相距较远的词组的句法和语义关系。特征图会引导出一种层级结构,某种程度上类似于句法解析树。这种结构不仅仅是和句法相关,它是神经网络内部所有的。

我们将此网络在四种场景下进行了尝试。前两组实验是电影评论的情感预测[2],此网络在二分和多种类别的分类实验中的表现都优于其他方法。第三组实验在TREC数据集(Li and Roth, 2002)上的6类问题的分类问题。此网络的正确率和目前最好的方法的正确率持平。第四组实验是推特的情感预测,此网络将160万条微博根据表情符号自动打标来进行训练。在手工打标的测试数据集上,此网络将预测错误率降低了25%。

本文的概要如下。第二段主要阐述MCNN的背景知识,包括核心概念和相关的神将网络句子模型。第三章定义了相关的操作符和网络的层。第四章阐述生成的特征图的处理和网络的其他特点。第五章讨论实验和回顾特征学习探测器。

2 背景

MCNN的每一层的卷积操作之后都伴随一个池化操作。我们先回顾一下相关的神经网络句子模型。然后我们来阐述一维的卷积操作和经典的延迟的神经网络(TDNN)[3]。在加了一个最大池化层到网络后,TDNN也是一种句子模型[5]。

2.1 相关的神经网络句子模型

已经有很多的神经网络句子模型被描述过了。 一种比较通用基本的模型是神经网络词包模型(NBoW)。其中包含了一个映射层将单词、词组等映射到更高的维度;然后会有一个比如求和之类的操作。结果向量通过一个或多个全连接层来进行分类。

有以外部的解析树为基础的递归神经网络,还有在此基础上更进一步的RNN网络。

最后一种是以卷积操作和TDNN结构为基础的神经网络句子模型。相关的概念是动态卷积神经网络的基础,我们接下来介绍的就是它。

2.2 卷积

一维卷积操作便是将权重向量[m∈Rm]和输入向量[s∈Rs]进行操作。向量m是卷积操作的过滤器。具体来说,我们将s作为输入句子,[si∈R]是与句子中第i个单词相关联的单独的特征值。一维卷积操作背后的思想是通过向量m和句子中的每个m-gram的点积来获得另一个序列c:

[ci=mTsi-m+1:i (1)]

根据下标i的范围的不同,等式1产生两种不同类型的卷积。窄类型的卷积中s >= m并且会生成序列[c∈Rs-m+1],下标i的范围从m到s。宽类型的卷积对m和s的大小没有限制,生成的序列[c∈Rs+m-1],下标i的范围从1到s+m-1。超出下标范围的si窄(i < 1或者i > s)置为0。窄类型的卷积结果是宽类型的卷积结果的子序列。

宽类型的卷积相比于窄类型的卷积有一些优点。宽类型的卷积可以确保所有的权重应用到整个句子,包括句子收尾的单词。当m被设为一个相对较大的值时,如8或者10,这一点尤其重要。另外,宽类型的卷积可以确保过滤器m应用于输入句子s始终会生成一个有效的非空结果集c,与m的宽度和s句子的长度无关。接下来我们来阐述TDNN的卷积层。

4 验与结果分析

我们对此网络进行了4组不同的实验。

4.1 电影评论的情感预测

前两组实验是关于电影评论的情感预测的,数据集是Stanford Sentiment Treebank.实验输出的结果在一个实验中是分为2类,在另一种试验中分为5类:消极、略微消极、中性、略微积极、积极。而实验总的词汇量为15448。

表示的是电影评论数据集情感预测准确率。NB和BINB分别表示一元和二元朴素贝叶斯分类器。SVM是一元和二元特征的支撑向量机。在三种神经网络模型里――Max-TDNN、NBoW和DCNN――模型中的词向量是随机初始化的;它们的维度d被设为48。Max-TDNN在第一层中滤波窗口的大小为6。卷积层后面紧跟一个非线性化层、最大池化层和softmax分类层。NBoW会将词向量相加,并对词向量进行非线性化操作,最后用softmax进行分类。2类分类的MCNN的参数如下,卷积层之后折叠层、动态多类型池化层、非线性化层。滤波窗口的大小分别7和5。最顶层动态多类型池化层的k的值为4。网络的最顶层是softmax层。5类分类的MCNN有相同的结构,但是滤波窗口的大小分别为10和7,k的值为5。

我们可以看到MCNN的分类效果远超其他算法。NBoW的分类效果和非神经网络算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因为过度池化的原因,丢弃了句子太多重要的特征。除了RecNN需要依赖外部的解析树来生成结构化特征,其他模型都不需要依赖外部资源。

4.2 问题分类

问题分类在问答系统中应用非常广泛,一个问题可能属于一个或者多个问题类别。所用的数据集是TREC数据集,TREC数据集包含6种不同类别的问题,比如一个问题是否关于地点、人或者数字信息。训练集包含5452个打标的问题和500个测试集。

4.3 Twitter情感预测

在我们最后的实验里,我们用tweets的大数据集进行训练,我们根据tweet中出现的表情符号自动地给文本进行打标签,积极的或是消极的。整个数据集包含160万条根据表情符号打标的tweet以及400条手工标注的测试集。整个数据集包含76643个单词。MCNN的结构和4.1节中结构相同。随机初始化词向量且维度d设为60。

我们发现MCNN的分类效果和其他非神经网络的算法相比有极大的提高。MCNN和NBoW在分类效果上的差别显示了MCNN有极强的特征提取能力。

5 结语

在本文中我们阐述了一种动态的卷积神经网络,它使用动态的多类型池化操作作为非线性化取样函数。此网络在问题分类和情感预测方面取得了很好的效果,并且不依赖于外部特征如解析树或其他外部资源。

参考文献

[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.

[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.

[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.

[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

网络文化的分类第2篇

关键词 网络信息资源 信息组织 分类法 分类类目

中图分类号:R329 文献标识码:A

网络信息交流打破了时空限制,方便快捷的同时也伴随着信息大爆炸的问题,如何合理有效组织庞大的网络信息资源,是互联网行业良性发展的必要基础。国内相关研究成果众多,将择其代表性成果概括如下:

一、网络信息资源组织方法

由于网络信息随意,自由度大,新旧信息变换交替周期短,欠缺必要的质量审核、监督、过滤和质量控制,网络信息资源具有分布无序性、分布不均衡性、分布非对称性、分布动态性几个主要特点①。基于此,学界尝试过很多分类方法去组织网络信息资源,如尚克聪认为信息组织的基本方法有信息的序化方法和信息的优化方法,可根据网络信息资源的特征划分为不同层次信息资源进行组织和管理②。张俊认为目前使用较为广泛的网络信息组织方式有四种: 文件方式、数据库方式、主题树方式和超媒体方式③。

由于划分角度导致划分结果不尽相同,但总体上可划分为两种方法,即传统文献分类法的延续使用和新型网络分类法。目前国际上已有不少传统文献分类法应用于浏览器机构基础的例子, 如Traugott、UDC 、LCC 、NLM、DOC等④。李宏轩指出传统文献信息组织方法把信息片段视为一个孤立的计量单位,属于微观层面,而网络信息是自组织的,属于宏观范畴;信息组织与信息自组织对于信息有序化都是必要的,两者之间应具有功能的互补⑤。在具体的网络信息资源组织方法中,有学者提出了自动方式和人工方式的区分,杨丹指出目前大多数搜索引擎采是采用自动方式进行网络信息资源分类,即由计算机专家设计开发的搜索软件自动对网络信息进行搜索、加工;但缺点是未经人工编排,信息质量不高。而人工方式则是搜索引擎数据库的建立依靠人工编辑加工数据,缺点是费时费力,建议将两种方法结合起来处理网络信息,能充分利用自动分类的高速度,又可发挥人工处理的专指性⑥。

二、网络信息资源的分类体系

当前网络信息基本根据自身用途和特点进行信息分类,可按照关注点不同进行检索,查准率高,适合不确定检索,基本符合网络信息特征进行分类,但其中的问题也显而易见,如知识领域不全和知识体系不严密、覆盖面太广,专指性差、类目划分逻辑混乱、类目设置随意、类目划分缺少规范、类名概念选用不科学等⑦。因此,在选用合理信息组织方法基础上,编制科学合理的网络信息类目,是此方面研究的又一重点,我国学者也对此做了大量相关研究。

(一)传统文献信息分类法的适应性和可行性。

以《中图法》为代表的传统文献分类法在网络信息分类中的适应性和可行性是目前学界争论的一个焦点;如贺定安认为由于《中图法》是我国目前图书情报界使用最广泛、最有效的综合性分类法,为了保持一致,应当在《中图法》的基础上,编制《中图法・网络信息分类表》⑧。王忠红认为应当以传统文献分类法为基础,进行适当改造以适应网络信息环境,其认为传统文献分类法不适应网络信息环境,应当重建信息分类体系。并提出除采用目前在《中图法》中广泛使用的“硬分类”方法之外,还应采用交叉学科单独列类的“软分类”方法来重建网络信息分类体系⑨。郑庆胜等认为传统文献信息分类法的分类对象与网络信息分类体系的分类对象不同,但两者都是对知识、信息的组织,这一共性决定了网络信息分类能借鉴文献信息分类法的原理和方法来建立分类体系⑩。邓香莲则从网络信息自身及需求特点角度分析了传统文献分类法在网络信息分类中的不适应性,提出应当编制一部网络信息分类法 。史学斌认为传统文献分类法无法适应网络信息分类,建立有别于传统文献分类法的网络信息分类体系非常有必要性 。

综合而言,争论主要集中于传统文献分类法在网络信息分类中的适应程度上,归纳为两种基本观点,一是认为传统文献分类法能基本适应网络信息分类,可做适当修改加以延用。二是认为传统文献分类法无法适应网络信息分类,应当完全摒弃,制定全新的网络信息资源分类体系。

(二)中文网络信息分类目录是否应当建立统一标准。

当前各主流中文网络信息分类体系大都有类目设置逻辑性差,类名概念不科学、措词随意、分类体系各不相同、无统一标准的弊病。基于此,学界也提出了应对办法,如周淑云指出现有网络信息分类类目不统一,造成资源浪费,应当集中力量由情报语言学家、计算机专家和标准化专家共同研究建立统一的中文网络信息分类体系 。李曙光等认为应当借鉴传统分类法,规范现有网络信息分类体系,构建制定统一的网络信息分类体系和分类法 。刘颖认为应该遵循“面向网络信息资源、面向网络技术环境、面向网络用户”的原则,构建统一的网络信息分类法 。陈树年指出有必要建立统一的中文网络信息分类体系,认为在大陆地区建立统一网络信息分类体系是可行的。一旦大陆主体中文网络信息采取统一的分类类目,港台及国外的其它中文搜索引擎也必然会采用相同的规范 。

但也有反对的观点,如侯汉清等认为,现有的所有搜索引擎应抛弃自己原有的分类体系,统一这条路对于个性化强烈的网络信息分类是走不通的。但可以设计一个具有元搜索引擎功能的对各类搜索引擎能兼容互换的工具进行信息组织 。

虽然传统文献分类法的利弊各有体现,但在没有能完全适应网络信息资源特点的分类体系出现之前,传统文献分类法必然是网络信息分类法的重要基础,强自立统计了目前应用于网络信息分类的传统文献信息分类法,大致有如下8种:主题分类法、学科分类法、分面组配法、体系分类法、杜威十进制分类法 (DDC)、国际十进分类法 (UDC)、国会图书馆分类法(LCC)、中国图书馆图书分类法 。主流网站Yahoo和sohu的网络类目设置中,也大量应用了传统文献分类法的思想,如Yahoo共分 14个一级类目、403个二级类目,采用的重复反映符号共98 个;利用宽泛的主题领域,建立结构化的分类目录体系,Sohu也采用相同方法,并将每个网址做一个摘要信息,作为对该网站的概括介绍,同时支持关键词检索方式 。

总的来说,目前传统文献分类法已经在网络信息分类中得到应用,且体现了传统文献分类法完整性、科学性、逻辑性等优点,目前网络信息分类法的主要不足体现在分类标准不统一、类目排列缺乏系统性、类名缺乏科学性、编制方法成本较高、效率受到限制几个方面;因此,基于网路信息资源特点,研究制定统一、完整、科学、高效的网络信息资源分类体系,是当前领域研究的重点。

三、网络信息资源组织新趋势

网络信息组织分类方法该往什么方向发展,是该领域又一重点关注焦点,王平认为知识网格技术可以很好的适应网络信息动态性强的特点,知识网格将分散在网络各个独立自治站点上的“信息孤岛”集成起来,对用户提供统一访问接口,屏蔽底层信息分布、异构带来的技术复杂性。利用知识网进行信息资源组织,可以使用户透明地使用整个网络上的所有信息资源,提高信息资源的利用率,知识网格将是网络信息资源组织管理的新趋势 。另外,强自立介绍了采用自动分类技术进行网络信息分类,分为两种方法:一是以抽词标引、词频统计、自动聚类为基础的方式;二是以赋词标引为基础,事先确定分类体系,确定各类目的关键词,并用这些词标引网页内容,进行自动归类 。陈旭认为可将传统分类法和主题法中的复分技术、仿分技术、组配技术、分面技术等应用到网络信息分类系统中。在综合性的搜索引擎分类体系中,可采用部分分面分类的思想,而在专业性强的搜索引擎中,可采用分面分类的用户界面,提高检索可视化水平 。邓均华指出有必要编制一部能被计算机识别的适于对各种信息进行自动标引的数字化分类法,从而将信息管理纳入到计算机自动化管理系统中去,将是网络信息分类工具发展的趋势 。苏广利比较系统的阐述了网络分类方法的趋势,认为内容范围专业化、编制机构协作化、内容范围专业化、类目体系多维化、类目显示直观化、类目层次缩简化、同位类排列规范化,类名语言自然化、标引技术自动化是网络信息资源的分类趋势 。

由于网络信息资源复杂、动态的特点,不能盲目的从某一个侧面去制定和衡量网络信息分类方法,除上述有突出代表性的观点,学界还有“分类主题一体化、分类工具标准化、搜索规则智能化 等网络信息资源组织方法趋势观点,网络信息分类到底何去何从,我们将期待它的进一步研究。

(作者:陈涛,云南大学2010级情报学专业硕士研究生;于高乐,云南大学2010级图书馆学专业硕士研究生;宋晓娅,云南大学2010级档案学专业硕士)

注释:

①罗庭芝.网络信息分类法研究.河南图书馆学刊 .2007/ 12 第27 卷第6 期.

②尚克聪.信息组织论要.图书情报工作.1998.11.

③张俊.网络计算环境及其信息组织技术研究.图书情报工作.1999(10).

④胡冰.网络信息资源组织方法综述. 情报科学.2003/4 第23卷第4期.

⑤李宏轩.混乱中的秩序:Internet信息自组织.图书情报工作.2000年第11期.

⑥杨丹.网络环境下的信息资源分类.江西社会科学.2004/7.

⑦刘鹏飞.近年来中文网络信息分类研究综述.图书馆学研究.2004/10.

⑧贺定安.关于编制《中图法・网络信息分类表》的构想.国家图书馆学刊.2002(3).

⑨王忠红.网络信息环境下的传统分类法.图书情报工作.1999(2):37~39.

⑩郑庆胜,易晓阳.从新浪等网站看网络信息分类体系的建立.图书馆建设.2003 (1).

邓香莲.文献信息分类与网络信息分类之比较研究.情报资料工作.2002(6).

史学斌.网络信息分类体系.图书馆.2002(2).

周淑云.分类主题一体化构建网络信息分类体系.现代情报.2003(4).

李曙光,尹爱蓝.浅谈文献信息分类与网络信息分类.图书情报论坛.2003(2).

刘颖.试论网络信息分类的现状与未来.晋图学刊.2003(1).

陈树年.搜索引擎及网络信息的分类组织.图书情报工作;2000(4).

侯汉清,薛春香.中文搜索引擎分类体系兼容互换工具的设计.中国图书馆学报;2003 (1):85~89.

强自立.网络分类目录及其分类法.大学图书馆学报.1999年第4期.,

杨丹.网络环境下信息资源分类.江西社会科学.2004/7.

王平.知识网格技术与图书馆信息资源的组织开发.现代情报 .2006(7).

强自立.网络分类目录及其分类法.大学图书馆学报.1999年第4期,

陈旭.分面分类在网络资源组织中的应用.图书情报工作,2002(1).

邓均华.数字图书馆与数字化分类法.国图书馆学报.2001 (4).

网络文化的分类第3篇

分类组织方式是网络信息资源组织的一种重要方式。目前,大多数提供网络信息服务的搜索引擎或门户网站都采用自编的分类体系进行信息组织。这些分类体系虽然充分考虑了用户的需求和网络信息的特点,突出了个性,方便了使用,但这些体系仍然存在许多有待改进的问题。

1.1 学科大类设置不全,知识体系不完整

以中文雅虎(Yahoo)为例,它将网络信息分为14个宽泛的类目,每个大类又分出若干二级类,二级类目下细分出三级类目,可根据需要细分出四、五级类目。可以说,Yahoo采取的是一种逐层扩充的方法,以使知识的覆盖面越来越全。但是,从Yahoo分类每年都发生的明显变化和迅速增长的网络信息资源我们可以看到,仅仅设置这14个大类是难以涵盖人类社会生产生活的各个方面的。又如搜狐(sohu),将网络信息分为18个大类,网易(WWW.163.com)将网络信息分为19个大类,都有类似情况。总之,由于各种原因,现在的网站分类设置还不完善。知识覆盖不全,体系过于简单。几乎所有的中文搜索引擎的分类体系都存在着知识残缺不全、体系设计不完整的通病。

1.2 类目划分标准不够合理

信息资源在同一层次下划分的标准不够统一,有时出现两个或两个以上划分标准的现象。具体来讲,同一层次类目在选择上存在的问题有:一方面,网站为了突出当今的热门和主流信息,将一些下级类目提升到大类中,如大多数中文网站把“电脑网络”或“计算机与网络技术”与“科学技术”并列为大类;又如网易将“体育竞技”和“少儿乐园”放在大类中。另一方面,子类的设置的标准问题,如Yahoo的“科学”这一大类下设有“电脑与信息技术”、“活动”、“教育”、“科普”、“酷站”、“能源”、“字典”、“组织”等等的二级类目。此外,在大类的展开中常出现整体不包含局部的违反逻辑规则的现象。

1.3 各网站采用的分类标准不同,各行其是,导致了用户在使用时无所适从

以网络信息资源为基础建立类目体系,虽有较好的实用性,但类目划分的规律性不强,从而造成了各搜索引擎的分类不一致,体系也不太严密、科学,类名不规范,各个搜索引擎设立分类目录时力图突出的是自己的特色。

如新浪设立了“少儿搜索”大类,搜狐把“公司企业”单独列为一个大类,这就使得用户在使用时必须对某个搜索引擎的类目比较熟悉,否则当人工的分类有时与某些用户的习惯不一致时,会造成这些用户无法在正常的路径中找到资料。

1.4 类目名称设置不够规范合理,不能全面反映类目的内容,给用户查找易造成误解

类名有时不能确切地概括类目的内涵,有时只有象征意义。此外,由于类目的下位类范围较宽,上位类有时很难有效限定其含义,再加上网络自编分类体系一般不使用注释揭示类目内涵,容易使一些类目的含义和范围难以确定。

设置好类目名称关键是选好类日用词。很多网络分类体系中采用一些含义模糊的语词,而且没有注释,这就使用户很难判断该类目的外延。如“网易”的“另类科学”,“搜狐”的“生活情趣”等类名,如果没有注释,根本就无法明白该类的内容包括什么。

1.5 类目排列缺乏逻辑性

目前,中文网站总的来讲类目排列比较随意,外延常常有交叉重叠。几乎所有的中文搜索引擎的分类体系都存在着类目排列混乱的通病。如新浪、网易、搜狐、中华网在线等,都把“文学”与“艺术”、“电脑网络”与“科学技术”、“经济”与“文化”及“政治”等原本密切的大类,却人为地分割开来。又如网易对“文学”大类之下15个二级类目的排列,逻辑性不是很强。再如新浪对”文学”大类之下30个二级类目的排列,即便是按类目的使用频率或访问量序列排列,也使人感到排列次序不规律,不易查找。

1.6 从事网络信息分类组织的人员都大多是非专业的分类人员,缺乏专业知识

随着网络信息资源的迅速增长以及信息需求的不断加大,网站业务量也快速攀升,而建立一个优秀的中文搜索引擎是一项庞大复杂的系统工程,在技术、设备、人力、财力的投入上都有比较高的要求。因此,许多网站扩大了工作人员的招收数量和范围,与此同时,许多网站却忽视了引进有信息处理专业知识的人才,因此造成了许多诸如以上提到的网络信息分类组织方面的问题。

面对海量网络信息,其分类体系的诸多弊端为用户充分利用网络信息、开发共享网络资源带来严重困难。因此,构建规范合理的网络信息分类体系,实现网络信息分类组织标准化已是大势所趋。

2 国内有关学者的研究观点

从1998年开始,国内对网络信息分类组织的研究此起彼伏。其中,有许多学者表达了网络信息组织“标准化”的思想。如黄如花在文献1中指出要“信息描述标准化”;又如郑福根在文献2中认为网络信息组织的原则之一就是“标准化原则”;再如张林龙在文献3中指出“建立统一的网络信息分类标准成为网络信息分类组织的迫切需要”等等。此外,从近几年的研究成果来看,要编制一部适用于网络信息分类组织的分类法已具备了一定的理论基础,此说法可从刘延章、余义芳在文献4中对1998年~2002年这5年间160余篇有关网络信息分类组织研究的一些结果中略见一二。下面是文献4中的部分观点:

(1)关于网络信息、网络信息用户、网络信息技术环境特点方面的研究成果极大地提高了我们对网络信息分类检索工具的标引对象、使用对象、所处环境的认识,为编制高质量的网络信息分类法打下了认识基础。

(2)关于网络信息分类法与传统文献分类法方面的比较研究为我们借鉴二者各自的特点、编表的理论、方法和技术提供了便利,从而为编制高质量的网络信息分类法打下了理论基础。

(3)关于传统分类法应用于网络信息分类组织方面的研究虽然有助于传统分类法特别是《中图法》自身的调整和改造,使之适应于网络信息分类组织的需要,但也为更好地编制网络信息分类法打下了方法基础。

(4)关于现代技术应用于网络信息分类组织方面的研究为编制高质量的网络信息分类法奠定了坚实的技术基础。

(5)关于中文网络信息分类体系的特点、问题及其改进方面的研究对于编制高质量的网络信息分类法具有现实的借鉴意义。

(6)关于统一的中文网络信息分类法编制方面的研究对编制高质量的网络信息分类法奠定了扎实的基础。

从上述研究结果可以看出,我国编制一部高质量的网络信息分类法具备了一定的理论研究基础和技术实现条件,为实现网络信息分类组织标准化提供了强有力的保障。

3 对网络信息组织标准化的构想

通过以上分析,要实现网络信息组织标准化,编制一部适于网络信息组织的《分类法》是非常紧迫,也是切实可行的。但网络环境下的信息分类体系与传统文献分类体系相比存在着许多差异:①网络分类是以事物为中心,而不是以学科为中心列类;②网络信息分类是以网络资源为分类的基本对象,类目收录对象的范围更广;③采用了更多的信息技术;④直接采用语词进行信息标引;⑤传统分类是以线性方式展开类目,而网络分类是以网状方式进行超文本链接;⑥更新速度快。因此,编制网络信息分类法应考虑以下两大方面。

3.1 宏观构想

编制网络信息分类法,实现网络信息组织标准化,应体现以下主要原则:

(1)科学性原则。网络信息分类法应结合网络信息资源的特点,在充分揭示各学科之间内在联系和相互关系的基础上,将学科分类与事物分类相结合,构建一套科学合理的网络分类体系。

(2)继承性原则。网络信息分类法应吸收传统分类法的精华,吸收目前各中文网站分类体系的优点,结合现代信息技术来共同建造。对传统的东西不能全盘抛弃,也不能全盘吸收,应在吸收借鉴的基础上有所创新,有所发展。

(3)动态性原则。由于互联网是一个多元、开放的信息系统,因此,网络信息资源具有范围广、数量大、动态性强的特点。这就要求网络信息分类也要随着互联网内容的变化及时调整,使各种类型的网络信息资源都能在分类法中找到自己的位置。

(4)实用性原则。网络信息分类法应考虑网络环境下用户需求的特点。在类目的设置上,既要体现分类体系的相对稳定性,又要方便用户快速查询。类目数量控制在20~25个,类目层次展开至3~4级为宜。

(5)多维性原则。传统分类法以线性方式揭示文献信息内容,而网络信息分类法要尽可能全面而深入地揭示网络信息的内容和形式,多层次、多途径、全方位、多角度地进行信息揭示和描述,用超文本链接技术,变线性方式为网状方式,构建新型网络信息分类体系。

(6)开放性原则。网络信息分类体系具有相对的稳定性,但网络信息资源的开放性和动态性决定了网络分类体系也要随时增添新的内容。同时,不断吸收新思想、新技术,进一步满足和适应社会以及科技发展的需要。

3.2 微观构想

根据上述对网络信息分类法宏观构想原则,结合传统分类法和现有网络信息分类体系的研究成果,笔者针对网络信息资源中的一类资源——综合性网站的框架构建了5大板块,对其中内容相对稳定的休闲娱乐、社会科学、自然科学和综合信息四大板快设计了22个一级类目。该分类体系以主题为主要聚类标准,充分体现网络信息组织分类——主题一体化思想。具体如下:

一级类目

热门追踪板块:考研 聊天室 游戏 同学录 人物 明星 下载专区 招聘  动漫 flash......

休闲娱乐板块:新闻与媒体 娱乐与休闲 体育与健康 旅游与交通 生活与服务

社会科学板块:社会文化 哲学与宗教 政治与法律 军事与战争 经济与金融 教育与就业 人文与艺术 历史与地理

自然科学板块:自然科学 医疗与卫生 农业科学 计算机与网络 工程技术 环境科学

综合信息板块:国家与地区 参考资料 综合网站

上述各板块中,热门追踪板块内容不固定,根据网上热点话题的变化而变化,其余四个板块的内容相对稳定,即休闲娱乐板块包括5个一级类目;社会科学板块包括8个一级类目;自然科学板块包括6个一级类目;综合信息板块包括3个一级类目。

Internet是一个开放、动态的网络体系,对其分类体系的构建,实现网络信息分类组织标准化是一个逐步完善的过程。本文所探讨的分类体系也需要进一步细化和发展,相信经过不断的努力和实践,实现网络信息分类组织标准化的这一天不会太晚。

参考文献

1 黄如花.网络信息组织的发展趋势.中国图书馆学报,2003(4)

2 郑福根.网络信息组织的理论与方法探讨.现代情报,2004(6)

3 张林龙.网络环境下的信息组织.情报杂志,2003(10)

4 刘延章,余义芳.近五年来网络信息分类组织研究的现状及其展望.情报学报,2004(4)

5 王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4)

6 陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4)

7 董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(4)

8 王本欣.网络信息资源组织研究.图书馆学研究,2004(5).

9 宋剑祥.从国外分类法看《中图法》对网络信息资源的组织.图书与情报,2004(2)

10 宋蓓玲.浅析构建网络信息分类体系.情报业务研究,2004(8)

网络文化的分类第4篇

分类组织方式是网络信息资源组织的一种重要方式。目前,大多数提供网络信息服务的搜索引擎或门户网站都采用自编的分类体系进行信息组织。这些分类体系虽然充分考虑了用户的需求和网络信息的特点,突出了个性,方便了使用,但这些体系仍然存在许多有待改进的问题。

1.1学科大类设置不全,知识体系不完整

以中文雅虎(Yahoo)为例,它将网络信息分为14个宽泛的类目,每个大类又分出若干二级类,二级类目下细分出三级类目,可根据需要细分出四、五级类目。可以说,Yahoo采取的是一种逐层扩充的方法,以使知识的覆盖面越来越全。但是,从Yahoo分类每年都发生的明显变化和迅速增长的网络信息资源我们可以看到,仅仅设置这14个大类是难以涵盖人类社会生产生活的各个方面的。又如搜狐(sohu),将网络信息分为18个大类,网易()将网络信息分为19个大类,都有类似情况。总之,由于各种原因,现在的网站分类设置还不完善。知识覆盖不全,体系过于简单。几乎所有的中文搜索引擎的分类体系都存在着知识残缺不全、体系设计不完整的通病。

1.2类目划分标准不够合理

信息资源在同一层次下划分的标准不够统一,有时出现两个或两个以上划分标准的现象。具体来讲,同一层次类目在选择上存在的问题有:一方面,网站为了突出当今的热门和主流信息,将一些下级类目提升到大类中,如大多数中文网站把“电脑网络”或“计算机与网络技术”与“科学技术”并列为大类;又如网易将“体育竞技”和“少儿乐园”放在大类中。另一方面,子类的设置的标准问题,如Yahoo的“科学”这一大类下设有“电脑与信息技术”、“活动”、“教育”、“科普”、“酷站”、“能源”、“字典”、“组织”等等的二级类目。此外,在大类的展开中常出现整体不包含局部的违反逻辑规则的现象。

1.3各网站采用的分类标准不同,各行其是,导致了用户在使用时无所适从

以网络信息资源为基础建立类目体系,虽有较好的实用性,但类目划分的规律性不强,从而造成了各搜索引擎的分类不一致,体系也不太严密、科学,类名不规范,各个搜索引擎设立分类目录时力图突出的是自己的特色。

如新浪设立了“少儿搜索”大类,搜狐把“公司企业”单独列为一个大类,这就使得用户在使用时必须对某个搜索引擎的类目比较熟悉,否则当人工的分类有时与某些用户的习惯不一致时,会造成这些用户无法在正常的路径中找到资料。

1.4类目名称设置不够规范合理,不能全面反映类目的内容,给用户查找易造成误解

类名有时不能确切地概括类目的内涵,有时只有象征意义。此外,由于类目的下位类范围较宽,上位类有时很难有效限定其含义,再加上网络自编分类体系一般不使用注释揭示类目内涵,容易使一些类目的含义和范围难以确定。

设置好类目名称关键是选好类日用词。很多网络分类体系中采用一些含义模糊的语词,而且没有注释,这就使用户很难判断该类目的外延。如“网易”的“另类科学”,“搜狐”的“生活情趣”等类名,如果没有注释,根本就无法明白该类的内容包括什么。

1.5类目排列缺乏逻辑性

目前,中文网站总的来讲类目排列比较随意,外延常常有交叉重叠。几乎所有的中文搜索引擎的分类体系都存在着类目排列混乱的通病。如新浪、网易、搜狐、中华网在线等,都把“文学”与“艺术”、“电脑网络”与“科学技术”、“经济”与“文化”及“政治”等原本密切的大类,却人为地分割开来。又如网易对“文学”大类之下15个二级类目的排列,逻辑性不是很强。再如新浪对”文学”大类之下30个二级类目的排列,即便是按类目的使用频率或访问量序列排列,也使人感到排列次序不规律,不易查找。

1.6从事网络信息分类组织的人员都大多是非专业的分类人员,缺乏专业知识

随着网络信息资源的迅速增长以及信息需求的不断加大,网站业务量也快速攀升,而建立一个优秀的中文搜索引擎是一项庞大复杂的系统工程,在技术、设备、人力、财力的投入上都有比较高的要求。因此,许多网站扩大了工作人员的招收数量和范围,与此同时,许多网站却忽视了引进有信息处理专业知识的人才,因此造成了许多诸如以上提到的网络信息分类组织方面的问题。

面对海量网络信息,其分类体系的诸多弊端为用户充分利用网络信息、开发共享网络资源带来严重困难。因此,构建规范合理的网络信息分类体系,实现网络信息分类组织标准化已是大势所趋。

2国内有关学者的研究观点

从1998年开始,国内对网络信息分类组织的研究此起彼伏。其中,有许多学者表达了网络信息组织“标准化”的思想。如黄如花在文献1中指出要“信息描述标准化”;又如郑福根在文献2中认为网络信息组织的原则之一就是“标准化原则”;再如张林龙在文献3中指出“建立统一的网络信息分类标准成为网络信息分类组织的迫切需要”等等。此外,从近几年的研究成果来看,要编制一部适用于网络信息分类组织的分类法已具备了一定的理论基础,此说法可从刘延章、余义芳在文献4中对1998年~2002年这5年间160余篇有关网络信息分类组织研究的一些结果中略见一二。下面是文献4中的部分观点:

(1)关于网络信息、网络信息用户、网络信息技术环境特点方面的研究成果极大地提高了我们对网络信息分类检索工具的标引对象、使用对象、所处环境的认识,为编制高质量的网络信息分类法打下了认识基础。

(2)关于网络信息分类法与传统文献分类法方面的比较研究为我们借鉴二者各自的特点、编表的理论、方法和技术提供了便利,从而为编制高质量的网络信息分类法打下了理论基础。

(3)关于传统分类法应用于网络信息分类组织方面的研究虽然有助于传统分类法特别是《中图法》自身的调整和改造,使之适应于网络信息分类组织的需要,但也为更好地编制网络信息分类法打下了方法基础。

(4)关于现代技术应用于网络信息分类组织方面的研究为编制高质量的网络信息分类法奠定了坚实的技术基础。

(5)关于中文网络信息分类体系的特点、问题及其改进方面的研究对于编制高质量的网络信息分类法具有现实的借鉴意义。

(6)关于统一的中文网络信息分类法编制方面的研究对编制高质量的网络信息分类法奠定了扎实的基础。

从上述研究结果可以看出,我国编制一部高质量的网络信息分类法具备了一定的理论研究基础和技术实现条件,为实现网络信息分类组织标准化提供了强有力的保障。

3对网络信息组织标准化的构想

通过以上分析,要实现网络信息组织标准化,编制一部适于网络信息组织的《分类法》是非常紧迫,也是切实可行的。但网络环境下的信息分类体系与传统文献分类体系相比存在着许多差异:①网络分类是以事物为中心,而不是以学科为中心列类;②网络信息分类是以网络资源为分类的基本对象,类目收录对象的范围更广;③采用了更多的信息技术;④直接采用语词进行信息标引;⑤传统分类是以线性方式展开类目,而网络分类是以网状方式进行超文本链接;⑥更新速度快。因此,编制网络信息分类法应考虑以下两大方面。

3.1宏观构想

编制网络信息分类法,实现网络信息组织标准化,应体现以下主要原则:

(1)科学性原则。网络信息分类法应结合网络信息资源的特点,在充分揭示各学科之间内在联系和相互关系的基础上,将学科分类与事物分类相结合,构建一套科学合理的网络分类体系。

(2)继承性原则。网络信息分类法应吸收传统分类法的精华,吸收目前各中文网站分类体系的优点,结合现代信息技术来共同建造。对传统的东西不能全盘抛弃,也不能全盘吸收,应在吸收借鉴的基础上有所创新,有所发展。

(3)动态性原则。由于互联网是一个多元、开放的信息系统,因此,网络信息资源具有范围广、数量大、动态性强的特点。这就要求网络信息分类也要随着互联网内容的变化及时调整,使各种类型的网络信息资源都能在分类法中找到自己的位置。

(4)实用性原则。网络信息分类法应考虑网络环境下用户需求的特点。在类目的设置上,既要体现分类体系的相对稳定性,又要方便用户快速查询。类目数量控制在20~25个,类目层次展开至3~4级为宜。

(5)多维性原则。传统分类法以线性方式揭示文献信息内容,而网络信息分类法要尽可能全面而深入地揭示网络信息的内容和形式,多层次、多途径、全方位、多角度地进行信息揭示和描述,用超文本链接技术,变线性方式为网状方式,构建新型网络信息分类体系。

(6)开放性原则。网络信息分类体系具有相对的稳定性,但网络信息资源的开放性和动态性决定了网络分类体系也要随时增添新的内容。同时,不断吸收新思想、新技术,进一步满足和适应社会以及科技发展的需要。

3.2微观构想

根据上述对网络信息分类法宏观构想原则,结合传统分类法和现有网络信息分类体系的研究成果,笔者针对网络信息资源中的一类资源——综合性网站的框架构建了5大板块,对其中内容相对稳定的休闲娱乐、社会科学、自然科学和综合信息四大板快设计了22个一级类目。该分类体系以主题为主要聚类标准,充分体现网络信息组织分类——主题一体化思想。具体如下:

一级类目

热门追踪板块:考研聊天室游戏同学录人物明星下载专区招聘动漫flash......

休闲娱乐板块:新闻与媒体娱乐与休闲体育与健康旅游与交通生活与服务

社会科学板块:社会文化哲学与宗教政治与法律军事与战争经济与金融教育与就业人文与艺术历史与地理

自然科学板块:自然科学医疗与卫生农业科学计算机与网络工程技术环境科学

综合信息板块:国家与地区参考资料综合网站

上述各板块中,热门追踪板块内容不固定,根据网上热点话题的变化而变化,其余四个板块的内容相对稳定,即休闲娱乐板块包括5个一级类目;社会科学板块包括8个一级类目;自然科学板块包括6个一级类目;综合信息板块包括3个一级类目。

Internet是一个开放、动态的网络体系,对其分类体系的构建,实现网络信息分类组织标准化是一个逐步完善的过程。本文所探讨的分类体系也需要进一步细化和发展,相信经过不断的努力和实践,实现网络信息分类组织标准化的这一天不会太晚。

【参考文献】

1黄如花.网络信息组织的发展趋势.中国图书馆学报,2003(4)

2郑福根.网络信息组织的理论与方法探讨.现代情报,2004(6)

3张林龙.网络环境下的信息组织.情报杂志,2003(10)

4刘延章,余义芳.近五年来网络信息分类组织研究的现状及其展望.情报学报,2004(4)

5王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4)

6陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4)

7董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(4)

8王本欣.网络信息资源组织研究.图书馆学研究,2004(5).

9宋剑祥.从国外分类法看《中图法》对网络信息资源的组织.图书与情报,2004(2)

10宋蓓玲.浅析构建网络信息分类体系.情报业务研究,2004(8)

网络文化的分类第5篇

【摘 要 题】信息资源建设与管理

【关 键 词】网络信息分类法/网络信息组织/分类法构建

【正 文】

根据网络信息和用户检索需求的特点,依据网络环境构建科学、实用的网络信息分类法,是信息资源组织管理研究的重点之一。本文主要以1999年—2005年的中国学术期刊网数据为信息源,从构建方法、原则、语言、大纲、信息技术应用等6个方面回顾了近年来网络信息分类法构建的研究进展。

1 构建网络信息分类法的依据或方法

目前,网络信息分类法主要是指网络搜索引擎分类体系。基于“分类工具通常是根据分类对象的特点和用户需求,结合一定的技术环境建立的”认识,马张华在《分类搜索引擎类目体系研究》一文中论述了分类搜索引擎类目结构的编制依据:(1)从分类对象来看,网络资源的特点是数量、种类多,动态性强,新兴科学、商业、娱乐的资源数量较多,传统知识门类的资源相对较少,要求有新的、适合处理对象的分类架构。(2)从用户需求来看,网络的使用对象涉及所有的终端用户。(3)从技术环境来看,网络信息分类体系应充分利用计算机操作环境与超文本技术,在体系构建、类目设置等方面发展不同于传统分类法的技术特色。[1]

陈树年提出建构网上知识分类体系的(基本结构)编制方法,即:①有一个涵盖各知识领域、结构清晰、层次简明、能满足网上信息组织需要的分类体系;②采用等级结构展示知识的系统联系,构成枝干分明的主题树或脉络清晰的知识地图;③类目的排列和检索结果的排列方法应采用对用户最有用的排列次序;④分类体系的标记应适当保留。[2]石晓华等在分析了网络信息分类法与传统分类法的优劣之后,首次提出了建构《中国网络信息分类法》的建议,并列举了具体的编制方法,即:①以传统分类主题体系为基础,建构多维的分类体系;②栏目因需而设,突出重点;③控制分级,减少栏目层次;④根据用户确定栏目名称的规范程度。[3]张琪玉则提出了一整套设计方针,即:①为不同类型的需求提供不同特性的分类体系;②在统一框架下设置分散独立、各自完整的分类体系;③分类体系的类目设置不以网罗全部网络信息资源为目标;④分类体系应具有开放性和可变性,并应有反映新颖信息的措施。他也设计了一个供普通用户使用的分类体系框架。[4]王知津赞同石晓华的第①、②、③建议,认为可以借鉴传统分类体系,构建《网络信息分类法》,实现网络信息分类法与主题词表的结合,即分类主题一体化。实现分类主题一体化,需要做好三个方面的工作:①建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制;②建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换;③建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主题的兼容。[5]董琳提出的思路是设计一个融知识分类、行业分类、网站信息分类于一体的综合性中文网站分类体系。[6]该体系把一级大类分为5大模块:较丰富信息的模块、高查询率模块、学科专业模块、查询入口模块、综合网站模块。常设20个一级类目,把主题作为主要聚类标准,学科和专业作为辅助聚类标准。

另外,陆宝益提出编制的具体步骤,即建立专门机构,配备专业人员;开展深入调研,制定可行计划;广泛征求意见,不断修改完善。[7]其他学者,如陈代春、赵培云、刘颖、许磊等也从不同角度论述了如何构建统一的网络信息分类法的问题。

2 网络信息分类法构建的原则

构建新的网络信息分类体系,需要吸收现有搜索引擎分类体系优势,借鉴传统分类法的部分长处,并遵循基本的设计指导原则。有的学者[8]认为,强调类表的科学性和专业性,而忽略了最终用户——信息需求者的利益,是传统文献分类法无法适应网络信息分类的基本原因之一,所以建立中文网络信息分类体系应以实用性为主。持相同观点的学者,如,史学斌提出“实用性、自然性、系统性和技术性、针对性”原则[9]。郑庆胜指出“实用性、全面性、规律性、统一性和特殊性”原则[10]等。

持相反观点的学者认为,首要的原则是科学性原则。吴丹认为,与传统分类法一样,网络信息分类也必须具备科学性原则,分类体系仍必须以科学的知识分类为基础,即科学性原则、易用性原则、针对性原则、动态性原则[11]。其他学者,如陆宝益提出“科学性、自然性、实用性、同一性、通用性、兼容性、发展性”原则[12]、朱蓓玲提出“科学性、实用性、易用性、自然性、针对性、快捷性、系统技术性”原则[13]。敬卿、吴静提出的“科学性、实用性、易用性、自然性、通用性”原则[14]。邓香莲提出的“科学性、简洁性、直接性、实用性、动态性、自然性”原则[15]也应归属此类。

关于网络信息分类体系的原则,研究者智者见智,较多学者都提到了应遵循“科学性、实用性、自然性”原则。主要分歧是强调科学性优先还是实用性优先。笔者认为,网络信息分类法要适应组织网络信息动态变化的需要,满足用户复杂的信息查询需求,对于综合性、大众性的中文网络信息分类体系,必须以实用性原则为主,兼顾科学性的原则。

3 网络信息分类法构建的语言

从实践来看,传统的文献分类法使用的是典型的人工语言,而网络信息分类法使用的主要是自然语言。因为人工语言严格的规范性使用户丧失了检索中的自主性和能动性,背离了以人为本的原则,自然语言是检索语言发展的必然。[16]张琪玉教授则指出由于自然语言有其固有的缺陷,网络信息检索不可能仅仅使用自然语言,也必须使用人工语言。情报检索用语发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。[17]所以有的学者认为需要对网络受控语言进行适合于网民大众习惯用语的改造,提出了“受控语言网民化”的思想。[18]陈晶也指出:“改进受控语言的易用化是网络环境下的大势所趋,而对自然语言进行必要的控制也是网络环境下势在必行的,两者的相互渗透、有机结合是情报检索语言发展的大趋势。”[19]

有的学者认为分类主题一体化语言,实质是受控语言内部的一体化,它不能适应网络检索的发展,应当建立更适合于网络信息检索的自然语言与受控语言结合的一体化语言。[20]有的学者通过分析受控语言和自然语言各自在网络中的应用,分析其优缺点,指出无论受控语言还是自然语言都有各自独特的优点和缺陷,不能彼此取代,可以相互补充。而“它们在网络中的应用研究也表明两者之间呈现出明显的相互交织兼容的趋势”。[21]

笔者认为,任何一种语言都有长处和短处,都不能完全满足网络用户多样化需求,分类语言和主题语言相结合、自然语言和人工语言相结合才是建构网络信息分类法的发展趋势。

4 网络信息分类法的大纲设计

对网络信息分类法进行深入研究并提出大纲或框架的代表作有文献[22]、[23]、[24]。陈树年阐述了构建网上分类体系的原则与技术后,提出了一个适用于一般用户的综合性中文搜索引擎的信息分类大纲,该大纲包括22个大类,即哲学与宗教、人文与社会科学、社会文化、文学与艺术、教育与人才、体育与健身、休闲与生活娱乐、旅游与服务业、医学与健康、经济与金融、政治、法律、军事、历史与地理、自然科学、农业科学、工程技术、计算机与网络、新闻与媒体、图书馆与参考资料、国家与地区、综合网站。并指出以学术和技术为主的搜索引擎、专业搜索引擎最好以权威分类法(或其中的某些类)为基础,经过一定的改造后用于网上信息的组织和检索,因为其科学的体系和严密的结构是非专业人员所不能独立完成的。[22]吴丹采取学科分类与事物分类兼顾的方式,也设计了一个包含有 18个大类和若干二级类目的网络信息分类体系设计方案。18个大类,即政治法律与军事、新闻与媒体、商业与经济、自然科学、农业与工程技术、计算机与网络、教育、哲学与宗教、人文社会科学、文化艺术、历史与地理、国家与地区、旅游与交通、医学与健康、生活服务、体育与健身、娱乐休闲、图书馆与参考资料。[23]许培扬提出了中文网络信息分类法应由简表、主表、索引和使用指南四部分组成。简表一般由1-4级类目构成,主表由全部类目构成。索引包括:①本表与其他分类体系的对应,用于不同分类体系的转换;②英译名称索引,从英查汉或从汉查英。使用指南是分类体系的详细说明。[24]

5 现代技术在网络信息分类法构建中的应用

由于网络信息分类法必须能适应网络技术环境,这就要求在编制过程中适当采用许多现代信息技术,如自动分类技术、人工智能技术、网格技术等等,以适应网络技术环境的发展特点。马张华专文阐述了超文本技术在网络信息分类法编制中的应用。[25]他指出:超文本技术可以改进主题之间多维关系的揭示;可以从多个角度组织信息资源;可以进行轮排,亦即多表列类;可以设置镜像类目,根据需要对某些重点类目或热点类目突出反映;可以动态设置类目和动态揭示类目之间的关系,根据需要及时增添类目或删改类目;可用于联结不同的检索系统,增加检索入口;可以联结分类体系与相应的说明文字与规则系统。

陈旭论述了分面分类在网络信息分类法编制中的应用。[26]文章首先论述了在编制网络信息分类法时,可根据需要利用仿分技术编制各种类型的通用复分表、专用复分表及规定必要的仿分。其次论述了分面叙词表的应用。最后论述了分面分类在可视化检索中的应用。即在检索界面上设置主题分面、书目形式分面、时间分面和地域分面,然后再按等级列举的方式分别展开,既便于类表的修订与维护,又便于用户检索更为专指的信息。

周淑云在《分类主题一体化构建网络信息分类体系》[27]一文中指出,理想的网络分类法应是分类法和主题法的结合使用,理想的模式是以“分类一主题”的方式对知识进行组织,形成一种兼具分类、主题两种标引和查找功能的新型检索语言,从而为不同层次和不同需求的用户分别提供不同的信息查询功能。分类主题一体化的网络分类体系既突破了传统分类法层层划分、层层隶属的等级结构又克服了主题法系统性差,将同类信息分类的特点。对此问题进行论述的还有郭丽芳、梅伯平、苏瑞竹等。

6 构建中微观层面的具体问题

对网络信息分类法编制的一些具体问题,许多学者都予以了详细的探讨。

陈树年在《网络信息分类法研究》中研究了聚类标准、大类设置、展开层次、类目种类、类目名称、多分类体系、分类标准与使用次序、类目设置的均衡性和规律性、重点类目、交叉关系的处理、类目的排列、类目的注释和说明、用户界面的设计等,并给出了相应的改进意见。[28]他认为,关于聚类标准,综合性网络信息分类法聚类的主要标准应当是“主题和专题”,专业搜索引擎可以学科或专业为主要聚类标准,或结合主题聚类运用;关于大类的设置数量通常以10-20个为宜;关于类目的名称要做到准确、通用和精练;关于类目种类包括“子类”与“网站”两种,“在每一类下,把内容宽泛,各个下位类不能容纳的信息归纳为‘综合网站’集中收录是网络分娄法实用的作法”。

其它方面,人们观点大致雷同。如,关于分类体系展开层次,陈树年提出基本应控制在3-6级之间;赵培云认为根据目前网络信息的实际情况和用户浏览查询心理,综合性网络信息分类标准,类目应控制在三、四层为宜,专业搜索引擎和网站可适当延伸。[29]张琪玉提出类目细分应控制在五级左右。[30]

总之,由于网络信息、网络信息用户、网络信息技术环境等特点,这就决定了网络信息分类法的编制原则和技术方法,有别于传统分类法的编制原则和技术方法,但是传统文献分类法和现有网络信息分类体系的成功经验可以给网络信息分类法提供有益的借鉴。我们建议,应当由国家信息产业部牵头,组织图书情报界专家、计算机专家、网络公司等相关专家,广泛征求意见,尽早编制出一部用户满意、质量较高的网络信息分类法。

【参考文献】

[1] 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2):36-40

[2][22] 陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4):31-37

[3] 石晓华,王春芳。网络信息分类与传统分类法的优劣分析——兼谈构建《中国网络信息分类法》.图书馆理论与实践, 2001(1):43-45

[4][30] 张琪玉.网络信息检索工具的分类体系.江苏图书馆学报,2002(4):7-11

[5] 王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4):2-7

[6] 董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(2):65-67

[7][12] 陆宝益.论创建我国统一的网络信息分类法.中国图书馆学报,2004(6):44-47

[8] 千忠红.网络信息环境下的传统分类法.图书情报工作, 1999(2):37-39

[9] 史学斌.网络信息分类体系.图书馆,2002(1):33-35,20

[10] 郑庆胜,易晓阳.从新浪等网站看网络信息分类体系的建立.图书馆建设,2003(1):69-71

[11][23] 吴丹.网络信息分类体系设计.图书情报知识,2002(5):37-39

[13] 朱蓓玲.浅析构建网络信息分类体系.情报杂志,2004(8): 110-111,114

[14] 敬卿,吴静.网络分类目录规范化初探.图书馆,2002(1):49-50

[15] 邓香莲.文献信息分类与网络信息分类之比较研究.情报资料工作,2002(6):43-45

[16] 粟慧.以人为本的必然:人工检索语言向自然语言的转变.图书馆,2000(2):9-10

[17] 张琪玉.网络信息检索用语言的发展趋势.图书馆杂志,2001(3):5-7

[18] 梁树柏,高夕果.受控语言网民化的思考.情报杂志,2002(8):69-71

[19] 陈晶.论网络环境下情报检索语言的发展.情报杂志,2002 (6):54-55

[20] 吕娟,袁相琴.论第四种情报检索语言系统.中国图书馆学报,2002(1):87-92

[21] 焦玉英,李法运.网络环境下信息检索语言的优化研究.情报学报,2003(3):291-296

[24] 许培扬,张玢.网络信息分类标准研究进展.医学情报工作,2002(6):324-326

[25] 马张华,李玲.超文本技术在分类法编制中的应用.大学图书馆学报,2001(1):60-62,66

[26] 陈旭.分面分类在网络资源组织中的应用.图书情报工作,2002(1):59-61

[27] 周淑云.分类主题一体化构建网络信息分类体系.现代情报,2003(4):113-114

网络文化的分类第6篇

 

【摘 要 题】信息资源建设与管理

【关 键 词】网络信息分类法/网络信息组织/分类法构建

【正 文】 

根据网络信息和用户检索需求的特点,依据网络环境构建科学、实用的网络信息分类法,是信息资源组织管理研究的重点之一。本文主要以1999年—2005年的中国学术期刊网数据为信息源,从构建方法、原则、语言、大纲、信息技术应用等6个方面回顾了近年来网络信息分类法构建的研究进展。

1 构建网络信息分类法的依据或方法

目前,网络信息分类法主要是指网络搜索引擎分类体系。基于“分类工具通常是根据分类对象的特点和用户需求,结合一定的技术环境建立的”认识,马张华在《分类搜索引擎类目体系研究》一文中论述了分类搜索引擎类目结构的编制依据:(1)从分类对象来看,网络资源的特点是数量、种类多,动态性强,新兴科学、商业、娱乐的资源数量较多,传统知识门类的资源相对较少,要求有新的、适合处理对象的分类架构。(2)从用户需求来看,网络的使用对象涉及所有的终端用户。(3)从技术环境来看,网络信息分类体系应充分利用计算机操作环境与超文本技术,在体系构建、类目设置等方面发展不同于传统分类法的技术特色。[1] 

陈树年提出建构网上知识分类体系的(基本结构)编制方法,即:①有一个涵盖各知识领域、结构清晰、层次简明、能满足网上信息组织需要的分类体系;②采用等级结构展示知识的系统联系,构成枝干分明的主题树或脉络清晰的知识地图;③类目的排列和检索结果的排列方法应采用对用户最有用的排列次序;④分类体系的标记应适当保留。[2]石晓华等在分析了网络信息分类法与传统分类法的优劣之后,首次提出了建构《中国网络信息分类法》的建议,并列举了具体的编制方法,即:①以传统分类主题体系为基础,建构多维的分类体系;②栏目因需而设,突出重点;③控制分级,减少栏目层次;④根据用户确定栏目名称的规范程度。[3]张琪玉则提出了一整套设计方针,即:①为不同类型的需求提供不同特性的分类体系;②在统一框架下设置分散独立、各自完整的分类体系;③分类体系的类目设置不以网罗全部网络信息资源为目标;④分类体系应具有开放性和可变性,并应有反映新颖信息的措施。他也设计了一个供普通用户使用的分类体系框架。[4]王知津赞同石晓华的第①、②、③建议,认为可以借鉴传统分类体系,构建《网络信息分类法》,实现网络信息分类法与主题词表的结合,即分类主题一体化。实现分类主题一体化,需要做好三个方面的工作:①建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制;②建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换;③建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主题的兼容。[5]董琳提出的思路是设计一个融知识分类、行业分类、网站信息分类于一体的综合性中文网站分类体系。[6]该体系把一级大类分为5大模块:较丰富信息的模块、高查询率模块、学科专业模块、查询入口模块、综合网站模块。常设20个一级类目,把主题作为主要聚类标准,学科和专业作为辅助聚类标准。 

另外,陆宝益提出编制的具体步骤,即建立专门机构,配备专业人员;开展深入调研,制定可行计划;广泛征求意见,不断修改完善。[7]其他学者,如陈代春、赵培云、刘颖、许磊等也从不同角度论述了如何构建统一的网络信息分类法的问题。

2 网络信息分类法构建的原则

构建新的网络信息分类体系,需要吸收现有搜索引擎分类体系优势,借鉴传统分类法的部分长处,并遵循基本的设计指导原则。有的学者[8]认为,强调类表的科学性和专业性,而忽略了最终用户——信息需求者的利益,是传统文献分类法无法适应网络信息分类的基本原因之一,所以建立中文网络信息分类体系应以实用性为主。持相同观点的学者,如,史学斌提出“实用性、自然性、系统性和技术性、针对性”原则[9]。郑庆胜指出“实用性、全面性、规律性、统一性和特殊性”原则[10]等。 

持相反观点的学者认为,首要的原则是科学性原则。吴丹认为,与传统分类法一样,网络信息分类也必须具备科学性原则,分类体系仍必须以科学的知识分类为基础,即科学性原则、易用性原则、针对性原则、动态性原则[11]。其他学者,如陆宝益提出“科学性、自然性、实用性、同一性、通用性、兼容性、发展性”原则[12]、朱蓓玲提出“科学性、实用性、易用性、自然性、针对性、快捷性、系统技术性”原则[13]。敬卿、吴静提出的“科学性、实用性、易用性、自然性、通用性”原则[14]。邓香莲提出的“科学性、简洁性、直接性、实用性、动态性、自然性”原则[15]也应归属此类。 

关于网络信息分类体系的原则,研究者智者见智,较多学者都提到了应遵循“科学性、实用性、自然性”原则。主要分歧是强调科学性优先还是实用性优先。笔者认为,网络信息分类法要适应组织网络信息动态变化的需要,满足用户复杂的信息查询需求,对于综合性、大众性的中文网络信息分类体系,必须以实用性原则为主,兼顾科学性的原则。

3 网络信息分类法构建的语言

从实践来看,传统的文献分类法使用的是典型的人工语言,而网络信息分类法使用的主要是自然语言。因为人工语言严格的规范性使用户丧失了检索中的自主性和能动性,背离了以人为本的原则,自然语言是检索语言发展的必然。[16]张琪玉教授则指出由于自然语言有其固有的缺陷,网络信息检索不可能仅仅使用自然语言,也必须使用人工语言。情报检索用语发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。[17]所以有的学者认为需要对网络受控语言进行适合于网民大众习惯用语的改造,提出了“受控语言网民化”的思想。[18]陈晶也指出:“改进受控语言的易用化是网络环境下的大势所趋,而对自然语言进行必要的控制也是网络环境下势在必行的,两者的相互渗透、有机结合是情报检索语言发展的大趋势。”[19] 

有的学者认为分类主题一体化语言,实质是受控语言内部的一体化,它不能适应网络检索的发展,应当建立更适合于网络信息检索的自然语言与受控语言结合的一体化语言。[20]有的学者通过分析受控语言和自然语言各自在网络中的应用,分析其优缺点,指出无论受控语言还是自然语言都有各自独特的优点和缺陷,不能彼此取代,可以相互补充。而“它们在网络中的应用研究也表明两者之间呈现出明显的相互交织兼容的趋势”。[21] 

笔者认为,任何一种语言都有长处和短处,都不能完全满足网络用户多样化需求,分类语言和主题语言相结合、自然语言和人工语言相结合才是建构网络信息分类法的发展趋势。

4 网络信息分类法的大纲设计

对网络信息分类法进行深入研究并提出大纲或框架的代表作有文献[22]、[23]、[24]。陈树年阐述了构建网上分类体系的原则与技术后,提出了一个适用于一般用户的综合性中文搜索引擎的信息分类大纲,该大纲包括22个大类,即哲学与宗教、人文与社会科学、社会文化、文学与艺术、教育与人才、体育与健身、休闲与生活娱乐、旅游与服务业、医学与健康、经济与金融、政治、法律、军事、历史与地理、自然科学、农业科学、工程技术、计算机与网络、新闻与媒体、图书馆与参考资料、国家与地区、综合网站。并指出以学术和技术为主的搜索引擎、专业搜索引擎最好以权威分类法(或其中的某些类)为基础,经过一定的改造后用于网上信息的组织和检索,因为其科学的体系和严密的结构是非专业人员所不能独立完成的。[22]吴丹采取学科分类与事物分类兼顾的方式,也设计了一个包含有 18个大类和若干二级类目的网络信息分类体系设计方案。18个大类,即政治法律与军事、新闻与媒体、商业与经济、自然科学、农业与工程技术、计算机与网络、教育、哲学与宗教、人文社会科学、文化艺术、历史与地理、国家与地区、旅游与交通、医学与健康、生活服务、体育与健身、娱乐休闲、图书馆与参考资料。[23]许培扬提出了中文网络信息分类法应由简表、主表、索引和使用指南四部分组成。简表一般由1-4级类目构成,主表由全部类目构成。索引包括:①本表与其他分类体系的对应,用于不同分类体系的转换;②英译名称索引,从英查汉或从汉查英。使用指南是分类体系的详细说明。[24]

5 现代技术在网络信息分类法构建中的应用

由于网络信息分类法必须能适应网络技术环境,这就要求在编制过程中适当采用许多现代信息技术,如自动分类技术、人工智能技术、网格技术等等,以适应网络技术环境的发展特点。马张华专文阐述了超文本技术在网络信息分类法编制中的应用。[25]他指出:超文本技术可以改进主题之间多维关系的揭示;可以从多个角度组织信息资源;可以进行轮排,亦即多表列类;可以设置镜像类目,根据需要对某些重点类目或热点类目突出反映;可以动态设置类目和动态揭示类目之间的关系,根据需要及时增添类目或删改类目;可用于联结不同的检索系统,增加检索入口;可以联结分类体系与相应的说明文字与规则系统。 

陈旭论述了分面分类在网络信息分类法编制中的应用。[26]文章首先论述了在编制网络信息分类法时,可根据需要利用仿分技术编制各种类型的通用复分表、专用复分表及规定必要的仿分。其次论述了分面叙词表的应用。最后论述了分面分类在可视化检索中的应用。即在检索界面上设置主题分面、书目形式分面、时间分面和地域分面,然后再按等级列举的方式分别展开,既便于类表的修订与维护,又便于用户检索更为专指的信息。 

周淑云在《分类主题一体化构建网络信息分类体系》[27]一文中指出,理想的网络分类法应是分类法和主题法的结合使用,理想的模式是以“分类一主题”的方式对知识进行组织,形成一种兼具分类、主题两种标引和查找功能的新型检索语言,从而为不同层次和不同需求的用户分别提供不同的信息查询功能。分类主题一体化的网络分类体系既突破了传统分类法层层划分、层层隶属的等级结构又克服了主题法系统性差,将同类信息分类的特点。对此问题进行论述的还有郭丽芳、梅伯平、苏瑞竹等。

6 构建中微观层面的具体问题

对网络信息分类法编制的一些具体问题,许多学者都予以了详细的探讨。 

陈树年在《网络信息分类法研究》中研究了聚类标准、大类设置、展开层次、类目种类、类目名称、多分类体系、分类标准与使用次序、类目设置的均衡性和规律性、重点类目、交叉关系的处理、类目的排列、类目的注释和说明、用户界面的设计等,并给出了相应的改进意见。[28]他认为,关于聚类标准,综合性网络信息分类法聚类的主要标准应当是“主题和专题”,专业搜索引擎可以学科或专业为主要聚类标准,或结合主题聚类运用;关于大类的设置数量通常以10-20个为宜;关于类目的名称要做到准确、通用和精练;关于类目种类包括“子类”与“网站”两种,“在每一类下,把内容宽泛,各个下位类不能容纳的信息归纳为‘综合网站’集中收录是网络分娄法实用的作法”。 

其它方面,人们观点大致雷同。如,关于分类体系展开层次,陈树年提出基本应控制在3-6级之间;赵培云认为根据目前网络信息的实际情况和用户浏览查询心理,综合性网络信息分类标准,类目应控制在三、四层为宜,专业搜索引擎和网站可适当延伸。[29]张琪玉提出类目细分应控制在五级左右。[30] 

总之,由于网络信息、网络信息用户、网络信息技术环境等特点,这就决定了网络信息分类法的编制原则和技术方法,有别于传统分类法的编制原则和技术方法,但是传统文献分类法和现有网络信息分类体系的成功经验可以给网络信息分类法提供有益的借鉴。我们建议,应当由国家信息产业部牵头,组织图书情报界专家、计算机专家、网络公司等相关专家,广泛征求意见,尽早编制出一部用户满意、质量较高的网络信息分类法。

【参考文献】 

[1] 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2):36-40 

[2][22] 陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4):31-37 

[3] 石晓华,王春芳。网络信息分类与传统分类法的优劣分析——兼谈构建《中国网络信息分类法》.图书馆理论与实践, 2001(1):43-45 

[4][30] 张琪玉.网络信息检索工具的分类体系.江苏图书馆学报,2002(4):7-11 

[5] 王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4):2-7 

[6] 董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(2):65-67 

[7][12] 陆宝益.论创建我国统一的网络信息分类法.中国图书馆学报,2004(6):44-47 

[8] 千忠红.网络信息环境下的传统分类法.图书情报工作, 1999(2):37-39 

[9] 史学斌.网络信息分类体系.图书馆,2002(1):33-35,20 

[10] 郑庆胜,易晓阳.从新浪等网站看网络信息分类体系的建立.图书馆建设,2003(1):69-71 

[11][23] 吴丹.网络信息分类体系设计.图书情报知识,2002(5):37-39 

[13] 朱蓓玲.浅析构建网络信息分类体系.情报杂志,2004(8): 110-111,114 

[14] 敬卿,吴静.网络分类目录规范化初探.图书馆,2002(1):49-50 

[15] 邓香莲.文献信息分类与网络信息分类之比较研究.情报资料工作,2002(6):43-45 

[16] 粟慧.以人为本的必然:人工检索语言向自然语言的转变.图书馆,2000(2):9-10 

[17] 张琪玉.网络信息检索用语言的发展趋势.图书馆杂志,2001(3):5-7 

[18] 梁树柏,高夕果.受控语言网民化的思考.情报杂志,2002(8):69-71 

[19] 陈晶.论网络环境下情报检索语言的发展.情报杂志,2002 (6):54-55 

[20] 吕娟,袁相琴.论第四种情报检索语言系统.中国图书馆学报,2002(1):87-92 

[21] 焦玉英,李法运.网络环境下信息检索语言的优化研究.情报学报,2003(3):291-296 

[24] 许培扬,张玢.网络信息分类标准研究进展.医学情报工作,2002(6):324-326 

[25] 马张华,李玲.超文本技术在分类法编制中的应用.大学图书馆学报,2001(1):60-62,66 

[26] 陈旭.分面分类在网络资源组织中的应用.图书情报工作,2002(1):59-61 

[27] 周淑云.分类主题一体化构建网络信息分类体系.现代情报,2003(4):113-114 

网络文化的分类第7篇

【摘要题】信息资源建设与管理

【关键词】网络信息分类法/网络信息组织/分类法构建

【正文】

根据网络信息和用户检索需求的特点,依据网络环境构建科学、实用的网络信息分类法,是信息资源组织管理研究的重点之一。本文主要以1999年—2005年的中国学术期刊网数据为信息源,从构建方法、原则、语言、大纲、信息技术应用等6个方面回顾了近年来网络信息分类法构建的研究进展。

1构建网络信息分类法的依据或方法

目前,网络信息分类法主要是指网络搜索引擎分类体系。基于“分类工具通常是根据分类对象的特点和用户需求,结合一定的技术环境建立的”认识,马张华在《分类搜索引擎类目体系研究》一文中论述了分类搜索引擎类目结构的编制依据:(1)从分类对象来看,网络资源的特点是数量、种类多,动态性强,新兴科学、商业、娱乐的资源数量较多,传统知识门类的资源相对较少,要求有新的、适合处理对象的分类架构。(2)从用户需求来看,网络的使用对象涉及所有的终端用户。(3)从技术环境来看,网络信息分类体系应充分利用计算机操作环境与超文本技术,在体系构建、类目设置等方面发展不同于传统分类法的技术特色。[1]

陈树年提出建构网上知识分类体系的(基本结构)编制方法,即:①有一个涵盖各知识领域、结构清晰、层次简明、能满足网上信息组织需要的分类体系;②采用等级结构展示知识的系统联系,构成枝干分明的主题树或脉络清晰的知识地图;③类目的排列和检索结果的排列方法应采用对用户最有用的排列次序;④分类体系的标记应适当保留。[2]石晓华等在分析了网络信息分类法与传统分类法的优劣之后,首次提出了建构《中国网络信息分类法》的建议,并列举了具体的编制方法,即:①以传统分类主题体系为基础,建构多维的分类体系;②栏目因需而设,突出重点;③控制分级,减少栏目层次;④根据用户确定栏目名称的规范程度。[3]张琪玉则提出了一整套设计方针,即:①为不同类型的需求提供不同特性的分类体系;②在统一框架下设置分散独立、各自完整的分类体系;③分类体系的类目设置不以网罗全部网络信息资源为目标;④分类体系应具有开放性和可变性,并应有反映新颖信息的措施。他也设计了一个供普通用户使用的分类体系框架。[4]王知津赞同石晓华的第①、②、③建议,认为可以借鉴传统分类体系,构建《网络信息分类法》,实现网络信息分类法与主题词表的结合,即分类主题一体化。实现分类主题一体化,需要做好三个方面的工作:①建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制;②建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换;③建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主题的兼容。[5]董琳提出的思路是设计一个融知识分类、行业分类、网站信息分类于一体的综合性中文网站分类体系。[6]该体系把一级大类分为5大模块:较丰富信息的模块、高查询率模块、学科专业模块、查询入口模块、综合网站模块。常设20个一级类目,把主题作为主要聚类标准,学科和专业作为辅助聚类标准。

另外,陆宝益提出编制的具体步骤,即建立专门机构,配备专业人员;开展深入调研,制定可行计划;广泛征求意见,不断修改完善。[7]其他学者,如陈代春、赵培云、刘颖、许磊等也从不同角度论述了如何构建统一的网络信息分类法的问题。

2网络信息分类法构建的原则

构建新的网络信息分类体系,需要吸收现有搜索引擎分类体系优势,借鉴传统分类法的部分长处,并遵循基本的设计指导原则。有的学者[8]认为,强调类表的科学性和专业性,而忽略了最终用户——信息需求者的利益,是传统文献分类法无法适应网络信息分类的基本原因之一,所以建立中文网络信息分类体系应以实用性为主。持相同观点的学者,如,史学斌提出“实用性、自然性、系统性和技术性、针对性”原则[9]。郑庆胜指出“实用性、全面性、规律性、统一性和特殊性”原则[10]等。

持相反观点的学者认为,首要的原则是科学性原则。吴丹认为,与传统分类法一样,网络信息分类也必须具备科学性原则,分类体系仍必须以科学的知识分类为基础,即科学性原则、易用性原则、针对性原则、动态性原则[11]。其他学者,如陆宝益提出“科学性、自然性、实用性、同一性、通用性、兼容性、发展性”原则[12]、朱蓓玲提出“科学性、实用性、易用性、自然性、针对性、快捷性、系统技术性”原则[13]。敬卿、吴静提出的“科学性、实用性、易用性、自然性、通用性”原则[14]。邓香莲提出的“科学性、简洁性、直接性、实用性、动态性、自然性”原则[15]也应归属此类。

关于网络信息分类体系的原则,研究者智者见智,较多学者都提到了应遵循“科学性、实用性、自然性”原则。主要分歧是强调科学性优先还是实用性优先。笔者认为,网络信息分类法要适应组织网络信息动态变化的需要,满足用户复杂的信息查询需求,对于综合性、大众性的中文网络信息分类体系,必须以实用性原则为主,兼顾科学性的原则。

3网络信息分类法构建的语言

从实践来看,传统的文献分类法使用的是典型的人工语言,而网络信息分类法使用的主要是自然语言。因为人工语言严格的规范性使用户丧失了检索中的自主性和能动性,背离了以人为本的原则,自然语言是检索语言发展的必然。[16]张琪玉教授则指出由于自然语言有其固有的缺陷,网络信息检索不可能仅仅使用自然语言,也必须使用人工语言。情报检索用语发展的大趋势,是情报检索语言的自然语言化和自然语言的情报检索语言化,是两者的初级结合到完全融合的过程。[17]所以有的学者认为需要对网络受控语言进行适合于网民大众习惯用语的改造,提出了“受控语言网民化”的思想。[18]陈晶也指出:“改进受控语言的易用化是网络环境下的大势所趋,而对自然语言进行必要的控制也是网络环境下势在必行的,两者的相互渗透、有机结合是情报检索语言发展的大趋势。”[19]

有的学者认为分类主题一体化语言,实质是受控语言内部的一体化,它不能适应网络检索的发展,应当建立更适合于网络信息检索的自然语言与受控语言结合的一体化语言。[20]有的学者通过分析受控语言和自然语言各自在网络中的应用,分析其优缺点,指出无论受控语言还是自然语言都有各自独特的优点和缺陷,不能彼此取代,可以相互补充。而“它们在网络中的应用研究也表明两者之间呈现出明显的相互交织兼容的趋势”。[21]

笔者认为,任何一种语言都有长处和短处,都不能完全满足网络用户多样化需求,分类语言和主题语言相结合、自然语言和人工语言相结合才是建构网络信息分类法的发展趋势。

4网络信息分类法的大纲设计

对网络信息分类法进行深入研究并提出大纲或框架的代表作有文献[22]、[23]、[24]。陈树年阐述了构建网上分类体系的原则与技术后,提出了一个适用于一般用户的综合性中文搜索引擎的信息分类大纲,该大纲包括22个大类,即哲学与宗教、人文与社会科学、社会文化、文学与艺术、教育与人才、体育与健身、休闲与生活娱乐、旅游与服务业、医学与健康、经济与金融、政治、法律、军事、历史与地理、自然科学、农业科学、工程技术、计算机与网络、新闻与媒体、图书馆与参考资料、国家与地区、综合网站。并指出以学术和技术为主的搜索引擎、专业搜索引擎最好以权威分类法(或其中的某些类)为基础,经过一定的改造后用于网上信息的组织和检索,因为其科学的体系和严密的结构是非专业人员所不能独立完成的。[22]吴丹采取学科分类与事物分类兼顾的方式,也设计了一个包含有18个大类和若干二级类目的网络信息分类体系设计方案。18个大类,即政治法律与军事、新闻与媒体、商业与经济、自然科学、农业与工程技术、计算机与网络、教育、哲学与宗教、人文社会科学、文化艺术、历史与地理、国家与地区、旅游与交通、医学与健康、生活服务、体育与健身、娱乐休闲、图书馆与参考资料。[23]许培扬提出了中文网络信息分类法应由简表、主表、索引和使用指南四部分组成。简表一般由1-4级类目构成,主表由全部类目构成。索引包括:①本表与其他分类体系的对应,用于不同分类体系的转换;②英译名称索引,从英查汉或从汉查英。使用指南是分类体系的详细说明。[24]

5现代技术在网络信息分类法构建中的应用

由于网络信息分类法必须能适应网络技术环境,这就要求在编制过程中适当采用许多现代信息技术,如自动分类技术、人工智能技术、网格技术等等,以适应网络技术环境的发展特点。马张华专文阐述了超文本技术在网络信息分类法编制中的应用。[25]他指出:超文本技术可以改进主题之间多维关系的揭示;可以从多个角度组织信息资源;可以进行轮排,亦即多表列类;可以设置镜像类目,根据需要对某些重点类目或热点类目突出反映;可以动态设置类目和动态揭示类目之间的关系,根据需要及时增添类目或删改类目;可用于联结不同的检索系统,增加检索入口;可以联结分类体系与相应的说明文字与规则系统。

陈旭论述了分面分类在网络信息分类法编制中的应用。[26]文章首先论述了在编制网络信息分类法时,可根据需要利用仿分技术编制各种类型的通用复分表、专用复分表及规定必要的仿分。其次论述了分面叙词表的应用。最后论述了分面分类在可视化检索中的应用。即在检索界面上设置主题分面、书目形式分面、时间分面和地域分面,然后再按等级列举的方式分别展开,既便于类表的修订与维护,又便于用户检索更为专指的信息。

周淑云在《分类主题一体化构建网络信息分类体系》[27]一文中指出,理想的网络分类法应是分类法和主题法的结合使用,理想的模式是以“分类一主题”的方式对知识进行组织,形成一种兼具分类、主题两种标引和查找功能的新型检索语言,从而为不同层次和不同需求的用户分别提供不同的信息查询功能。分类主题一体化的网络分类体系既突破了传统分类法层层划分、层层隶属的等级结构又克服了主题法系统性差,将同类信息分类的特点。对此问题进行论述的还有郭丽芳、梅伯平、苏瑞竹等。

6构建中微观层面的具体问题

对网络信息分类法编制的一些具体问题,许多学者都予以了详细的探讨。

陈树年在《网络信息分类法研究》中研究了聚类标准、大类设置、展开层次、类目种类、类目名称、多分类体系、分类标准与使用次序、类目设置的均衡性和规律性、重点类目、交叉关系的处理、类目的排列、类目的注释和说明、用户界面的设计等,并给出了相应的改进意见。[28]他认为,关于聚类标准,综合性网络信息分类法聚类的主要标准应当是“主题和专题”,专业搜索引擎可以学科或专业为主要聚类标准,或结合主题聚类运用;关于大类的设置数量通常以10-20个为宜;关于类目的名称要做到准确、通用和精练;关于类目种类包括“子类”与“网站”两种,“在每一类下,把内容宽泛,各个下位类不能容纳的信息归纳为‘综合网站’集中收录是网络分娄法实用的作法”。

其它方面,人们观点大致雷同。如,关于分类体系展开层次,陈树年提出基本应控制在3-6级之间;赵培云认为根据目前网络信息的实际情况和用户浏览查询心理,综合性网络信息分类标准,类目应控制在三、四层为宜,专业搜索引擎和网站可适当延伸。[29]张琪玉提出类目细分应控制在五级左右。[30]

总之,由于网络信息、网络信息用户、网络信息技术环境等特点,这就决定了网络信息分类法的编制原则和技术方法,有别于传统分类法的编制原则和技术方法,但是传统文献分类法和现有网络信息分类体系的成功经验可以给网络信息分类法提供有益的借鉴。我们建议,应当由国家信息产业部牵头,组织图书情报界专家、计算机专家、网络公司等相关专家,广泛征求意见,尽早编制出一部用户满意、质量较高的网络信息分类法。

【参考文献】

[1]马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2):36-40

[2][22]陈树年.搜索引擎及网络信息资源的分类组织.图书情报工作,2000(4):31-37

[3]石晓华,王春芳。网络信息分类与传统分类法的优劣分析——兼谈构建《中国网络信息分类法》.图书馆理论与实践,2001(1):43-45

[4][30]张琪玉.网络信息检索工具的分类体系.江苏图书馆学报,2002(4):7-11

[5]王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4):2-7

[6]董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(2):65-67

[7][12]陆宝益.论创建我国统一的网络信息分类法.中国图书馆学报,2004(6):44-47

[8]千忠红.网络信息环境下的传统分类法.图书情报工作,1999(2):37-39

[9]史学斌.网络信息分类体系.图书馆,2002(1):33-35,20

[10]郑庆胜,易晓阳.从新浪等网站看网络信息分类体系的建立.图书馆建设,2003(1):69-71

[11][23]吴丹.网络信息分类体系设计.图书情报知识,2002(5):37-39

[13]朱蓓玲.浅析构建网络信息分类体系.情报杂志,2004(8):110-111,114

[14]敬卿,吴静.网络分类目录规范化初探.图书馆,2002(1):49-50

[15]邓香莲.文献信息分类与网络信息分类之比较研究.情报资料工作,2002(6):43-45

[16]粟慧.以人为本的必然:人工检索语言向自然语言的转变.图书馆,2000(2):9-10

[17]张琪玉.网络信息检索用语言的发展趋势.图书馆杂志,2001(3):5-7

[18]梁树柏,高夕果.受控语言网民化的思考.情报杂志,2002(8):69-71

[19]陈晶.论网络环境下情报检索语言的发展.情报杂志,2002(6):54-55

[20]吕娟,袁相琴.论第四种情报检索语言系统.中国图书馆学报,2002(1):87-92

[21]焦玉英,李法运.网络环境下信息检索语言的优化研究.情报学报,2003(3):291-296

[24]许培扬,张玢.网络信息分类标准研究进展.医学情报工作,2002(6):324-326

[25]马张华,李玲.超文本技术在分类法编制中的应用.大学图书馆学报,2001(1):60-62,66

[26]陈旭.分面分类在网络资源组织中的应用.图书情报工作,2002(1):59-61

[27]周淑云.分类主题一体化构建网络信息分类体系.现代情报,2003(4):113-114