欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 SCI发表 期刊投稿 出版社 公文范文 精品范文

大数据技术论文(合集7篇)

时间:2022-04-14 11:56:48
大数据技术论文

大数据技术论文第1篇

1.1大数据的发展

通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。

1.2云计算的发展

云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。

1.3云计算相关技术

(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。

2基于云计算的大数据处理

目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。

2.1数据采集存储

大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。

2.2数据计算模式

这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。

2.3数据分析挖掘

数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。

2.4数据解释展现

将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。

3大数据和云计算的未来挑战

大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。

3.1重要战略资源

在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。

3.2数据隐私安全

大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。

3.3智慧城市

人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。

3.4能源消耗

大数据技术论文第2篇

数据库技术的现状及其发展趋势研究开题报告 数据库技术的现状及其发展趋势研究开题报告 专业:信息管理与信息系统 学生:**学号:0924620036

一、选题背景及意义:

数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中发展最快、应用最广的技术之一。作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。尤其是在信息技术高速发展的今天,数据库技术的应用可以说是深入到了各个领域。当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。因此,为了更好的认识和掌握数据库技术的现状及发展趋势,本文对有关数据库发展的文献进行了收集整理,以求在对现有相关理论了解、分析的基础上,对数据库发展进行综合论述,对数据库技术发展的总体态势有比较全面的认识,从而推动数据库技术研究理论的进一步发展。

二、论文综述 1、数据库技术发展历程:许多年以来在数据库技术领域很少有重大的技术创新能够引起人们对整个数据库发展历程的回顾与反思。2006年DB2 9中推出的pureXML技术,对过去数十年来关系型数据库的最基本的数据组织方式进行了重大的创新,第一次让我们对数据库的历史,以及过去支撑其发展壮大的理论基础和外部挑战从新的角度进行审视。 今天我们很少去回顾数据库的历史,对于绝大多数IT技术人员,数据库等同于关系型数据库,数据则和表紧密联系。E-R模型几乎是我们描述世界的唯一方式,SQL语言是数据库信息访问处理的唯一手段。关系型数据库已经成为了一种宗教式的信仰,数据相关的所有理论问题似乎都已经解决。

然而历史的发展总是在我们不经意间产生转折,所有重大技术的产生及发展都有其生存的土壤。40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及SQL语言的发明。实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的发展,得到了广泛的应用。技术的演进主要集中在性能、扩展性和安全性等方面的提升,其基本的理论框架和技术理念并没有大的变化。

与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。

2、 国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术发展趋势》

三、论文提纲

(一)数据库技术概论

1、数据库技术概念及类型

2、数据库技术发展历程

3、数据库技术应用

(二)数据库技术发展现状------关系数据库技术仍然是主流

1、发展现状概述

2、Oracle概念及应用

3、Access概念及应用

4、SQL概念及应用

5、DB2概念及应用

6、发展现状总结

(三)数据库技术发展的趋势

1、下一代数据库技术的发展主流面向对象的数据库技术与关系数据库技术

2、演绎面向对象数据库技术

3、数据库技术发展的新方向非结构化数据库

4、数据库技术发展的又一趋势数据库技术与多学科技术的有机结合

5、未来数据库技术及市场发展的两大方向数据仓库和电子商务

6、数据库技术的实践性发展面向专门应用领域的数据库技术

(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库

1、数据挖掘技术

2、数据仓库技术

3、知识发现技术

4、小结

5、结论

四、论文写作进度安排

(一)开题报告:论文题目、系别、专业、年级、姓名、导师

(二)目的意义和国内研究概况

(三)论文的理论依据、研究方法、研究内容

(四)研究结论

大数据技术论文第3篇

数据库技术的现状及其发展趋势研究开题报告

数据库技术的现状及其发展趋势研究开题报告 专业:信息管理与信息系统 学生:**学号:0924620036

一、选题背景及意义:

数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中发展最快、应用最广的技术之一。作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。尤其是在信息技术高速发展的今天,数据库技术的应用可以说是深入到了各个领域。当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。因此,为了更好的认识和掌握数据库技术的现状及发展趋势,本文对有关数据库发展的文献进行了收集整理,以求在对现有相关理论了解、分析的基础上,对数据库发展进行综合论述,对数据库技术发展的总体态势有比较全面的认识,从而推动数据库技术研究理论的进一步发展。

二、论文综述 1、数据库技术发展历程:许多年以来在数据库技术领域很少有重大的技术创新能够引起人们对整个数据库发展历程的回顾与反思。2006年DB2 9中推出的pureXML技术,对过去数十年来关系型数据库的最基本的数据组织方式进行了重大的创新,第一次让我们对数据库的历史,以及过去支撑其发展壮大的理论基础和外部挑战从新的角度进行审视。 今天我们很少去回顾数据库的历史,对于绝大多数IT技术人员,数据库等同于关系型数据库,数据则和表紧密联系。E-R模型几乎是我们描述世界的唯一方式,SQL语言是数据库信息访问处理的唯一手段。关系型数据库已经成为了一种宗教式的信仰,数据相关的所有理论问题似乎都已经解决。

然而历史的发展总是在我们不经意间产生转折,所有重大技术的产生及发展都有其生存的土壤。40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及SQL语言的发明。实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的发展,得到了广泛的应用。技术的演进主要集中在性能、扩展性和安全性等方面的提升,其基本的理论框架和技术理念并没有大的变化。

与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。

2、 国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术发展趋势》

三、论文提纲

(一)数据库技术概论

1、数据库技术概念及类型

2、数据库技术发展历程

3、数据库技术应用

(二)数据库技术发展现状------关系数据库技术仍然是主流

1、发展现状概述

2、Oracle概念及应用

3、Access概念及应用

4、SQL概念及应用

5、DB2概念及应用

6、发展现状总结

(三)数据库技术发展的趋势

1、下一代数据库技术的发展主流面向对象的数据库技术与关系数据库技术

2、演绎面向对象数据库技术

3、数据库技术发展的新方向非结构化数据库

4、数据库技术发展的又一趋势数据库技术与多学科技术的有机结合

5、未来数据库技术及市场发展的两大方向数据仓库和电子商务

6、数据库技术的实践性发展面向专门应用领域的数据库技术

(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库

1、数据挖掘技术

2、数据仓库技术

3、知识发现技术

4、小结

5、结论

四、论文写作进度安排

(一)开题报告:论文题目、系别、专业、年级、姓名、导师

(二)目的意义和国内研究概况

(三)论文的理论依据、研究方法、研究内容

(四)研究结论

大数据技术论文第4篇

关键词:技术创新;大数据;双螺旋模型

一、引言

自2013年被确定为“大数据元年”以来,大数据应用已广泛渗透到各行各业。伴随着数据规模和类型的剧变、数据存储成本的迅速下降、数据采集更加密集和广泛,学术界和企业界开始站在战略的高度重新审视大数据的价值。2008年9月,《自然》杂志推出了名为“大数据”的封面专刊,随后IDC(2011)描述了大数据的“3V”:规模性(Volume)、多样性(Variety)、实时性(Velocity),之后又加入价值性(Value)来描述大数据特征,称之为“4V”[1]。麦肯锡(2011)将大数据定义为无法用常规软件收集、储存、处理、分析的庞大数据集。Forrester突破了以往单一对数据本身描述的局限,通过数据价值实现的角度将大数据定义为数据存储、处理和访问的流程与业务目标的集成。国内学者涂子沛在其专著《大数据》(2012)、《数据之巅》(2014)中反复表达“尊重事实,用数据说话”[2]以及“推崇知识和理性,用数据创新”的观点,并描述了未来对于建设“SmartCity”的构想[3]。孟小峰(2013)指出大数据研究的火热,并不能代表研究的深入,相反大数据的研究还处于一个非常起步的阶段,还有诸如关键技术、利用方式等很多基础性的问题需要解决[4]。大数据的发展和进步是以数字信息技术的发展和应用为主线的。数据分析、数据挖掘、数据存储是拉动大数据发展的“三驾马车”,这三项数据技术需要不断进行创新才能进一步发掘大数据的价值潜力。由于大数据具备准确预测趋势的能力、从海量数据中萃取有应用价值信息与知识的能力以及对市场技术需求方向突出的把控等能力,使得技术创新的效率有较大幅度的提升。同时,数据分析、挖掘和存储本身作为技术手段也需要进行创新。因此,大数据与技术创新之间存在着密切的联系。朱东华等(2013)提出了大数据环境下面向技术创新管理的双向决策模型,以期提升我国技术创新管理研究在大数据环境下提取知识与观点的能力[5]。赵亮等(2015)通过大数据的收集和预处理、大数据存储、创新源数据可视化以及创新应用子项目的实施,实现对技术创新评估预测、风险把控能力的提升[6]。针对大数据与技术创新有关文献的梳理,不难看出,在大数据时代下,大数据对于各类技术创新具有较大的提升作用,而“大数据”概念下作为技术支撑的数据技术同样需要创新,同时也需要对数据技术的创新进行管理。对于大数据和技术创新这种“你中有我,我中有你”的相互作用关系,论文尝试以双螺旋结构模型为研究工具,提出大数据———技术创新双螺旋模型,从而厘清在大数据与技术创新作用关系中的动力因素,以达到大数据与技术创新共同发展进步的目的。

二、双螺旋结构理论

双螺旋结构模型起源于生物学中的DNA双螺旋结构,生物学家为了研究人类的遗产规律,从人类遗传密码———“基因”的角度出发,提出并绘制了DNA双螺旋结构模型。1953年,沃森和克里克首次提出了DNA双螺旋结构模型,该模型开启了分子生物学时代。利用该模型,人类直观地认识到遗传信息的构成和传递路径,并对人类遗传信息复制上升的互融联动关系有了初步的了解。在生物分子学领域,DNA双螺旋结构模型是由两条主链和碱基对组成,两条主链相互盘旋形成类似于“麻花”状的螺旋结构,而碱基对位于螺旋内部,两两对应。碱基对的排列顺序就决定了生物体的不同性状,而在DNA双螺旋进行发展进化之时,碱基对的不同组合以及排列顺序就确定了未来生物的发展走向。随着管理科学的发展,在管理科学领域中有许多互相影响、互相促进、互相融合的二元关系,为了清晰地描述这种关系,管理学中引入分子生物学的DNA双螺旋结构模型进行描述,从而形成了管理科学中的双螺旋结构模型。质量管理学家戴明通过对计划———执行———检查的研究,提出这三个步骤不是原地循环往复的,而是一种螺旋式上升。于渤(2008)将知识创新双螺旋作为企业知识创新过程,指出创新的过程需要经历一套复杂的过程,最终实现自我超越的知识螺旋转化[7]。管理科学与分子生物学的结合提炼出螺旋式系统方法论,又称作螺旋式方法论。该方法论指导双螺旋结构模型在管理领域的应用,而其基本的解决问题的精神是,按照事物发展的规律和演变的过程,通过螺旋内部重大影响因素的互相作用,循环使用不同的方法,推进事物有序的发展,最终达到事物发展的某种目标。

三、大数据与技术创新双螺旋模型及分析

1.大数据与技术创新双螺旋模型对于各类技术创新,大数据提供了庞大的样本数据分析预测、精细的市场技术需求定位、详尽的技术创新需求对象画像刻画等服务,使得技术创新的效率大幅度提升。而数据分析、挖掘和存储是推动大数据自身发展的核心技术,这些技术的创新也将直接影响到大数据对其他技术创新的拉动作用。利用双螺旋结构模型研究大数据与技术创新相互作用关系具有积极的现实意义,论文提出大数据———技术创新双螺旋结构模型(BigData--Tech-nologyInnovation双螺旋结构模型;BT双螺旋结构模型)。依据BT双螺旋结构模型,本文将大数据与技术创新视为两条主链,即“大数据链”和“技术创新链”。这两条主链的相互作用是依靠碱基对进行链接的,为了推动“大数据链”与“技术创新链”的发展增长,碱基对的不同搭配,相互作用,促进BT双螺旋模型的不断发展。数据挖掘、数据分析、数据存储是推动大数据发展的技术核心,技术创新的发展需要技术创新管理理论的指导,以技术创新管理理论指导数据技术的创新,从而实现BT双螺旋模型的发展。故将数据挖掘、数据分析、数据存储和技术创新管理理论作为碱基,进行两两配对。图1BT2.大数据———技术创新双螺旋模型分析BT双螺旋结构模型中将大数据与技术创新作为研究的主要对象,将其作为两条主链进行分析。各类技术的创新需要在大数据以及大数据相关技术的支持下进行。同样的,大数据自身数据技术的创新又归属于技术创新范畴,需要相关技术创新管理理论来给予指导和管理。BT双螺旋结构模型需要向纵深发展,就必须要经历双螺旋结构的破裂———复制———重组———再破裂这样的一个循环过程,从而循环往复,推动BT双螺旋模型不断发展。碱基一:数据挖掘技术,大数据需要通过从海量的数据中提取有效信息和知识,因此,数据挖掘技术是大数据未来发展的一项核心技术。凭借数据挖掘技术提炼出有价值的信息与知识,可以为技术现状进行评估、技术创新未来趋势进行预测、技术创新源进行汇总提供强大的信息支撑。碱基二:数据分析技术,数据分析技术是通过对现有数据进行分析,归纳、整理、总结并对所分析对象提供相应的预测。该技术是连接数据与结论的重要桥梁,通过分析技术可以顺利地将“冷冰冰”的数据转化成为有价值的结论成果,碱基三:数据存储技术,存储技术是数据挖掘技术与数据分析技术的基础。信息时代的数据不仅仅是结构化的数据,更多的则是非结构化或是半结构化的数据,大量的数据需要有存储空间,并且要做到随用随取,这样才能使得数据的挖掘和分析更具时效性和针对性。碱基四:技术创新管理理论,数据技术的不断革新需要从管理学的角度给出指导性的建议。大数据的三项核心数据技术本身作为一种技术手段,需要进行科学的发展,在数据技术的创新过程中,离不开技术创新管理理论的协助。大数据链与技术创新链作为BT双螺旋模型的两条主链担负着不断进步发展的使命,以数据挖掘技术、数据分析技术、数据存储技术和技术创新管理理论为碱基对负责对两条主链的发展进行指导。在DNA双螺旋结构模型中,碱基对必须是A-T,G-C进行定位搭配互补,而在BT双螺旋模型中,通过借鉴DNA双螺旋结构模型的碱基对互补理论,从而进行多元轮回式的互补结合。BT双螺旋模型中的碱基对不再像DNA双螺旋模型那样必须定位对象式的配对,当进入破裂阶段,大数据链与技术创新链进行分离,两主链破裂时连带自己链条上所携带的碱基一并分离。进入到复制阶段,各碱基进行复制,也即各项数据技术以及技术创新管理理论的推广应用。而后,进入重组阶段,碱基随机两两结合,重新配对,在不同的空间、时间进行不断的随机结合,就会产生奇妙的化学反映。从而在不同随机两两碱基结合的过程中,产生创新,发挥动力作用,就如同图2所示地推动BT双螺旋模型向纵深方向进行发展进步。

四、结论与展望

大数据技术论文第5篇

【关键词】会议 文献 数据库 数字化 资源共享

一、研究背景

会议文献是指在各类学术会议上宣读的论文、论述、总结等形式的文献,包括会议前参加会议者预先提交的论文文摘、在会议上宣读或散发的论文、会上讨论的问题、交流的经验和情况等经整理编辑加工而成的正式出版物[1]。文献是进行学术交流的重要知识资源,大多数会议文献都具有独到的学术见解和新颖的学术观点,学术质量较高。许多会议文献还公布科研人员取得的新进展与新成果,并提出新的研究课题和新的研究设想。因此,会议文献往往具有专业性强、学术水平高、内容新颖、信息量大、可靠性强、出版速度快及发行方式灵活等特点[2]。

会议论文作为仅次于科技报告的十大情报源之一,代表了一个国家或地区在某一时期,在相关学术领域内取得的最高学术水平,是进行科学研究的文献信息保障,具有较高的学术价值和情报价值,是推动人类社会发展、科技进步的必备文献之一。

近年来,随着数字化加工、处理技术及信息检索技术的迅猛发展,各大图书馆以及数据库商开始将会议论文数字化,以期为受众提供更加便捷的数据服务。目前,国内综合性学术会议论文数据库主要有三个:CNKI的 《中国重要会议论文全文数据库》、万方数据的《中国学术会议文献数据库》、上海图书馆的《全国学术会议篇名数据库》。

本文通过对这三个数据库的统计调查,对国内主要学术会议论文数据库的建设和利用状况进行了初步分析,特别关注了所面临的共同问题,分析其产生原因并给出了相应对策与展望。

二、国内主要学术会议论文数据库开发所处的环境

(一)政治环境

近年来,政府在工作报告中指出,要“引导科研机构、高等院校的科研力量为企业研发中心服务,提高原始创新能力”。坚定不移地实施“国家知识产权战略”“倡导学术诚信、鼓励独立思考、保障学术自由、弘扬科学精神”。在政策的保障和推动下,学界的主动性明显增强,学术交流活动日见活跃,呈现出蓬勃发展的态势。

(二)经济环境

目前,整个市场经济正步入转型升级的阶段,各领域之间的渗透交融越来越明显。科研人员、教育界人士、政府机构对学术会议转化的成果需求日益旺盛,愿望日益迫切。传统图书情报机构对于会议文献的揭示已经难以满足受众的需求,需要寻求更为高效、精确的揭示途径和呈现模式。

(三)社会环境

《中国重要会议论文全文数据库》和《中国学术会议文献数据库》的总部在北京,《全国学术会议篇名数据库》总部在上海。京沪两地历史悠久,文化积淀深厚,在上海能感受到海纳百川的思想碰撞,北京更是汇聚了大量优质的教育文化资源,国内高质量的学术会议有很大部分都选择在这两地召开,办会条件成熟度高,具备明显的资源优势。

(四)技术环境

数字化加工技术的进步,互联网技术的快速发展为会议文献的揭示和服务提供了良好的支持,数据库开发者得以运用这些成熟的技术,来构建会议论文资源,成为采集、加工、保存、服务的技术平台。并通过互联网向全国乃至全世界提供学术会议论文数据服务,实现资源共享。

三、学术会议论文数据库建设和利用的现状

《全国学术会议篇名数据库》由上海图书馆上海科技情报所制作。该库建库时间早,早在1958年零星的资料收集就已出现。该数据库正式始建于1982年,最初以微缩胶片形式全文,1998年开始建立光盘及网络版数据库。《中国学术会议文献数据库》由北京万方数据有限公司制作,始于1983年,于1995年建光盘库,1997年通过Chinainfo出网络版文摘库,2002年网络版全文库。万方数据有限公司成立于1993年,是一家以中国科技信息研究所为基础,直属科技部的股份制高新技术有限公司。《中国重要会议论文全文数据库》由清华同方知网(北京)技术有限公司制作,教育部主管,该数据库始于1999年,能实现多库并行检索,具有强大的综合优势。(参见表1)

(一)会议论文收录量

万方《中国学术会议文献数据库》以250多万篇的数据量独占鳌头,CNKI《中国重要会议论文全文数据库》以200多万篇紧随其后,上图《全国学术会议篇名数据库》为120万篇,数据量较少。

(二)z索功能比较

基本的字段检索、高级检索和专业检索功能均无太大差异。万方和CNKI 均提供相似文献推荐服务,万方还提供与互动百科的词条链接服务;CNKI的分类导航、论文集导航和会议导航均做得较为出色,使用体验较佳。

(三)全文服务

万方和CNKI 均提供会议论文全文下载,会议论文索引免费获取,上图库仅提供篇名服务,需线下联系以获取全文。

学科导航(大类数量) 基本按照中图法,A大类不单列 分为十大专辑:基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十专辑下又分为168个专题。 无

(四)数据库收录会议情况抽样比较

通过对三个数据库5年内的收录数据进行统计,在此基础上对相关类目进行抽样比较分析得出如下结果。

(五)会议论文收录情况比较(参见表2)

2008~2012年,万方收录论文集12593种,年均2546个会议;CNKI收录7897种,年均1379个会议;上图收录3076种,年均613个会议。

(六)会议论文收录学科分布情况比较

万方会议论文收录科技类占总量的83.58%,其中工业技术比例最大,占39.07%;CNKI科技类占总量的73.80%,其中工业技术占30.00%;上图科技类占总量的68.40%,工业技术占30.92%。万方会议论文科技类占比是三个库中最高的,工业技术也是三个库占比最高的大类。上图会议论文中社科类占比为三个库中最高。

(七)收录会议重复情况比较

从5年内的抽样统计结果看,万方收录的会议论文集数量与上图收录的论文集数量重复率在大约是上图的50%。同时,万方和CNKI的重复量也基本上占CNKI的二分之一。

从上述调研及统计中发现,在建设力度方面,公益机构(上图)对会议文献数字资源的建设力度并不大,开展的服务力度非常有限,利用率不高;在加工深度方面,仅仅停留在对文献的数字化扫描的数字化还原层面,远未达到资源的深度揭示。相比较公益机构的迟缓,嗅觉灵敏的商业机构却在资金技术人力方面加大投入,采用全文扫描识别技术,力图深度揭示文献内容的内在关联,为受众提供更加人性化、个性化的服务。

四、存在的问题与对策

通过以上分析比较,我们发现,目前三个国内主要会议论文数据库之间数据体量差异较大,有一定的重复率。同时,因为数据库制作者的不同,制作标准不一,对同一种会议文献,不同的单位可能按不同的文献类型来处理,规范程度也不尽如人意[3]。由此影响了会议论文数据的查全率和查准率,给受众的正常使用带来诸多不便。学术会议是新研究成果的重要场所。据统计,有近1/3的学术成果是在相关会议上首次公布的;学术会议对本学科领域重大事件的首次报道率也是最高的。可以这么说,只参考期刊文献,不参考会议文献,科研的开创性将不复存在。因此,各大数据库应以读者的利益为出发点,达成共识,分工协作,不断提高兼容性,才能更好地为读者提供优质服务。

(一)增进沟通,统筹规划

会议文献数量巨大,任何一家机构都不可能独立收全所有的学术会议文献。这就首先需要全国各文献情报机构精诚协作,整合分布在各高校图书馆、公共图书馆、情报机构、数据公司中的会议文献资源,将资源进行充分的梳理、组合;其次要借鉴运作模式相对成熟的数据公司的力量,依托公益机构专业的分类标引手段,将公众资源和商业力量进行统一的运作规划,联合共建从而合理分配使用社会资源。如此,必然可以减少重复建设,从而提供更丰富优质的服务。

(二)规范制作,深度揭示

在数据库建设过程中,有必要建立规范的会议文献数据库,将不同出版形式的会议文献统一纳入该数据库,按照会议文献的特征和著录规范进行著录。同时,对会议文献的开发不能停留在全文提供的层面,应认真调研,做好深层次开发的准备,以深度标引为基础,提高资源揭示的深度与内在关联性,进一步完善会议文献的数字化建设工作。在服务平台相关功能上,论文数据的精准定位、深度标引以及全文的可检索途径已成为服务平台不可或缺的功能之一,必须充分考虑并挖掘这一功能。

(三)丰富内容,深化服

新一代的会议论文服务平台,不应当仅仅是提供论文检索的数据库,更应当以满足用户多样化需求为着力点,将服务延伸至会前、会中和会后。从会议预告到相关新闻,从篇目揭示到文献传递,从单向提供会议信息到支持用户相关信息,资源共享、开放协作将是未来会议文献数据库的发展趋势。

【参考文献】

[1]王冰,曹开玉. 军事情报网络资源检索理论与应用[M].北京:军事科学出版社,2007:508-512.

大数据技术论文第6篇

关键词:图书馆 大数据 体系构建 学术环境 战略思考 分析 探究

中图分类号:G250 文献标识码:A 文章编号:1672-3791(2017)02(c)-0003-02

随着我国信息技术以及网络化的不断发展,信息量的增加和数据类型的增长已经逐渐超出了人们的承受范围。这样一来造成的后果就是全球近80%的数据都没有得到真正的利用,而70%的数据都是非结构化的数据和半结构化的数据,最关键的是这一比例仍旧在不断增长当中。信息量也逐渐呈现出了指数级的增长,数据结构的复杂化逐渐脱离了人们的实际控制。在这样的一种大背景下,对图书馆的知识服务体系进行变更和完善是非常有必要的,而且对其进行更新也有助于以大数据为基础的科学研究和新型知识服务范式的形成,但是从目前的实际情况来看,现阶段实行的信息技术以及信息管理模式并不利于大数据的获取和形成,最主要的是它还面临着技术落后、人员队伍不适应重大灾难性危险等问题。

再加上已有数字图书馆的相关建设需求以及构建模式都面临着被新知识服务需求与服务模式所取代的危机。数据量的不断增长也使得数据的结构变得日益复杂化,使得图书馆的知识服务体系逐渐成为半盲区。因此在这样的时代背景以及图书馆发展背景下,开展图书馆大数据体系构建的基础理论与实践研究工作是非常有学术价值的。

1 大数据体系构建的学术环境

1.1 发展历程

大数据这一概念由来已久,其发展历程非常独特,我们这里所说的大数据并不是指海量的数据和超大规模数据,但是从字面上分析的话,其实二者之间的区别不是很大,从数据管理技术发展的角度来分析二者之间的联系,对于研究人员进一步理解大数据的概念以及相关的技术问题都是非常有帮助的。

1.2 大数据理论与应用研究发展

从数据发展的历程角度就断定大数据的出现是不客观的,研究人员还需要从更多的角度和层面来考虑大数据这一全新的理论技术,笔者此次主要对大数据理论与应用研究发展进行详细的分析,以此来感受大数据体系构建所处的学术环境。虽然说大数据技术与实际理念之间的冲击的确能够让图书馆知识服务受众、供应者以及运营者本身得到充分的体现,而且还能够通过对结构化以及非结构化数据的常规分析,实现对图书馆知识服务创新能力的有效性分析。但是大数据对于图书馆来说,并不意味着所有,也不是一蹴而就的,一般大数据处理以及管理技术都是处于诱发阶段,距离真正投入到实施中还有很长的一段时间,也就是说二者并不是等同的,这段时间是研究人员建立图书馆大数据体系的重要阶段,同时也是图书馆研究人员非常重要的缓冲时期。

2 图书馆大数据体系构建战略思考研究

2.1 大数据对图书馆的影响

在对大数据进行分析和应用的时候,研究人员就要首先考虑图书馆大数据体系构建以及图书馆的信息职能服务问题,目前我国对大数据工程技术的研究已经领先于大数据科学研究,而大数据科学研究也走在了大数据知识服务体系的前面。当前,很多工程领域专家都是以自我的认知为中心来处理图书馆领域的大数据信息。而信息领域的专家则起到辅助的作用,在与应用领域的科研人员进行合作的时候,主要解决的是应用领域大数据处理的相关技术问题。而信息服务领域的专家则暂时独立于大数据知识服务体系之外。这样一来也就使得大数据知识服务体系的运用被推迟了5年左右。也正因为如此,图书馆大数据问题成为了当前研究的热点问题。

由此可见,如果想要研究大数据对图书馆的真正影响,就绝对不能简单地将图书馆看做一个单独的个体进行分析和讨论,而是要结合图书馆当前所处的学科背景以及研究背景等多个方面进行综合考虑。

大数据对图书馆的影响并不是单纯地体现在技术手段上,由于图书馆所处的时代背景和学术背景都属于有机整体,而大数据理论与应用研究对整个图书馆的影响是由内而外的,所以说大数据对图书馆的信息资源以及图书馆领导以及管理者甚至建筑设备都会产生直接的影响。

2.2 图书馆的相关应对措施

在大数据的引领下,图书馆运营体系也迎来了全新的机遇和挑战,图书情报领域要从自发到自觉、局部到整体,全方位地实施管理应对措施。只有这样才能够有效地应对当前图书馆大数据体系构建的实际社会需求以及科研发展带来的挑战。图书馆要想合理地构建大数据生态体系,就一定要做好以下应对措施。

第一,图书馆的领导层和管理人员在制定大数据的全局战略规划时,一定要根据不同的情况来创建大数据战略角色定位,并结合图书馆所处的实际地理位置,综合各方面因素来制定分层、分级的实施策略,进而有效协调,创建大数据知识服务纲要。

第二,图书馆一定要在思想意识形态以及技术手段、服务技能等方面进行全面的提升,我们的图书管理人员除了要掌握图书馆学、信息管理学等专业的理论知识以外,还要熟练地掌握信息科学、教育学、心理学等学科知识,尤其是大数据、云计算、移动互联网等基础的理论和技术。进而树立一个嵌入式的知识合作服务理念。

第三,研究图书馆大数据体系构建的要素以及驱动因素主要是从环境架构、战略架构以及业务架构等方面来探索图书馆大数据体系构建的相关理论及应用研究,探究图书馆在促进大数据科研发展中应该发挥的具体作用和地位。

第四,研究人T还要研究支持图书馆大数据体系的知识服务环境。作为集数据、工具、平台等于一体的知识服务环境,除了具备学术搜索、知识服务行为分析以及决策等功能以外,还要实现与传统图书馆自然环境、人文环境以及技术环境的无缝对接。

第五,按照图书馆大数据的数据全生命周期来进一步实现图书馆大数据的获取、存错、组织、分析等功能,结合大数据的来源以及用户的实际服务需求来解决主要的技术型问题,进而提出科学系统的基础理论体系。

第六,我们还要研究图书馆大数据的技术型人才以及服务型人才的主要培养方案,着重分析这类人才的知识结构以及专业技能,将培养计划真正付诸实践,为今后图书馆大数据体系构建提供有用的人才,除此之外,还要从大数据的源头抓起,进一步提高全民的数据素养以及数据的方法和方式。

2.3 ν际楣荽笫据体系构建的几点思考

从客观的角度来说,目前还是有很多人对大数据产生质疑,正如图书馆技术出现之后,图书馆界也出现了很多质疑的声音,认为图书馆技术在今后的发展中不会占据任何优势,而图书馆人员在研究大数据的时候也同样遭受到了此类质疑,基于此,笔者针对图书馆大数据体系构建阐明以下几个观点:(1)大数据体系只是一种全新的图书馆管理体系,它并不代表对图书馆所有的传统信息服务模式和信息技术都进行替换,大数据体系主要是在已有的信息服务模式基础上,对信息技术和人文情怀进行完善和补充,就好比我们将当前的数字图书馆、移动图书馆以及云图书馆进行整合。大数据体系作为信息资源管理技术的标准,并不意味着后续的技术会完全取代传统技术手段,技术体系以及人文情怀的渗透和融合在大数据体系中的运用也是非常有意义的。(2)在面对大数据的挑战时,图书馆领域有责任承担起图书馆大数据体系构建的重任,尤其是图书情报领域中处于一线的科学技术研究人员以及图书馆情报学家,他们的贡献和付出使得图书馆的整体发展有了极大的进步。

3 结语

我们这里所说的大数据不仅是数据量的增长,而是信息技术的更新和人类对客观世界认知程度的不断提升,对大数据基础理论知识的应用进行有效的分析和研究将会极大地推动图书馆情报学等学科的发展,而且也为社会以及所服务的机构提供了更加先进的知识服务机会,但是需要注意的是,我们所面对的不仅仅是图书馆新型知识服务体系构建上的变化,还要综合考虑由量变到质变,由局部到整体的图书情报领域观察模式的转变,大数据有可能会引起图书馆生存方式以及生存方法上的改变,所以我们一定要充分发挥自身的知识水平,支持图书馆大数据体系构建的基础性研究,不断增强学科内以及学科之间的学术交流。

参考文献

[1] 冯晴君.“云图书馆”环境下的地方文献工作新模式――以“贵州数字图书馆”和“珠江三角洲数字图书馆联盟”为例[J].贵图学刊,2012(3):1-3.

[2] 蔡津津,郜新鑫,付建俐.基于业务元数据标准化的金融财经数据仓库及服务系统架构探讨[C]//中国新闻技术工作者联合会2012年学术年会、五届四次理事会暨第六届“王选新闻科学技术奖”的“人才奖”和“优秀论文奖”颁奖大会论文集.2012.

[3] 张丽丽.科学数据与数据科学小议[C]//安徽首届科普产业博士科技论坛――暨社区科技传播体系与平台建构学术交流会论文集.2012.

[4] 王红会.图书馆动态WEB数据库应用[C]//图书馆改革与发展――陕西省社会科学信息学会第六次学术讨论会论文集.2003.

[5] 张侠.浅谈现阶段图书馆的数字化建设[C]//陕西省图书馆学会第五次会员代表大会暨学术研讨会与全国图书馆部室主任工作、学术研讨会论文集.2003.

[6] 闫贵恩.回顾与展望――中国图书馆事业百年――图书馆数字化与现代化服务[C]//中华医学会第十次全国医学信息学术会议论文汇编.2004.

[7] 贾怀忠.高校图书馆电子阅览室的建设与管理[C]//拓展与深化――全国民办高校图书馆与图书馆地方文献工作研讨会论文集.2005.

[8] 支晓红.新建高职高专院校信息资源建设的策略[C]//拓展与深化――全国民办高校图书馆与图书馆地方文献工作研讨会论文集.2005.

[9] 郭嘉.浅谈新时期高校图书馆网页制作[C]//图书馆与人文精神――陕西省社会科学信息学会第八次学术讨论会论文集.2006.

大数据技术论文第7篇

(中共山西省委党校,山西 太原 030006)

摘 要:大数据技术表征的过程彰显了广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证统一。即结构与意义的辩证统一,新范式与旧范式的辩证统一,数据“发声”与人的主观创造性的辩证统一,历时性与共时性的辩证统一。为促进大数据发展,必须培养辩证思维能力,充分挖掘社会对大数据技术的个化性需求,加快创新型人才队伍建设,充分发挥人的主观创造性,培养大数据文化。

关 键 词:大数据技术表征;过程;方法论

中图分类号:N39文献标识码:A文章编号:1007-8207(2015)02-0030-06

收稿日期:2014-12-12

作者简介:苏玉娟(1975—),女,山西稷山人,中共山西省委党校理论研究室副教授,博士,研究方向为科技史和科技哲学。

数据技术是一个经历了由“无数据”到“小数据”、由“小数据”再到“大数据”的不断演变和完善的过程。随着物联网、移动互联网、智能便携网终端和云计算技术的发展,人类社会进入了因大数据技术的发展和社会对大数据需求的大数据时代。大数据技术表征的过程是大数据技术表征方法论被不断应用的过程。维克托·迈尔·舍恩伯格在他的《大数据时代》一书中将大数据引起的变革概括为:不是随机样本,而是全体数据;不是精确性而是混杂性;不是因果关系,而是相关关系。他从不同角度探索了大数据表征的现实性特征。随着大数据技术表征的不断深入,大数据技术表征的方法论特征越来越明显。将大数据技术表征的方法论作为科学方法论研究的一个重要组成部分,探究并揭示它的方法论意义,对于进一步促进社会大数据化的实现,是一项非常必要而且是非常重要的工作。

一、广义语境性与再语境性

毕达哥拉斯学派认为,数的本性就是为人类提供认识。数据是由数和量演变而来。大数据指数据集合的大小已经超出了典型数据库在获取、存储、管理和分析方面的能力。从大数据技术表征的因素看,大数据技术表征体现了广义语境性与再语境性的辩证统一。

⒈广义语境性。“广义语境的含义就是将语境概念从狭义的语言领域扩展到广阔的社会、历史、文化和认知领域,形成社会语境、历史语境、文化语境和认知语境。”[1]不同主体所涉及的广义语境因素是不同的。数据本身并没有意义,只有把数据放在特定的语境之中它才能被赋予意义。大数据技术表征的过程包括历史语境、认知语境、科学语境和社会语境。大数据技术发展带来的文化、心理、伦理、法律、道德等社会问题以及如何更好地获得和使用大数据等技术问题构成了大数据技术表征的历史语境。大数据技术表征的过程还引起科学共同体认知、企业认知、政府认知和民众认知的变革。大数据技术对自然科学、技术科学和人文社会科学的变革构成了大数据技术表征的科学语境。大数据技术表征还引起了社会领域的变革,如企业生产、民众生活的方式等。大数据技术表征的过程正是大数据技术在历史语境、认知语境、科学语境和社会语境中不断变革的过程。

⒉再语境性。“再语境化的过程就是语境不断运动、变化和发展的过程,也即意义不断改变的过程”。[2]大数据技术表征涉及历史语境、认知语境、科学语境和社会语境。语境因素的变革将引起大数据技术表征意义的变革,这个过程就是大数据技术再语境化的过程,体现了大数据技术表征的再语境性。大数据技术目前被广泛应用于制造业、农业、商业、金融业和交通运输业等。由于每个产业、每个行业和每个企业语境因素的不同,大数据技术在每个产业、每个行业和每个企业表征的过程就是大数据技术再语境化的过程。对于每个企业来讲,随着语境因素的变革,大数据技术表征的意义也在变革。沃尔玛通过大数据技术发现尿布与啤酒的相关性,这个结果会影响沃尔玛对商品摆放位置的调整。所以,无论是从广义语境还是从每个企业的具体语境看,大数据技术表征的过程就是大数据技术在不同领域再语境化的过程。

⒊广义语境性与再语境性的辩证统一。大数据技术表征的过程是大数据广义语境化与再语境化过程的辩证统一。亚马逊公司能时实知晓购书者的偏好,是因为在历史语境中网上售书的记录、认知语境中企业研发团队和民众的认知水平、科学语境中大数据技术的变革、社会语境中大数据技术推荐相关图书对民众选购习惯的改变,是历史、认知、科学和社会等语境共同作用的结果。亚马逊公司为每个顾客实时推荐图书的过程,同时又是具体语境的再语境化过程。可以说,亚马逊公司时实知晓购书者的偏好并推荐新书,是广义语境和再语境化共同作用的结果。广义语境为亚马逊公司推荐图书提供条件,再语境化则彰显亚马逊公司为每个客户推荐图书的个性化服务特征。

二、建构性与解构性

结构指组成整体的各部分的搭配和安排。主体对客体信息的选择取舍或加工制作,最后都必须通过“建构”或“解构”这一环节,才能实现主体反映客体的要求。建构侧重系统的建立,解构指对稳固性的结构及其中心进行消解。每一次解构都表现为原有结构的中断、分裂或解体,但是每一次解构的结果又都产生新的结构。大数据技术表征的过程是传统范式解构和新范式建构的辩证统一。

⒈解构性。范式是从事某一科学的共同体所共同遵从的基本理论、观念和方法。每一次科技革命都引起科学共同体研究范式的变革。“有人将大数据称为继实验科学、理论科学和计算科学之后的第四种科学研究模式。”[3]这种范式的产生来源于数据密集型科学的发展。每一种新的范式的产生都是在对旧范式解构的基础上产生的。库恩认为,科学革命发生的过程就是新旧范式转换的过程。经验科学和实验科学偏重对经验事实和实验观察的描述,以归纳法为主。理论科学侧重理论总结和理性概括,以演绎法为主。计算科学主要以数据模型构建、分析和解决科学问题,以定量分析法为主。大数据技术作为数据密集型科学发展的重要领域,是“由传统的假设驱动向基于科学数据进行探索的科学方法的转变。”[4]传统的研究范式基于假设和问题,通过归纳、演绎和计算方法进行研究。大数据技术基于观察数据、实验数据、模拟数据和网络的大行为数据、大交易数据,并不依赖于假设,而是通过数据“发声”探索事物的现象和规律,是对传统归纳法、演绎法、计算模拟方法的解构。

⒉建构性。解构的结果必然是建构出新的研究范式。大数据技术在解构传统研究范式的基础上建构出了自己的研究范式。从主体看,大数据技术研究范式从科学共同体表征走向社会表征。在经验科学时期,科学研究范式主要体现为个体表征。随着科学从“小科学”走向“大科学”,大数据技术表征从科学共同体扩展到政府、企业和民众,而且促使经济、社会、军事、文化等社会领域的数据化。从方法论看,大数据技术产生的研究范式侧重数据挖掘和数据共享。一方面,强调数据本身科学研究范式的建构,即数据密集型科学的发展;另一方面,强调大数据在社会领域的再建构,实现大数据技术的社会化。根据研究问题的不同,大数据可以被重复建构多次,不断形成新的价值。因此,大数据技术表征的建构性不仅彰显新范式的产生,而且彰显大数据的再建构性和价值的增值性。

⒊解构性与建构性的辩证统一。事物的发展过程就是吸收旧事物中的积极因素,抛弃旧事物中消极因素的过程。大数据技术对传统研究范式解构并不意味着完全抛弃旧范式。经验科学是理论科学的实践基础,理论科学指导经验科学的发展,计算科学为经验科学和理论科学提供了更好的模拟方法和计算手段。大数据技术表征的过程离不开传统研究范式,是旧范式解构性与新范式建构性的辩证统一。一方面,大数据技术在解构传统科学研究范式的同时,也为传统科学提供了方法论指导。大数据技术研究范式通过数据“发声”为经验科学、理论科学、计算科学提供了新的研究方法。另一方面,大数据技术研究范式的建构过程离不开归纳法、演绎法和计算法。上文中提到的沃尔玛超市在大数据分析的基础上发现了“啤酒和尿布”销量的相关性,就是一个很好的说明。因此,大数据技术解构与建构的过程既是对传统科学研究范式的解构,同时又是对传统科学研究范式的积极吸收,是解构与建构的辩证统一。

三、相关性与因果性

相关性是指两个或多个具备相关性的变量元素的密切程度。相关性的元素之间存在一定的联系或者概率才可以进行相关性分析。因果性分析是为了查明不同要素之间的关系以及导致一定现象产生的原因。强相关性往往是因果性的重要表现。大数据技术从“是什么”的角度分析数据之间彼此的相关性,为决策者提供选择,同时强相关性数据关系背后可能存在因果性。因此,大数据技术表征过程是相关性与因果性的辩证统一。

⒈相关性。“知道‘是什么’就够了,没必要知道‘为什么’。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己‘发声’”。[5]维克托·迈尔·舍恩伯格认为,小数据时代追寻因果关系,大数据时代追寻相关关系。相关关系是指当一个数据增加时,另一个数据值会随之增加。大数据技术通过分析事物之间的相关性,为决策提供服务。沃尔玛通过对每一个顾客的购物单、消费额、购物时间及天气等数据的分析,发现季节性飓风来临之前,蛋挞与飓风用品具有相关性,于是将二者摆放在一起。“通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。”[6]大数据技术通过对数据的采集、存储和分析以发现事物的相关性,这是大数据研究范式不同于传统研究范式的显著特征。

⒉因果性。维克托·迈尔·舍恩伯格强调大数据技术的相关性,并没有否定因果性。虽然相关不等于因果,但不代表相关就不可能是因果关系。两个变量A和B具有相关性,其原因有很多种,可能AB或者BA,也可能CA并且CB。为此,要证明事物之间相关性产生的因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除第三个隐含变量同时导致这两个变量的可能性。大数据技术通过统计因果关系反映事物之间的相关性,进而寻找隐藏在大数据背后的原因。只依靠数据,不发挥人的主观能动性以挖掘数据背后的原因,人就可能成为数据的“奴隶”。“对数据的盲目崇拜,只会让冰冷的机器浇灭炽热却敏感的爱情”。[7]如果失去人类的探究精神,大数据技术表征将产生新的技术异化。实际上,在进行数据分析前,一定在思维中存在着关于事物因果判断的各种可能。因此,大数据技术表征具有因果性特征,需要结合数据的相关性和相关科学理论的逻辑性分析事物相关性背后的因果关系。

⒊相关性与因果性的辩证统一。“科学研究就是寻找研究对象的现象之间的因果关系,没有因果性,科学研究也就失去了基础。”[8]因果性说明事物之间内部的联系,相关性是事物之间关系的外在表征。因果关系说明事物之间具有强相关性,即AB或者BA。强相关关系作为事物关系的外在表征,可能是偶然现象,也可能具有因果性。“相关关系可以在实践中引导我们怎么做,因果关系可以回答我们为什么这样做。”[9]二者之间是相辅相成的。大数据技术表征的相关性包括直接的和间接的相关性、强相关性和弱相关性等,它拓展了我们对于客观世界认识的维度,即从因果性扩展到相关性和因果性。对于相关性数据我们需要进一步挖掘,寻找现象背后可能隐藏的因果性,进而认识事物发展的规律。大数据发现的因果性又会反馈过来为大数据的生成、存储、处理、应用等提供理论指导。因此,在大数据时代,大数据技术表征的相关性与大数据背后可能存在的因果性是辩证统一的。没有相关性分析,大数据技术发展就没有优势;没有因果性分析,大数据技术发展就无法揭示规律。

四、预测性与实时性

在大数据时代,依靠大数据的分析结果可以用来预测事物未来发展的趋向。大数据来源于实时记录、监视、跟踪。可以说,大数据技术表征的过程是预测性与实时性的辩证统一。

⒈预测性。大数据技术的显著特点是数据规模巨大、数据处理迅速、数据种类多和价值密度低。数据价值密度的高低与数据总量的大小成反比。以视频为例,一部1个小时的视频,在连续不间断的监控中,有用数据可能仅有1-2秒。大数据的价值就在于通过对大数据的“提纯”,发现规律,预测趋势。如果大数据没有预测性功能,它的价值将大打折扣。目前,大数据的预测性体现在很多领域。警察利用数据可以预测某人犯罪的可能性,亚马逊、淘宝、京东、迪斯尼主题乐园等利用大数据预测和引导消费者的需求,相关部门则可以利用大数据对流感等疫情进行预测。如在一个特定地区,越多的人搜索“流感”一词,就意味着该地区有越多的人患了流感。因此,预测性是大数据技术价值的重要体现,没有预测性,数据的价值是残缺的。

⒉实时性。我们时刻都在“第三只眼”之下:“亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听了我们心中的他,还有我们的社交关系网。”[10]大数据主要来源于对政府数据、物理数据和网络数据的实时监测。没有实时性的监测,大数据就体现不出“大”的内涵。大数据的实时性也带来了存储问题和数据垃圾问题。谷歌数据中心只有6-12%的电能被用来支撑大数据的分析处理,绝大部分电能只用来支撑很多闲置状态的服务器。

⒊预测性与实时性的辩证统一。数据的实时性与预测性体现了事物发展的历时性与共时性的辩证统一。共时分析跨越时间,历时分析跨越空间。忽视共时性,也就忽视了事物的关联性;忽视历时性,也就忽视了事物发展的历史性。任何事物的发展过程都是在共时与历时二维时空中运动的结果。从历时性看,实时性反映的是事物运动的历史轨迹,而预测性反映则是事物的未来可能的轨迹。只有实时性与预测性相结合,才可能更清楚地分析事物发展的轨迹。从共时性看,实时性监测为分析事物空间的相关性提供了最原始的资料,预测性则是基于事物空间的相关性做出的预测。所以,从历时性与共时性看,大数据技术表征的过程是实时性与预测性的辩证统一。

五、启示

大数据技术表征的过程彰显广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证统一。为了更好地迎接大数据革命,我们必须做好以下几个方面工作。

⒈培养辩证思维能力,科学对待大数据技术表征的方法论特征。通过对大数据技术表征方法论特征的考察我们发现,对于大数据技术的应用必须具有辩证思维。辩证思维是唯物辩证法在思维中的运用,对立统一规律、质量互变规律和否定之否定规律是唯物辩证法的基本规律,也是辩证思维的基本规律。阿里巴巴集团副总裁、数据委员会会长车品觉认为,“今天的大数据就是明天的小数据,这个是做大数据的人都知道的。”[11]大数据时代,大数据与小数据处于发展和联系之中。对于某个个体或企业的研究,小数据更具有挖掘数据潜力的功能,对于把握事物之间相关性问题,大数据技术的功能更具有优势。科学运用大数据技术表征的方法必须培养辩证思维。因此,要学会运用发展和联系的观点分析数据技术应用中的大数据与小数据的辩证关系,以及大数据技术应用过程中广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性的辩证关系。

⒉充分挖掘社会对大数据技术的个化性需求,实现大数据技术表征广义语境性与再语境性的辩证统一。从广义语境看,大数据技术表征的过程包括历史语境、认知语境、科学语境和社会语境。大数据在制造业、零售业、农业、金融业、交通运输业和影视业等行业的应用过程就是大数据技术广义语境因素再语境化的过程。因此,不断挖掘社会对大数据技术的个性化需求是大数据技术实现广义语境性与再语境性表征的前提和基础。目前,大数据技术虽然在很多领域都被广泛应用,但是,从不同领域应用的分布看,大数据应用还处于起步阶段,只有很少量的企业充分地利用了大数据。“为数不多的数据拥有者往往是资金雄厚的垄断者或产业巨头,中小企业则不一定拥有。”[12]大数据被应用的潜力还是很大的。因此,一方面,应通过政府和非政府组织宣传并鼓励企业从观念、技术和管理等层面重视大数据的应用;另一方面,应大力发展大数据技术服务公司,为企业和政府大数据应用提供技术服务。

⒊加快创新型人才队伍建设,实现大数据技术表征解构性与建构性的辩证统一。不同行业和企业的大数据技术表征的过程是大数据技术不断解构和建构的过程。但是,大数据技术引起研究范式的建构和解构需要专业的人才队伍支撑。没有专业的研发团队,大数据技术无法实现建构与解构,大数据仅仅是具有潜在的价值,而不可能转化为现实的价值。很多企业想利用大数据技术,但是人才“短板”成为最明显的制约因素。“麦肯锡公司预测美国到2018年需要深度数据分析人才44-49万,缺口14-19万人;需要既熟悉本单位需求又了解大数据技术与应用的管理者150万,这方面的人才缺口更大。”[13]大数据技术在我国的应用正处于高速发展阶段,更缺乏这方面的人才。为此,一是应加大对大数据教育的投入力度,为大数据专业人才的培养提供保障,以满足社会对大数据人才的现实需求。二是应在加大政府和企业管理人员、专业技术人员培训力度的同时,使用好现有的大数据人才。

⒋充分发挥人的主观创造性,实现大数据表征相关性与因果性的辩证统一。每一次科技革命在解放人类体力劳动和脑力劳动的过程中,往往伴随着异化问题的产生。大数据技术革命在改变人类生活的过程中容易使人物化为数据的“奴隶”,重视相关性忽视因果性,进而影响到人类对自然规律的认识,这也违背了科学研究的意义。为消解大数据的异化问题,必须充分发挥人的主观创造性。首先,在数据获取阶段要充分发挥人的主观创造性,实现结构化数据与非结构化数据的有效融合。其次,在数据挖掘阶段,不断开发新的挖掘手段,实现挖掘次数与算法参数的自动调节,即实现机器学习。第三,在数据分析和使用阶段,通过相关性和因果性分析,更好地发现事物发展的规律,进而指导大数据库建设和大数据在实践中的应用。

⒌培育大数据文化,实现大数据表征预测性与实时性的辩证统一。大数据技术一旦被企业和民众所采用,大数据技术就将物化为企业和民众的行为习惯,影响企业的生产方式和民众的生活方式,最后上升为社会的大数据文化。“大数据文化就是尊重事实,推崇理性,强调精确的文化。”[14]大数据文化约定了大数据被收集、存储和记忆的时间。大数据文化从观念和制度等方面渗透到不同主体的行动中,指导和规范政府、企业和民众的行为。所以,在大数据时代,应重视培育大数据文化,规范和约束不同群体的行为,尽量减少虚假信息的产生和传播,尊重不同群体的隐私,缩小不同群体之间的数字鸿沟,形成良性的大数据技术表征的社会文化氛围。

总之,大数据时代,我们既不能过分依靠大数据,认为大数据是万能的,也不能冷漠地看待大数据,认为大数据技术应用只是“昙花一现”。必须运用辩证思维,科学地对待大数据技术表征的方法论特征,在大数据与小数据之间,大数据技术表征的广义语境性与再语境性、解构性与建构性、相关性与因果性、预测性与实时性方法之间保持必要的张力,充分发挥好大数据技术对社会变革的功能。

参考文献

[1][2]魏屹东.科学的维度及其广义语境解释模型[J].自然辩证法研究,2002,(02).

[3]邬贺铨.大数据思维[J].科学与社会,2014,(01).

[4]邓仲华,李志芳.科学研究范式的演化[J].情报资料工作,2013,(04).

[5][6][10](美)维克托·迈尔·舍恩伯格.大数据时代[M].盛杨燕,周涛译.浙江人民出版社,2013.67,72,193.

[7][12]郑志励.喜忧参半“大数据”[J].中国图书评论,2013,(08).

[8]黄欣荣.大数据对科学认识论的发展[J].自然辩证法研究,2014,(09).

[9]徐艳.大数据时代媒体发展的SWOT分析[J].理论学刊,2013,(07).

[11]车品觉.没有大数据神话[J].管理学家,2014,(04).