欢迎来到优发表网,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

购物车(0)

期刊大全 杂志订阅 SCI期刊 SCI发表 期刊投稿 出版社 公文范文 精品范文

大数据互联网论文(合集7篇)

时间:2023-03-29 09:24:41
大数据互联网论文

大数据互联网论文第1篇

移动互联网的“长尾”理论和“病毒式营销”方式不仅仅可以解释网络参与者的数量增加和参与深度加深,同时也与新文化经济模式的出现和发展有着紧密的联系。基于移动互联网的文化传播现象多种多样,如何准确认识其本质并把握其发展方向,需要研究其形成的外部推动力---技术上的创新,更需要依据其内在的变化,理清新的文化产品发展的脉络。对文化大数据的分析和研究,能够大大加深对文化产品传播模式的理解,从而对其今后的发展做出准确的预测和相应的准备。

二、文化大数据的传播

同时随着社会的信息化、网络化程度不断不加深,移动互联网产生了海量的文化大数据。这些文化大数据无法在常规的时间内用传统的软件工具和技术标准对其内容进行各种处理,如抓取、传输、存储和处理。从文化产品传播方面看,大数据可以成为文化产品传播行为的显微镜,拥有文化产品的人的传播行为和社会状态被广泛记录,并通过进一步提取、整合与分析,形成可视化的数据,产生巨大的价值[4]。文化大数据的社会意义在于人类将进入智能时代,计算机和网络更加智能,人与人之间有关的文化产品的合作,任务之间的对接会更精确,文化产品的创作和传播的社会成本和经济成本会更低。在传统的文化产品传播工作中,数据采集方式不仅需要科学地确定调查对象,还需要通过标准化的报表进行数据采集、汇总和分析。[5]然而随着信息化、网络化时代的到来,尤其是移动互联时代,每一个文化产品的购买者、欣赏者、传播者都可以通过手持平台多渠道、多角度的通过评论、传播等行为产生文化大数据,如对某一著名的电影作品,往往通过微信中朋友圈的传播和评论,可以很快的影响其众多潜在观影者对于电影的态度,买票看电影还是等待看影视的光盘,甚至由于不良的评价,取消对电影的欣赏态度。对这些正在源源不断地产生海量的、即时的电子化大数据。四、文化大数据的分析文化大数据发展趋势中所增加的大部分数据都是在自然环境下产生的非结构型数据,如网络言论、图片、视频等不受控的东西,从纷杂的信息中提炼有价值的信息,这也是统计信息的收集、加工整理所面临的挑战。在统计的基础上,通过对外部、不完整数据集的探索与发现,形成观点与交互,实现宏观预测,这正是大数据应用的体现[6]。而研究如何能够从非结构型的文化大数据中抽象出有效地信息,或者说智能的融合大数据,使其能够最大限度的发掘出有价值的信息。

三、结束语

大数据互联网论文第2篇

1.互联网融资平台的技术优势。首先,传统信用评级使用的数据,主要是来自于企业在各类生产运营活动结束后汇总、记录的运营数据,这些数据多以文件或电子文档的形式存在。比如从企业财务报表可以获得财务数据,从季报、年报等可以获得销售数据,从仓库台账可以获得存货数据等。而利用大数据技术,则不局限于生产运营结束后,从运营前的准备过程、运营中的操作过程都可以收集到数据进行信用分析,数据的形式从文本扩展到音频、图片、视频等多媒体形式,收集的范围也从企业文件扩展到各种存储媒质、互联网网页上、电商网站的后台数据库中,甚至社交软件的聊天记录里,从运营大数据扩展到交易大数据、交互大数据,因此包含的内容也更加丰富,不仅包含传统评级必需的“硬信息”,也包含丰富的“软信息”,从而形成实现对企业的全面、实时、动态性信用评级的基础。其次,在获取到这些信息后,需要在云计算下利用大数据机器学习技术进行数据挖掘和知识发现,这需要有软件和硬件良好的结合与支持。互联网平台能够为云计算和大数据机器学习提供这种对接通道。由此可见,利用人力资源进行信用评级的传统做法在信用大数据下就不再适用,而必须在一个组织规范的互联网平台上才能进行,因此通过互联网平台进行信用评级是技术上的必然要求。

2.互联网融资平台的规模经济优势。进一步,通过互联网平台进行信用评级,较之传统信用评级方式能实现规模经济优势。由于传统的信用评级方式需要贷前调查,贷中跟踪,贷后审计,存在较高的成本,如果融资额度不够大,会使贷款利润较低。而互联网平台在设计、运营和管理等方面的投入具有固定成本的性质,总成本不随评级企业的数目变化而发生显著变化,单个企业分摊的成本却越来越小,从而实现信用评级的规模效应。此外,通过互联网技术能对企业进行实时监测,一旦企业出现危险的信号和行为,会即时预警,提升信用评级的预判性,能够增加信用评级的深度。同时,将经营成熟的互联网融资平台的数据库在监管机构的管理下实现联网,进而建立起面向全社会的信用体系,能够增加信用评级的广度。由于依托互联网融资平台进行大数据信用评级,可以实现传统信用评级下不能或不愿提供的融资业务,从而使其成为互联网金融的基本运作方式。

二、基于大数据建立互联网融资平台的信用评级模式

1.互联网融资平台的运作模式。对于互联网融资平台的运作模式,从不同的角度可以进行不同的划分。比如,从运营形态上,可以分为:(1)电商平台模式,如阿里小贷、京东京宝贝;(2)网上超市模式,如陆金所、各家商业银行的网上银行;(3)P2P模式,如人人贷、拍拍贷;(4)众筹模式,如众筹之家。从资金的来源上,可以分为:(1)平台提供资金,如阿里小贷、京宝贝;(2)平台担保,银行提供资金,如京东的供应链金融;(3)平台利用吸收的资金提供贷款,如各家商业银行的网上银行;(4)平台做信用评级,撮合投资者和资金需求方进行融资交易,如各家P2P。尽管这些互联网融资平台的运作方式不同,但都需要对客户的融资需求进行信用评级,因此是否具有成熟可靠的信用评级技术,有效控制信用风险,成为互联网融资平台的核心竞争力。

2.互联网融资平台信用评级的模式。当前互联网融资平台的信用评级模式按评级信息的来源划分,主要可以分为三种模式:(1)基于运营大数据的信用评级。该模式多用于各商业银行的网上银行,以及P2P网贷平台、众筹平台上,其中尤以P2P最为活跃,面对的客户为个人及小微企业这一类低信用水平群体,融资金额从几千元到上百万,很大程度上弥补了信息不对称情况下传统金融机构不愿意对该类群体提供融资服务的空白,因此处于快速发展阶段。(2)基于交易大数据的信用评级。该模式多用于成熟的电商平台提供的融资服务中,如阿里小贷、京东的京宝贝等。这一类融资平台最近几年随电商市场的发展也保持着良好的发展态势,市场份额上升的很快。(3)基于交互大数据的信用评级。该模式目前多用于一些提供个人贷款服务的互联网平台上,知名的企业有ZestFinance和WeCash闪银。这类融资平台目前还处于萌芽阶段,但可预见,未来基于交互大数据的信用评级会逐渐成为信用评级的主要方式信贷,会逐渐从个人及小微企业贷款发展到对大企业贷款。由于不同信用信息的来源、属性不同,导致各类融资平台评级时在指标设计、数据收集、数据分析、数据运用过程中采取的方法都不尽相同。但信用评级的基本流程是相同的,只是在一些步骤的实施过程中,受信息属性的决定而使用不同的评级技术。

三、基于大数据互联网融资平台信用评级的实施策略

1.信用评级的流程设计。大数据信用评级的流程可以用图1表示。由图1可见,实施大数据评级,第一步是对待评项目的理解。首先要掌握项目运营方式、客户特点、市场状况、风险构成等项目内容;其次根据对项目内容的理解设计项目计划,包括安排项目可行的技术路线,制定项目的进度等;再次,待项目计划安排好之后就要确定大数据的来源,因为大数据来源虽然众多,但会受到各种限制,如有的可能过于昂贵,有的则不开放,必须选择那些技术上与经济上均可行的作为数据源。因此,需要基于对项目的理解做好这些在项目正式实施前的准备事项。第二步是准备数据。所做工作是:根据数据的来源,确定数据的类型,采取可行的数据收集技术,获取大数据;很多数据存在不完整、重复、错误等缺陷,要对数据进行预处理;预处理后的数据如果属于非结构化或半结构化数据,需要进行格式化,转化为结构型数据,为实施下一步骤做好准备。第三步就是进行机器学习。首先是选择合理的数据挖掘技术对数据进行分析,从中寻找关联关系,其次是解读和评估数据挖掘的结果,找到最合理或最有说服力的,实现知识发现;最后就是根据知识发现的内容,建立适用的信用评级模型。第四步就是实施评级。根据知识发现的模型,开展对被评级对象的信用评级,生成评级报告,并对结论进行分析,帮助客户理解评级结果。最后对整个项目的运行做全面总结。在以上各个步骤中,技术上的重点和难点在于数据准备过程中的大数据转化与机器学习过程中的大数据挖掘。大数据转化的困难在于需要把各种各样的非结构化半结构化数据转化为可以被机器处理和学习的结构化数据,大数据挖掘则在于需要对数据进行理解,选择最合适的数据挖掘技术实现知识发现。

2.信用评级的实施路径。信用评级的实施路径可以分为内容计算和流计算。首先是内容计算。内容计算多采取主动方式获取数据,方法是设置好信用信息源和信息采集时间段,针对信息源的原始信息格式,设计支持多协议的上站机,每隔一段时间对特定的信息源进行查询,遇到新内容则马上采集过来,再用于下一步的数据转化和挖掘。其次是流计算。流计算多采取被动方式,一般用于处理融资平台上的流数据,具体做法是,后台流程设计中在不同的数据流入环节设置不同类型的数据接入接口,及对接的流计算平台,流计算平台负责设置相应的处理规则,根据预设规则将流入的各类数据转化成可以直接分析的结构化数据,从而实现实时的业务分析与判断。

四、基于大数据互联网融资平台信用评级风险管理策略

互联网融资平台在进行信用评级及提供资金时,处于风险管理重心的是对信息技术风险的控制。由于大数据自身的“4V”特性,且数据中包含的又是大量的用户隐私信息,这使得信息技术风险主要产生在两方面:一方面是大数据存储的安全性风险,另一方面是大数据的收集和使用过程中对公民隐私权的侵犯风险,因此如何确保大数据的存储安全及在使用时的隐私保护是一个挑战,前者涉及到技术安全层面,后者涉及到制度安全层面。在技术安全策略层面,可以采取的措施有:首先,应依托大数据加密技术对使用的数据实施加密管理,制定出完整的加密保护方案,包括数据密级的设定、加密技术的选择、对密码安全性的攻击测试等;其次,严格网关管理,可以对不同类型的用户制定不同的权限级别,严格控制访问权限;最后,建立面向全平台的数据实时监测引擎,第一时间对各类非法操作发出警告。在制度安全策略方面,在当前尚无明确立法规范的环境下,要积极进行宣传和游说,获得政府主管部门和社会舆论的重视和支持,争取早日出台规范的数据获取及共享标准,互联网融资平台的设计、管理和风控标准,从而把可能出现的信息技术风险限制在可控范围内。

五、结论和展望

大数据互联网论文第3篇

美国《大数据研究和发展计划》中指出:“到2020年,全世界的数量存储量将达到35ZB,一个大容量、高速度、高智能的大数据时代已来临。”大数据(BigData)是继云计算、物联网之后IT产业又一次颠覆性的技术变革。近年来,随着大数据技术的发展,也为农产品流通带来了新的契机。对于实现资源整合、优化农产品流通结构、提高流通交通具有重要的意义。

(一)互联网大数据的应用有利于发挥农产品流通的规模经济效应

大数据时代,实现了云计算服务器与物联网技术的结合,在利用大数据的“海量数据(MassiveData)、大规模数据(VeryLargeData)、高速性(Velocity)、多样性(Variety)”的优势,使得“新一代互联网、物联网”有了更广阔的载体和平台,拥有了更大的发展空间。在传统的农产品流通过程中,虽然也使用了信息化管理,但是受信息存储容量的有限性和物理介质的不确定性影响,使得数据处理存储受到掣肘;而在大数据的新媒体时代,具有更加强大的计算能力,以及更加海量的存储介质,相关农产品流通的数据不仅可以存储在计算机上,同时也可以存在互联网云服务器上,使得在农产品物流信息存储过程中可以完全不必在乎存储空间的大小,更好地提高了信息处理效能。这些都为农产品流通的整体布局、规划、调度带来了新的机遇,有利于通过扩大流通的规模,实现农产品资源的优化配置。利用大数据技术,可以将农产品流通系统进行改造,将无数“散户”信息进行整合,进行物流产业“集群”的打造,对市场信息进行及时掌握,实现农产品流通效率的提升。

(二)互联网大数据的应用有利于发挥农产品流通的供应链驱动效应

农产品的流通不是一个单一的事件,而是系统化的过程,涵盖了“农产品的生产、集散、仓储、批发、零售、终端消费者”等各个环节。而大数据时代农产品流通的管理方式发生了深刻的变化。大数据有利于实现“农产品的生产、集散、仓储、批发、零售、终端消费者”等环节的一体化,使各个环节能够紧密地环环相扣,更有利于相关物流信息资源的挖掘与开发,使物流管理水平实现了由“量”得到了向“质”的提升。增强了对复杂数据的处理能力,可以使用软件对农产品物流数据进行批量化的处理,有效的管理物流信息数据库,实现信息结构的优化。在当前的物联网时代,物流的信息化不断推进,相关农产品流通的数据呈现出几何倍数的增长,也为信息处理的及时性带来了新的挑战。而在大数据背景下使得这一问题得到了有效解决,可以随时随地进行计算与统计,突破了时间与空间的限制,利用全数据处理对象、多数据处理工具,使得处理速度更加实时化,保证了农产品流通供应链各环节信息处理的协同与一致,推进农产品流通的专业化发展,减少了交易过程不必要的“中间环节”,缩减交易成本。

(三)互联网大数据的应用有利于发挥农产品流通的极化效应

大数据技术的运用,使得农产品流通途径发生了深刻的变化。在大数据时代,不但相关农产品流通的信息实现了“所有即所得(Onesizefitall)”。同时,大数据更将传统的农产品物流信息管理的“后置总结分析”转变为“前置预测判研”,能够充分发挥大数据的数据分析与挖掘功能,对农产品流通的情况进行分析与形势判断,将整个流通的链条重心进行调整,使得农产品流通过程中可以根据市场需求“对症下药、见招拆招”,使流通更有针对性,大数据的优势对农产品流通的“生产、仓储、集成、物流渠道节点”等方面都将发挥作用,将有利于形成新的经济“增长极”。最终通过产业极化实现乘数效应,利用农产品的流通带动其它产业的共同发展,实现整个产业链条的整合、优化,提高发展质量。

二、互联网大数据时代农产品流通途径改善的对策

(一)通过农产品流通布局的系统化,实现个体经济向规模经济的转变

大数据时代要求农产品的流通途径有必要由传统的“个体化”转变为“系统化”。充分利用大数据的挖掘与分析、共享的功能,实现Hadoop(高度可扩展的分布式批量处理系统)功能拓展,将实现整个农产品流通系统的最优为目标。其庞大的数据存储与处理功能,使得社会化的农产品流通得到了进一步的拓展。在未来的发展中,秦皇岛要通过农产品流通布局的系统化,来实现个体经济向规模经济的转变。一方面,要利用大数据技术,加强政府对农产品流通的宏观调控、统一布局,建立高效的农产品流通信息系统,使其服务于农业开发。根据秦皇岛的资源现状,可以在秦皇岛现代物流园区通过加快大数据的应用,实现大数据与物流的衔接。要根据大数据的数据分析,重要布局规划酿酒葡萄、绿色生态安全猪、肉牛、肉鸡、水产品、食用菌、蔬菜、甘薯、玉米、干鲜果品、中药材、花卉等生产与供应基地建设,大力发展以信息技术和“大数据”为特征的“第四方(4PL)”物流,使农产品借助大数据,充分提高农产品流通规划与布局的效能。例如:陕西省的西咸新区的沣西大数据产业园通过与农产品物流的整合,实现了农产品物流数据的规模化集中,通过将物流数据放置在SaaS和SOA“云服务器”中,园区通过整合“第三方”物流,为农产品流通企业搭建“第四方”物流信息平台,为农产品流通用户提供便捷的物流数据挖掘。这些都对秦皇岛具有较强的借鉴意义。另一方面,要通过大数据技术,加强对农产品流通的分类调控。从当前海港区、山海关区、北戴河区、青龙县、昌黎县、抚宁县、卢龙区县的农产品流通情况来看,每个地区的经济发展并不均衡,所处的区位条件、资源禀赋和发展基础也各不相同。因此,有必要利用大数据做好特色定位,必须因地制宜、突出特色。不能搞统一的发展标准,要坚持分类指导,根据现阶段经济发展基础和资源禀赋,实施不同的农产品流通战略途径。要坚持“有所为、有所不为”,努力走出一条特色鲜明的农产品流通的新路子。要把差异化的农业产业化发展作为产业结构调整和发展方式转变的主要载体,引导各地形成产业集群。在粮食、蔬菜方面,主要以青龙满族自治县、昌黎县、抚宁县、卢龙县为重点,从“单产”着手,做好优质小麦、玉米和杂粮、特色蔬菜的复合化种植,发挥金海、香海、秦皇岛粮油等企业的龙头带动作用,做好订单生产流通与精细加工流通。果业、畜禽方面,要实行“集中连片,见空建园”,充分发挥海港区、山海关区、北戴河区的临港优势,构建区域性的农产品流通中心,加快冷链物流仓储体系建设,打造名优品牌。

(二)通过农产品流通节点的网格化,实现局部利益向供应链驱动转变

大数据时代要实现农产品流通节点的网络化。在大数据的背景下,由于有了更深入的数据分析与挖掘功能,这就对传统的农产品流通带来了新的契机,有必要对海量的农产品流通数据进行聚类、分类、相关性分析,找出农产品流通节点物流数据之间的相关性关系。最终,通过“数据化互动”实现节点的“网格化共赢”。一要加强“农超对接”,实现农民与超市终端的双赢。在昌黎、抚宁等农产品重点产销区,要通过大数据物流的RFID、EDI、GIS、ICT、SCM、VMI、ERP等技术,做好“前置性”数据挖掘进行利用,对农产品消费者的消费倾向、频次、数量、种类等方面的特征数据进行分析,结合“一村一品”“一乡一业”,政府牵头、企业运作、协会推动、农户参与,通过农产品市场的预测,打造农户与超市的“利益综合体”,连接“产前、产中、产后”等各个环节,将超市与农户的短期“买卖关系”升级为长期的“战略渠道伙伴关系”。二要加强“农企对接”。要利用大数据进行充分的“供需分析”,加强进一步巩固提升农业经营主体的市场地位。充分利用农民专业合作社的力量,促进农民专业合作社、农业市场的无指缝对接与均衡化发展、合理性开发。激发农户积极性,与市场需求进行有效对接;鼓励各种市场主体参与农产品流通。积极构建政府、企业、社会资本结合的多元化投资模式,把生产经营主动权交给农民,调动起工商资本、民间资本参与农产品流通的积极性。三要加强“农企对接”。大力建立龙头企业带动型农产品供应链,实现企业与农户的双赢。要利用大数据市场信息,培育壮大农业产业化龙头企业,重点支持鹏泰面粉、河北华龙、骊骅淀粉、正大、美尔淇、华夏葡萄酒、龙源通果汁、斌扬水产、北戴河集发农业综合开发等一批规模较大、带动力强、技术密集型和资本密集型农产品流通龙头企业。利用大数据的数据挖掘功能,增强各龙头企业的产业关联度,将“同质化”竞争转变为“异质化”互补,共同参与农产品流通的运作,打造更加完整的价值链条。要不断走出“低水平加工、粗放式流通”的怪圈,提高产品的附加值。而要紧紧抓住“产品开发”和“品牌”这两个核心环节,加强对新型农产品、绿色农产品、高端农产品研发的投入,将秦皇岛传统的农产品流通企业的“低质跑量”转变为“数质并提”。通过大数据分析技术,使企业与农户建立利益平衡点,通过订单、租赁、合资、合作、入股等的方式与农户签订长期合同,使龙头企业与农户实现上下游的连接、一体化的经营。

(三)通过农产品流通信息的共享化,实现经济增长点向增长极的转变

大数据互联网论文第4篇

【关键词】互联网舆情 大数据 数据挖掘 自然语言处理

中图分类号:TP393.4 文献标识码:A 文章编号:1006-1010(2014)-13-0019-05

1 从“净网”到互联网舆情

从“净网”说起:为依法严厉打击利用互联网制作传播色情信息的行为,全国“扫黄打非”工作小组办公室、国家互联网信息办公室、工业和信息化部、公安部决定:自2014年4月中旬至11月,在全国范围内统一开展打击网上色情信息的“扫黄打非净网2014”专项行动。从内容和舆情管控的角度来分析,“净网”不是一个孤立的行动,它的根本目标是防止互联网业务和互联网工具成为不良信息和违规内容的传播渠道。

“净网”行动“净”什么?为了便于讨论,我们将互联网上的信息分为2大类:可信任源内容(Trusted Resource Content,TRC)和用户产生内容(User Generated Content,UGC)。一方面,TRC指由可信任的媒体的信息,如人民日报社、新华社等,这类媒体需要具备信息采编、的资质,且有非常严格的内容审核制度保证内容的可信、新闻的真实。另一方面,UGC指由互联网用户自写的内容,这些内容可以是文字、图片、音频、视频,并通过论坛、BBS、微博、自制小网站或者其他互联网媒介。它们具备一个最显著的特征,即用户自媒体特征。由于这些用户一般没有新闻采编和内容的资质,且内容可能未经严格的审核,易造成其内容失真、歪曲,甚至可能是或其他不良信息。“净网”的主要目标的就是保证UGC内容的合法合规。

让人又爱又恨的UGC:互联网媒体正在成长为继报纸、广播、电视之后的“第四媒体”,除了TRC内容以外,其推动力还包括以UGC形式出现的用户互动。这种互动真正体现了互联网的“互联”、“互通”和“互动”。它一方面促进了互联网的迅猛发展,但另一方面,若恶意用户利用UGC扩散和传播违规内容,将会给社会带来极大的负面影响。

UGC和互联网舆情:互联网舆情的组成元素是网民/公众的互联网UGC,它以互联网为载体,以社会事件为核心,是社会事件的言论、观点、态度、情感的集合体,且有较强影响力和倾向性。由于互联网UGC有着随意性、隐蔽性、高传播性、偏差性和易受影响性等特点,互联网舆情并不能等同于社会舆情。但是它代表了很大一部分人群对某一问题、事件的倾向性意见,且这些意见和情绪容易受到影响,甚至引导煽动。互联网舆情分析课题越来越受到重视,研究机构、部级重要媒体也纷纷成立互联网舆情研究办公室,如人民网舆情监测室、清华舆情研究室等。

2 大数据基础技术和应用技术

维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。IDC报告中指出“大数据技术描述了一种新一代技术和架构,以很经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值”。大数据尚处于行业发展的初期,所以对于大数据是一个数据集还是一个技术集尚有不少的争论。我们认为,它既是一个数据集也是一个技术集,它更是一个场景集。需要从海量非结构化数据中去除噪声获取信息的场景都是大数据的场景;并行计算技术、分布式存储技术、数据挖掘技术等都属于处理海量数据的大数据技术。

大数据的基础技术主要指对数据的计算和存储技术,如分布式计算技术(Mapreduce,Hive等),分布式存储技术(HDFS,HBase等),这些技术用于对海量数据进行计算、存储以及综合管理。但是大数据的场景各种各样,除了基础技术以外,还需要其他技术对各种不同场景下的数据进行进一步处理,我们称之为大数据应用技术。在本文讨论的场景中,互联网舆情数据的处理除了需要借用大数据基础技术和平台外,还需要利用适合本场景的大数据应用技术加以处理,如数据挖掘技术、自然语言处理技术、汉语分词技术等。本文不过多的探讨大数据的基础技术,而着重研究大数据的应用技术。

3 基于大数据的互联网舆情管控

互联网舆情管控是一个非常典型的大数据场景。首先,用户在互联网上产生的UGC数据量大;其次,这些数据的种类繁多,且以半结构化数据和非结构化数据为主,包括文字、图片、数字、音频、视频等;第三,这些数据的价值密度低,需要在海量的信息中去除噪声,找出有用的信息。

基于大数据的互联网舆情管控的理想模式包括了数据采集、舆情发现和信息源定位3个步骤,如图1所示。首先,作为大数据场景,需要有海量的数据作为舆情分析对象,且数据的获取需要具备一定的实时性,否则将无法从中分析出热点舆情。其次,对海量数据的分析处理、发现淹没在噪声中的有价值信息是舆情管控的重要步骤。在这个过程中,我们要发现最新的广泛传播、广泛评论的热点,需要了解网民对热点的基本态度、倾向,并初步判断社会事件在网络传播过程中的真实性、准确性以及判断舆论是否被恶意引导和煽动。第三,若发现互联网舆情有被恶意引导的趋势时,需要准确的找出哪些互联网用户在引导话题和舆论,定位信息扩散的源头和传播的关键节点。

图1 互联网舆情管控的3个步骤

3.1 大数据采集

面向互联网采集的海量信息是大数据分析的对象和基础。由于互联网舆情一般是在线的实时数据,所以需要利用网页爬虫技术[1]将被监控网站、微博的内容全面抓取、存储并索引。这是一种相对比较成熟的技术。它通过定义抓取目标,过滤无关链接确定待抓取的Web页面URL队列,并通过一定的抓取策略从队列中选取下一个需抓取的URL,并重复直到某一条件时停止。抓取策略一般包括广度优先、深度优先和最佳优先3种。由于互联网TRC、UGC有数量大、更新频率快和页面动态等特点,所以在进行互联网舆情数据抓取的过程中需要注意设置抓取对象的优先级,并且需要动态的对URL队列进行更新,以备新页面的产生和旧页面的失效。

作为互联网舆情管控的第一步,大数据采集还需要注意以下几个方面。首先,采集的对象需要全面。从传播范围上说,需要关注传播面广的重要新闻网站、音视频网站,网民参与度高的BBS、论坛、博客、其他社交工具等渠道;从地理位置上说,需关注大中城市、重点区域等地域的相关新闻;从行业角度看,需关注行业主管单位、协会等机构的相关新闻。其次,信息采集要及时,尽量做到第一时间和高频度。对于权威媒体的新闻及相关评论,用户参与量大且活跃度高的论坛、BBS、微博或其他自媒体渠道需要第一时间抓取,且尽量提高信息抓取的频度,以便及时了解互联网舆论的变化趋势。

3.2 大数据处理和舆情热点发现

当从互联网上获取了大量的舆情信息之后,我们需要迅速的从海量的数据中挖掘出热点信息。在这个阶段,我们需要利用大数据应用技术,包括信息检索技术、数据挖掘技术和自然语言识别技术。信息检索技术[2]和数据挖掘技术[3]都是对海量信息进行信息查询、挖掘和处理的技术。它们的区别在于信息检索技术着眼于已知信息的查询,而数据挖掘技术侧重于未知信息的发现。

信息检索技术是通过索引的方式从信息集合中找出所需信息的过程。它一般根据一系列的模型进行索引和查询,如神经网络模型、模糊集合模型、向量空间模型等。通过该技术可以对互联网舆情数据进行索引和归类。比如将数据归类为“时政”、“经济”、“娱乐”、“科技”等类别,也可以将数据根据者、行业、时间等不同的索引和属性进行归类。这些数据的整理和归类是对海量数据初步处理的必要步骤。

数据挖掘技术是从海量数据中通过算法发现并找出隐藏于其中且原先不了解的信息。其常用的方法包括分类、回归分析、聚类、关联规则、特征、变化和偏差分析。这些方法是从数据挖掘的不同角度出发的。比如分类方法是通过分类模型将数据映射到某个给定的类别;回归分析主要面向数据组合和序列的趋势特征,数据间的相关关系;聚类的处理目标是将相似度大的数据放入同一类别中;关联规则是分析数据之间的关联关系;特征重点在于表达某一数据集的总体特点;变化和偏差分析是对分类中的反常样本、无法归类样本进行分析的技术。数据挖掘是在信息检索的基础上对信息的进一步处理。比如新华社新一条关于房地产改革的新闻,被抓取和归类到“经济”类,数据挖掘技术就可以在经济类数据中找出这条从未出现过的新闻。

另外,需要注意的是,舆情分析的对象是人类的语言。从大量的语言中分析出语义、情绪则是舆情分析与传统的数据挖掘不同的地方。所以除了利用信息检索和数据挖掘技术外,舆情分析还需要借助另外一个非常重要的技术:自然语言处理[4]。自然语言处理是人工智能研究领域的一个分支,它是人机之间自然语言的互通。它的难点在于自然语言在各个场景下存在歧义和多义性,汉语尤为明显。在汉语中,词与词之间没有明确的分隔标记,古时就有“句读之不知,惑之不解”的困惑,现代汉语也是如此。比如“南京市长江大桥”就可以理解为“南京市――长江大桥”和“南京――市长――江大桥”2个不同的意思。所以我们需要利用中文分词技术[5]对文字进行处理,即借用计算机给中文语句进行断句、分词。在中文分词领域我国已经有了多年的研究经验,有着基于词典的分词方法、基于概率统计的分词方法等诸多分词方案。一些分词算法的准确度能够达到99%。比如ICTCLAS开源项目[6],单机分词速率将近1Mbps,分词准确率达到98.45%。

利用信息检索、数据挖掘和自然语言处理技术,海量的、非结构化的舆情数据则能够得到归类、索引,并找出其中重复出现的关键性词语,并最终归纳成事件。那么,我们有理由认为热点事件、热点舆情的属性或模型的着眼点在于关键词。通过一系列标志性的关键词的集合则可以很好地表达、归纳某一事件,并给事件建模。比如,对党的十报告进行分析,文中出现“中国特色社会主义”81次、“改革开放”19次、“科学发展观”15次、“全面建成小康社会”13次,这些关键词及其出现次数组成的向量空间,则是可以映射这一报告或某一热点事件的最简单的模型。我们称之为基于关键词的建模方法。

3.3 信息源定位

当从海量的数据中找出热点信息之后,在对有害信息的扩散进行限制的同时,需要对信息扩散的源头进行定位。不同种类的社交工具和场景下,其信息扩散的模型是不同的。如即时通信工具的信息传播是嵌套式传播,而微博类社交工具的传播模型是嵌套式和叠加式的结合。以微博为例讨论信息源的定位问题。首先,微博博主的属性包括以下几个方面:基本资料、关系网、行为数据、内容和评论。其主的内容、转发、评论是反映其个性、观点、倾向的重要内容。通过分析博主的历史内容,可对某一博主进行基于关键词的个性建模。其次,利用模式识别技术[7]对热点舆情的关键词模型和微博博主关键词模型进行匹配,匹配相似度越高的博主就越接近热点传播的源头或关键节点。

4 小结和探讨

互联网发展到今天,它在信息传播和扩散方面起着传统媒体所不具备的作用效率。它正逐渐成为人们自由表达观点的重要场所,也逐渐成为反映社会舆论的重要渠道。但是UGC内容的多样性、渠道的复杂性使得未经证实和审核的不实新闻、别有用心的假新闻在互联网上随处可见。更有甚者,一些恶意的互联网用户利用互联网媒体、传播、扩散各种有害信息,如、暴力、极端思想、恐怖主义等。在这种现实场景下,我们就更加需要第一时间了解互联网上广泛传播的热点信息,从而屏蔽不良信息和虚假信息,使得互联网真正成为推动社会发展和信息交互的良性工具。

本文探讨了一个利用大数据基础技术和应用技术处理海量互联网舆情数据的场景。其中大数据基础技术用于平台的构建,为计算和存储提供最基本的功能支撑。大数据应用技术,包括网络爬虫技术、信息检索技术、数据挖掘技术、自然语言处理技术,是用于适配互联网舆情这个大数据场景的应用技术。通过信息获取、舆情发现和信息源定位这3个步骤,我们可以从互联网上抓取数据以供分析,可以从数据中找出热点并发现在热点扩散中起到重要作用的用户和节点,为行业主管部门对互联网舆情的管控提供依据和支撑。

对互联网舆情管控的研究目前尚处于初期阶段,行业内已有的舆情管控解决方案解决了有无的问题,但尚未达到高效和强大的程度。我们希望通过总结和研究为从业者提供一定的启发:在信息获取阶段能够非常全面及时地找到待分析数据;在舆情发现阶段能够准确迅速地从海量数据中找出正在扩散和传播的热点信息;在信息源定位阶段能够找到关键的扩散节点,从而对互联网舆情实现有效的监测和管理。

参考文献:

[1] 周立柱,林玲. 聚焦爬虫技术研究综述[J]. 计算机应用, 2005(9): 1965-1969.

[2] David A, Grossman, Ophir Frieder. 信息检索:算法与启发式方法[M]. 张华平,李恒训,刘治华,译. 北京: 人民邮电出版社, 2010.

[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.

[4] James Allen. 自然语言理解[M]. 刘群,译. 北京: 电子工业出版社, 2005.

[5] 奉国和,郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011(2): 41-45.

[6] 中国科学院计算技术研究所. ICTCLAS汉语分词系统[EB/OL]. (2014-06-22). http:///.

[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式识别[M]. Wiley Press, 2001.

作者简介

黄斐一:博士毕业于伦敦大学学院通信工程专业,IEEE会员,CCF会员,现任中国移动互联网基地业务二部高级运营主管,主要职责涵盖公司移动互联网业务的安全管理与技术应用等相关工作,擅长专业领域包括信息安全、移动互联网业务运营、大数据挖掘等。

大数据互联网论文第5篇

关键词:长尾理论;互联网金融;信息处理成本;个性化

中图分类号:F832.2 文献标识码:A 文章编号:1001-828X(2014)09-00-02

2004年美国《连线》杂志主编克里斯・安德森(Chris Andersen)首次提出长尾(The Long Tail)这一概念之后,在互联网时代长尾理论受到越来越多的关注。在互联网技术持续快速发展、经济社会正朝大数据时代过渡、移动终端持续扩张的前提下,安德森(2012)同时指出了“长尾理论”与互联网经济的依赖关系,并相信“长尾理论”将指引互联网经济的发展方向并能创造出巨大的盈利空间。另一方面,随着互联网技术的进一步成熟,线上财富潜力的进一步挖掘,众多互联网企业开始进军金融业,同时传统金融业也紧随时代脚步开始了互联网金融的征程,互联网金融成为最近一段时间在金融界出现频率最多的词汇之一。

然而,“长尾理论”究竟核心在哪里,互联网金融参与者们又应该从哪些方面尝试实践?本文将结合“长尾理论”的内涵及其与互联网金融的关联尝试提出部分实践建议。

一、长尾理论的内涵

根据克里斯・安德森在其著作《长尾理论》(2012)中对“长尾理论”进行的定义,其可以简单概括为“我们的文化和经济中心正在加速转移,从需求曲线头部的少数大热门(主流产品和市场)转向需求曲线尾部的大量利基产品和市场”。

“长尾”实际上是对统计学中幂律和帕累托分布特征的一种口语化表达。在正态分布中,曲线的头部代表着重要的人或事(这往往是之前人们关注的重点),而曲线的尾部,则是需要花费更多精力与成本才能关注到的大数量的人或者事。在之前的黄金“二八理论”中(帕累托,1897),20%的重要部分会造成80%的重大影响,可以理解为20%的热门产品会创造80%的收入。而在“长尾”经济理论中,利润将被一分为三。2%的大热门产品、8%的次热门产品以及剩下90%的长尾产品会创造出相等的,也就是33%的利润。克里斯・安德森通过运用大量的数据统计,证明了大热门产品实际上与冷门产品拥有相同的利润创造能力。这也就意味着关注“长尾产品”与继续争夺热门产品是可以达到相同的现实意义。

二、互联网金融

虽然目前互联网金融正处在蓬勃发展期,但各界对于互联网金融的定义是众说纷纭。根据辛琪等人论述,各界对于互联网金融的理解可以粗略的概括为四个方面:一是认为互联网金融是利用网络手段达到去中介化、去中心化金融业态;二是强调互联网金融的行为主体是互联网企业,也就是互联网企业领导的金融;三是从技术层面出发,认为利用了互联网技术的金融就是互联网金融;四是认为互联网精神或者互联网技术与金融业融合并实现金融创新为互联网金融。进而,辛琪等人对于互联网金融的进行了定义:以互联网经济为基础、互联网为信用平台开展金融活动的金融业态就是互联网金融。

目前业界对于在互联网上进行金融活动的这个概念存在分歧。有些人将其一分为二:互联网金融以及金融互联网。根据辛琪等人的论述,这两者是统一的。但马云认为“未来金融有两大机会,一个是金融互联网,金融行业走向互联网;第二个是互联网金融,纯粹的外行领导。”也就是说他将其严格划分为了两个概念。但是这种划分排斥了二者融合的可能性,在现实意义上作用有限。

三、“长尾理论”对于互联网金融发展的实践启示

不难看出,长尾理论是基于互联网技术带来的信息成本下降;另一方面,互联网经济的蓬勃发展正是长尾理论的实际体现。对于互联网金融而言,“长尾理论”会带给互联网金融企业怎样的启示呢?结合我国商业银行实际提出三点建议:

首先要实现扩大数量,降低门槛,加强客户与产品的对接的“长尾”优势,平台的建设将会是重中之重。在“长尾理论”中,“个性化”是盈利的核心,从而产品的设置可以更大程度上放回客户自身,让客户自己来为自己定制产品,选择服务,甚至自己为自己提高用户体验。而这些的实现都要建立在一个强大的平台基础之上。

硅谷投资教父约翰・杜尔(2011)提出“SOLOMO”概念:“SOLOMO”实际上是三个词的组合“Social(社交),Local(本地化),Mobile(移动化)”。目前,商业银行的手机银行已经实现了较出色的用户体验,较完备的功能设置,较突出的实用价值,是一个非常先进且潜力极大的用户平台。移动终端APP的设置实现了移动化的金融运用,定位功能及周围网点功能也在向本地化靠拢。但是,在此基础上如果加入Social的元素将会极大的提高用户体验和用户粘性,甚至会创造出巨大的其他财富空间。目前的运用当中,商业银行手机银行交流部分是以客服为主,以通知式的活动宣传为主。例如,在平台中设置游戏币或者积分,实现整个商业银行电子银行营销奖励的规范化,然后通过这种类型的积分或者游戏币给用户更多的空间去发挥使用,同时通过平台内社交规则来激励用户,从而使用户产生对平台的粘性。并且在用户粘性产生的同时也就实现了推广和营销。

另外,本地化也是该平台最为重要的一个方面。对现实没有意义的社交可能并不会引起大部分用户的注意,从而会使平台变成“白送”的一种网络游戏。本地化的加入不仅会让用户体会到实实在在的“价值”,更多的,对银行来说也会是衍生产品的扩张。例如,平台中可以签约大量的本地商户,商户打折或者其他类型的商户活动都会以游戏或者论坛帖子的形式出现在平台上,这样pos收单、信用卡业务也会随之得到扩张。更进一步,平台建设甚至可以通过收购或者邀请加盟的方式扩大功能窗口,从而实现一站式的金融加生活服务。例如,和携程或者去哪儿合作,可以开拓更加全面的旅行金融服务。当然这样的一个平台的建立并不能单纯依赖金融产品方面的考虑,更多的可能是需要技术上、人才上乃至机制上的支持。

其次如何才能有效地降低信息处理成本将会是互联网金融参与者的首要课题。长尾效益的实现是要将大量的“长尾”进行划分、整合从而实现产品的在长尾市场上的蔓延,在小市场收获大利润。从而,这样的整合过程中的成本将会是决定成败的关键。徐子沛(2013)的《大数据》给了我们很好的答案。正在到来的数据革命、扁平化社会、互联网时代,正在将“开放,平等,协作,分享”的互联网精神传递给社会的各个方面。据《大数据》所述,大数据时代是历史的必然趋势,新一轮的竞争必然是围绕大数据进行。进而,步步为营的大数据基础建设可能会为企业在下一轮竞争中奠定更扎实的基础。

大数据的基础必然是数据获取与处理的技术机制。但是,对于技术系统的改革在短期内效果应该并不是很明显,并且在技术上的变革转型及被接受相对较快。然而要在管理机制以及文化方面做好对大数据准备将会是相对长的一个过程,而在这个转型的过程中先行企业则会赚取这个相对的时间差中所带来的利益。一个方面,就目的而言,商业银行可以考虑设立独立的互联网金融部门,专门负责互联网数据以及互联网产品相关事宜,并且采用平行的管理模式,自主人事权,更多地考虑借鉴互联网企业的管理模式,以激发员工的创新意识和数据运用。另一个方面,整个企业文化中需要更多的加入大数据要素,以“是否有数据佐证”为重要决策依据,并且为一线员工提供更多的数据信息,在整个企业中形成对数据的尊敬语重视。然而,在此同时,在这个过程中数据信息安全以及对客户隐私的保护也应该得到制度化的控制。同时,大数据要求更深层次的数据挖掘,所以相关人才的吸纳以及培养也应该尽早列上日程。但只要建立起了相关部门以及文化基础,相信相关人才力量的支持也会水到渠成。目前,有部分商业银行对于数据的获取及分析工作已经是走在行业前沿,然而对于大数据的价值运用还可以有更大的发挥空间。其中一个部分就是本文的下一个观点:基于数据基础上的“定制化”特色产品。

最后打造更多“个性差异化”产品。“长尾理论”有效的前提是满足个性化需求的产品可以通过互联网等新技术与新方法将渠道成本趋近于零。这个前提一个方面决定了产品数字化是“长尾理论”是否有效的关键:同时也说明了“长尾”产品最重要的一个特质就是“个性差异化”。目前对于定制化产品不少商业银行已经都有相关的定制产品,如招商银行的金葵花贵宾卡、广发银行生意人卡、平安银行的贷贷平安卡、光大银行乐惠金卡等特色卡种实现了不同人群的定制服务。然而随着互联网精神的深化,单纯的卡种绑定服务的定制并不能完全满足所有客户的个性化要求。这样,客户可以清楚地看到某一项服务所需要的要求,从而根据自己的生活习惯及喜好选择其中的某几项服务,从而形成各式各样的新型产品。例如,我们可以将商业银行白金卡卡的各大优惠单列出来,每一项都设立固定的达标要求及管理费标准,客户可以自己在网页上打勾,并且有些部分客户不想要的可以按照金卡甚至普卡的标准进行配套,从而形成各式各样的符合客户想法的新卡种。同时再赋予每一项服务以分值,按分值来划分卡种档次,从而形成卡种的大数据。这种大数据就为进一步细分市场打下了良好的基础,在同一档次的卡种中又可因为偏好或者生活及经济环境不同再次进行划分,这样就为更深层次更个性化的产品开发提供了更多数据支持。

参考文献:

大数据互联网论文第6篇

2004年美国《连线》杂志主编克里斯?安德森(Chris Andersen)首次提出长尾(The Long Tail)这一概念之后,在互联网时代长尾理论受到越来越多的关注。在互联网技术持续快速发展、经济社会正朝大数据时代过渡、移动终端持续扩张的前提下,安德森(2012)同时指出了“长尾理论”与互联网经济的依赖关系,并相信“长尾理论”将指引互联网经济的发展方向并能创造出巨大的盈利空间。另一方面,随着互联网技术的进一步成熟,线上财富潜力的进一步挖掘,众多互联网企业开始进军金融业,同时传统金融业也紧随时代脚步开始了互联网金融的征程,互联网金融成为最近一段时间在金融界出现频率最多的词汇之一。

然而,“长尾理论”究竟核心在哪里,互联网金融参与者们又应该从哪些方面尝试实践?本文将结合“长尾理论”的内涵及其与互联网金融的关联尝试提出部分实践建议。

一、长尾理论的内涵

根据克里斯?安德森在其著作《长尾理论》(2012)中对“长尾理论”进行的定义,其可以简单概括为“我们的文化和经济中心正在加速转移,从需求曲线头部的少数大热门(主流产品和市场)转向需求曲线尾部的大量利基产品和市场”。

“长尾”实际上是对统计学中幂律和帕累托分布特征的一种口语化表达。在正态分布中,曲线的头部代表着重要的人或事(这往往是之前人们关注的重点),而曲线的尾部,则是需要花费更多精力与成本才能关注到的大数量的人或者事。在之前的黄金“二八理论”中(帕累托,1897),20%的重要部分会造成80%的重大影响,可以理解为20%的热门产品会创造80%的收入。而在“长尾”经济理论中,利润将被一分为三。2%的大热门产品、8%的次热门产品以及剩下90%的长尾产品会创造出相等的,也就是33%的利润。克里斯?安德森通过运用大量的数据统计,证明了大热门产品实际上与冷门产品拥有相同的利润创造能力。这也就意味着关注“长尾产品”与继续争夺热门产品是可以达到相同的现实意义。

二、互联网金融

虽然目前互联网金融正处在蓬勃发展期,但各界对于互联网金融的定义是众说纷纭。根据辛琪等人论述,各界对于互联网金融的理解可以粗略的概括为四个方面:一是认为互联网金融是利用网络手段达到去中介化、去中心化金融业态;二是强调互联网金融的行为主体是互联网企业,也就是互联网企业领导的金融;三是从技术层面出发,认为利用了互联网技术的金融就是互联网金融;四是认为互联网精神或者互联网技术与金融业融合并实现金融创新为互联网金融。进而,辛琪等人对于互联网金融的进行了定义:以互联网经济为基础、互联网为信用平台开展金融活动的金融业态就是互联网金融。

目前业界对于在互联网上进行金融活动的这个概念存在分歧。有些人将其一分为二:互联网金融以及金融互联网。根据辛琪等人的论述,这两者是统一的。但马云认为“未来金融有两大机会,一个是金融互联网,金融行业走向互联网;第二个是互联网金融,纯粹的外行领导。”也就是说他将其严格划分为了两个概念。但是这种划分排斥了二者融合的可能性,在现实意义上作用有限。

三、“长尾理论”对于互联网金融发展的实践启示

不难看出,长尾理论是基于互联网技术带来的信息成本下降;另一方面,互联网经济的蓬勃发展正是长尾理论的实际体现。对于互联网金融而言,“长尾理论”会带给互联网金融企业怎样的启示呢?结合我国商业银行实际提出三点建议:

首先要实现扩大数量,降低门槛,加强客户与产品的对接的“长尾”优势,平台的建设将会是重中之重。在“长尾理论”中,“个性化”是盈利的核心,从而产品的设置可以更大程度上放回客户自身,让客户自己来为自己定制产品,选择服务,甚至自己为自己提高用户体验。而这些的实现都要建立在一个强大的平台基础之上。

硅谷投资教父约翰?杜尔(2011)提出“SOLOMO”概念:“SOLOMO”实际上是三个词的组合“Social(社交),Local(本地化),Mobile(移动化)”。目前,商业银行的手机银行已经实现了较出色的用户体验,较完备的功能设置,较突出的实用价值,是一个非常先进且潜力极大的用户平台。移动终端APP的设置实现了移动化的金融运用,定位功能及周围网点功能也在向本地化靠拢。但是,在此基础上如果加入Social的元素将会极大的提高用户体验和用户粘性,甚至会创造出巨大的其他财富空间。目前的运用当中,商业银行手机银行交流部分是以客服为主,以通知式的活动宣传为主。例如,在平台中设置游戏币或者积分,实现整个商业银行电子银行营销奖励的规范化,然后通过这种类型的积分或者游戏币给用户更多的空间去发挥使用,同时通过平台内社交规则来激励用户,从而使用户产生对平台的粘性。并且在用户粘性产生的同时也就实现了推广和营销。

另外,本地化也是该平台最为重要的一个方面。对现实没有意义的社交可能并不会引起大部分用户的注意,从而会使平台变成“白送”的一种网络游戏。本地化的加入不仅会让用户体会到实实在在的“价值”,更多的,对银行来说也会是衍生产品的扩张。例如,平台中可以签约大量的本地商户,商户打折或者其他类型的商户活动都会以游戏或者论坛帖子的形式出现在平台上,这样pos收单、信用卡业务也会随之得到扩张。更进一步,平台建设甚至可以通过收购或者邀请加盟的方式扩大功能窗口,从而实现一站式的金融加生活服务。例如,和携程或者去哪儿合作,可以开拓更加全面的旅行金融服务。当然这样的一个平台的建立并不能单纯依赖金融产品方面的考虑,更多的可能是需要技术上、人才上乃至机制上的支持。

其次如何才能有效地降低信息处理成本将会是互联网金融参与者的首要课题。长尾效益的实现是要将大量的“长尾”进行划分、整合从而实现产品的在长尾市场上的蔓延,在小市场收获大利润。从而,这样的整合过程中的成本将会是决定成败的关键。徐子沛(2013)的《大数据》给了我们很好的答案。正在到来的数据革命、扁平化社会、互联网时代,正在将“开放,平等,协作,分享”的互联网精神传递给社会的各个方面。据《大数据》所述,大数据时代是历史的必然趋势,新一轮的竞争必然是围绕大数据进行。进而,步步为营的大数据基础建设可能会为企业在下一轮竞争中奠定更扎实的基础。

大数据互联网论文第7篇

“移动终端、云服务、大数据以及社交媒体是未来的第三平台,这个平台会在未来8年的时间里创造2.1万亿美元的市场,大数据在中国经济发展中将起到重要的撬动作用。”这番言论是idg资本创始合伙人熊晓鸽在idg-accel主办的“大数据论坛”上阐释的。

大数据正在改变着互联网和移动互联网行业的未来——从基础设施、数据管理平台,到一系列软件应用——包括数据分析、商业智能、工作协作、移动化办公以及各垂直行业的方方面面,因此,2012年也被称为大数据元年。

中国是体量上的数据“大”国,许多应用产生的数据量已经在世界上名列前茅。随着中国的互联网巨头纷纷走上开放道路,如何制定开放策略?如何应对开放过程中面临的众多技术挑战、对数据进行有效管理?是整个大数据生态系统亟待解决的问题。

由idg-accel主办的“大数据论坛”邀请了上百位业界资深专家参与此次论坛,idg资本创始合伙人熊晓鸽先生、微软全球资深副总裁本文由论文联盟收集整理张亚勤博士、accel partners合伙人吉姆·布莱耶(jim breyer)先生担任联。

本次论坛就大数据领域最值得关注的话题,设置了数据平台开放策略和生态、企业如何拥抱大数据、大数据处理和管理技术、移动互联网和数据驱动类应用等五个小组讨论环节。30多位大数据领域的业内人士在讨论中发表了精彩观点。

数据平台的开放性决定了数据的流动性,也决定了数据未来的收益性。factual公司营销及运营副总裁eva ho与参会嘉宾分享了数据作为资产如何解决流动性和可分享性的问题;淘宝网首席商业智能官车品觉则认为,没有首先很好解决自己公司的数据管理问题,开放数据

转贴于论文联盟

平台几乎不可能。

英国爱丁堡大学/ 苏格兰皇家学院院士樊文飞也介绍了他的观点。樊文飞认为,“看大数据不光是要看量还要看质,质和量一样重要。”与会嘉宾的讨论涉及数据的生产、存储、处理平台,到分析、隐理、数据分享各个本文由论文联盟收集整理环节。

此次会议还邀请了来自美国的大数据公司、学者和行业专家介绍了美国大数据领域的最前沿技术进展。