大数据的概念与技术应用
作者:李伟龙
来源:《中国科技博览》2016年第20期
[摘 要]在各种技术通讯手段高速发展的环境下,人们对事物数据获取与描述越来越全面,因此大数据也随之应运而生。本文在论述大数据概念的同时,也对大数据的4V理念的特点及大数据涉及的主要技术进行了说明,最后对大数据在我国的应用前景进行了简要的论述。以期,我们能够充分发挥出大数据的巨大潜能,使大数据技术更好地为我们的工作生活服务。
[关键词]大数据;概念;特征;技术;应用
中图分类号:TP274 文献标识码:A 文章编号:1009-914X(2016)20-0268-01
1.引言
随着现代社会科学技术及信息流通技术的高速发展,人与人之间的沟通交流越来越密切,大量的科技元素逐步融入到人们的日常生活中,生活也变得越来越方便快捷,大数据也随着时代的发展应运而生。大多数科技工作者们都意识到,未来的科技时代将不仅仅是IT时代,它更是一个数据科技(DT)的时代,DT在未来社会发展进程中将有着举
龙源期刊网 http://www.qikan.com.cn
足轻重的地位。
虽然大数据时代已经到来,但是对于大数据的基本概念理解,大数据的主要核心问题,大数据的采集、结构、挖掘技术等方面仍然存在一定的争议。在本文中作者对当前对大数据概念理解的几种主流思想进行综合论述,依照大数据生命周期中的几个主要阶段分析了其相应的技术处理方式,在此基础上,进一步对大数据应用的未来进行了讨论。
2.大数据的概念与特点
在大数据概念出现之前,我们经常接触到的一个概念就是海量数据,它是大数据概念的前身。但是两者之间仍然有所差别,海量数据主要强调了数据量的规模之大,并无对数据本身的特征进行有关的定义。然而,大数据概念不仅仅包含了数据量的规模之大,更包含了数据的传播速率之快,收集,分析及管理的难度之大,这种难度是无法在短时间内应用任何一种传统工具能够解决的。
人们根据大数据的数据总量大、数据类型多、数据价值密度低以及数据产生与处理速度快等四个特点,总结出了大数据的4V理念,即:
容量(Volume):数据量大是大数据的基本特征,一般认为大数据的最小单位为10-20T的量级,导致数据量急剧增加的原因主要有:随着互联网技术的广泛应用,人们获取分享数据信息显得相对简易;人们对事物数据的获取呈现多维化结构,使得描述事物的数据越来越丰富多样。
类型(Variety):数据类型多样复杂,是大数据最为重要的特征之一。随着互联
龙源期刊网 http://www.qikan.com.cn
网技术的快速发展,大量的非结构化数据极速涌现,这些数量来源于人们工作生活中浏览网页、上传下载图片及视频、发布微博等各种操作,在当前背景下,非结构化数据已经成为数据的主流,这样的数据难以用传统的结构化表格来存储、处理。
价值(Value):非结构化数据的一个显著特征就是数据价值密度低。主要原因在于,大数据更侧重于保存事物的原始数据,而不经过任何的抽象加工处理。这使得数据的绝对量出现剧增现象,而有效数据的比例也趋于降低。
速度(Velocity):要求极端快速的数据处理速度,这是大数据有别于传统数据的重要特征。随着互联网等各种数据获取、传输渠道的高速发达,大量呈爆炸式喷发的数据需要系统在规定的时间内进行存储、查询、分析等操作。否则,大数据无法被有效地利用起来。
3.大数据主要处理技术
大数据处理关键技术主要有:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等。
3.1大数据采集技术
大数据采集分为感知部分和支撑部分,其中感知部分负责通过各种传感器实现对结构化、半结构化及非结构化数据的识别、传输及管理等工作;支撑部分则为大数据提供服务平台、数据库等网络硬件资源。
龙源期刊网 http://www.qikan.com.cn
3.2大数据预处理技术
主要负责对采集的数据进行初步处理工作,主要包括抽取及清洗技术。其中,抽取技术负责将各种结构和类型的数据进行尽可能的转换使其成为单一结构或者更加便于进一步分心的结构类型;清洗技术则负责去除数据中的无价值内容,以便提取出更为有效的数据。
3.3大数据存储及管理
该部分工作主要包括大数据的存储、管理及安全技术等,其中存储部分要求有能够提供可靠的分布式文件存储系统,能有效地优化存储,能满足大数据的去冗余与性价比高的大数据存储技术;管部分要求要有能够高效地实现大数据的移动、备份及复制等技术,能提供大数据可视化技术;安全部分需要有能够实现分布式访问控制,数据审计,隐私保护,数据真伪识别及数据完整性验证等技术。
3.4大数据分析技术
越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。当前主要分析技术有:Hadoop、Hive、Sqoop及Zookeeper等。
Hadoop: 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。
龙源期刊网 http://www.qikan.com.cn
Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
4.大数据的应用前景
2015年9月,国务院印发了《促进大数据发展行动纲要》,开始从国家层面部署大数据的发展工作。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策支持技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,其他各种行业的云计算和海量数据处理应用技术等。
5.结束语
龙源期刊网 http://www.qikan.com.cn
本文讨论了大数据概念及其4V主要特征,同时还对大数据技术领域的大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘等几个关键技术进行了论述,最后对大数据在我国的应用前景进行了总结与展望。笔者相信大数据时代,只要我们保持一个拼搏向上,勇于创新的心,一定能使大数据技术更好地为我们的工作生活服务。
参考文献
[1] 王元卓,靳小龙,程学旗. 网络大数据:现状与展望. 计算机学报. 2013
[2] 孟小峰,慈祥. 大数据管理:概念、技术与挑战. 计算机研究与发展.2013
[3] 邬贺铨. 大数据时代的机遇与挑战. 中国经贸.2013
因篇幅问题不能全部显示,请点此查看更多更全内容