大数据一般是指传统数据处理软件无法处理的庞大或复杂的数据集。大数据分析包括数据获取、数据存储、数据检索、数据分析、共享、传输、可视化、查询、信息隐私保护和数据溯源。大数据最初与3个关键概念相关联:数据体量大、数据的多样性和数据更新速度快。

狭义的大数据往往是指使用预测分析、用户行为分析或某些其他从大数据中提取价值的数据分析方法。大数据的分析总是和“发现商业趋势、预防疾病、打击犯罪等”相关联。就其真正本质而言,大数据分析技术并不是全新的内容,也不是最近几十年才有的。人们一直在尝试使用数据分析技术来支持他们的决策过程。从公元前三百年左右的古埃及人已经尝试在亚历山大图书馆中获取“数据”至今,数据生成的数量和速度发生了变化——超出了人类的理解范围。2013 年全球数据总量为 4.4ZB。预计到 2025 年,这一数字将急剧上升至 175ZB。

1.0阶段



大数据1.0阶段的需求得益于互联网的蓬勃发展,需要对海量的非结构化数据进行分布式存储与并行计算,主要的关键技术包括以HDFS/HBase为代表的海量数据存储层和以MapReduce为代表的批处理计算框架。从决策角度看,这一阶段主要以数据驱动的模式为主。

2.0阶段



自2000年年初以来,Internet 和 Web 开始提供独特的数据收集和数据分析机会。随着网络流量和在线商店的扩张,雅虎、亚马逊和eBay等公司开始通过分析点击率、IP 特定位置数据和搜索日志来分析客户行为。这开启了一个全新的蕴含各种可能性的新世界。

这一阶段以融合计算为主的技术趋势,是伴随着移动互联网发展的,需要对海量、多样化、高并发的数据进行实时分析、交互式查询。关键技术包括HDFS/HBase和MPP,强调类YARN的统一资源管理,包括MapReduce的批处理、Spark内存计算、Solr交互式计算和Storm流式计算等。从决策角度来看,这一阶段是理论驱动的。

3.0阶段



这一阶段围绕着认知计算展开,面对的需求是在万物互联时代对海量流式数据、人工智能分析等提供毫秒级的低延时处理能力,关键技术包括HDFS/HBase和MPPDB的智能跨域数据中心存储、以YARN为核心的智能跨域数据中心资源管理、Spark和Data Intensive Streaming的融合数据处理平台,最后为人工智能、知识探索、发现和管理的认知计算服务。从决策角度看,大数据3.0阶段进入了Data-driving-theory即数据驱动理论的阶段。


点赞(123)

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部