TIP
本文主要是介绍 大数据基础和应用场景 。
# 什么是大数据?怎么理解大数据?有哪些作用和应用场景?
# 大数据的概念是什么?
最早提出大数据的是麦肯锡公司,当时的定义是:
渗透在每一个行业和业务领域的数据,通过人们对这些海量数据的挖掘和运用,产生出一波新的生产率增长和消费者盈余浪潮。
后来麦肯锡全球研究所给出的定义是:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
研究机构Gartner给出了这样的定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
# 百度百科的定义:
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
# 简单理解为:
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。简单的说就是超级存储,海量数据上传到云平台后,大数据就会对数据进行深入分析和挖掘。
进一步简单的说,大数据基本要具备以下三点:
1)有海量的数据;
2)有对海量数据进行挖掘的需求;
3)有对海量数据进行挖掘的技术和工具(比如常见的有hadoop、spark等)。
大数据是一个抽象的概念,对当前无论是企业还是政府、高校等单位面临的数据无法存储、无法计算的状态。大数据,在于海量,单机无法快速处理,需要通过垂直扩展,即大内存高效能,水平扩展,即大磁盘大集群等来进行处理。
# 大数据可以做什么?
大数据里面的数据,分三种类型:
(1)结构化的数据:即有固定格式和有限长度的数据。
(2)非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页、语音,视频等。
(3)半结构化数据:是一些XML或者HTML的格式的数据。
获取大数据后,用这些数据做:数据采集、数据存储、数据清洗、数据分析、数据可视化
大数据的核心作用是数据价值化,简单的说就是大数据让数据产生各种“价值”,这个数据价值化的过程就是大数据要做的主要事情。
简单的说,大数据可以做的是:
记录一切、描述一切、预测一切
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
# 大数据应用分类:
【重点】
大数据应用分类 核心分为两个大类:
数据统计分析: 报表、图表、大屏,为管理、业务优化等决策行为提供基础数据支撑。
数据价值挖掘: 利用数据统计、机器学习技术,挖掘出更多数据的潜在关系,为流程优化、效率提升,提供更加智能决策支撑,并且根据数据挖掘的结果进行数据建模可以做预测、预警等更多提升业务价值的应用。
# 数据分析种类(按照实时性)
按照数据分析的实时性,分为实时数据分析和离线数据分析两种。
实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。
对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有Facebook开源的Scribe、LinkedIn开源的Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。
# 大数据有哪些主要的应用场景?
大数据的应用对象可以简单的分为给人类提供辅助服务,以及为智能体提供决策服务。
大数据不仅包括企业内部应用系统的数据分析,还包括与行业、产业的深度融合。具体场景包括:互联网行业、政府行业、金融行业、传统企业中的地产、医疗、能源、制造、电信行业等等。通俗地讲“大数据就像互联网+,可以应用在各行各业",如电信、金融、教育、医疗、军事、电子商务甚至政府决策等。
对企业而言,大数据可提高工作效率,降低企业成本,精准营销带来更多客户。
对政府而言,可以利用大数进行统筹分析、提高管理效率、管理抓获犯罪分子等。
对个人而言,可以利用大数据更了解自己等。
# 举例一些主要应用的行业:
制造业:大数据可以帮助制造商减少成本和浪费,并在更短的时间内制造出高质量的产品。
金融:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
零售餐饮行业:利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式。通过了解顾客的喜好,可以对营销方案进行改进、服务转型。
医疗保健行业:改善治疗或向患者提供更好的医疗援助;提高行政管理、成本管理、人力资源/人员管理和供应管理的效率。
能源行业:大数据能加速推进能源产业发展及商业模式创新等。
教育产业:利用大数据来跟踪学生表现的变化,指定符合每个个人的学习计划。
# 参考文章
- https://blog.csdn.net/cqacry2798/article/details/89790012