大数据现在泛指利用海量数据进行数据分析,数据挖掘等方式提炼有价值的信息。
大数据本身只是指海量数据。但是面对海量数据,我们如何整理,如何转换,如何清洗。因为这些数据来源于个个不同切独立的业务系统,格式不统一。所以大数据在变成有价值的信息之前一定需要做etl和结构化,标准化处理。
面对海量数据我们如何有效组织这些数据,方便用户使用,方便横向扩展,方便历史数据回溯,方便用户高效使用这个时候就需要数据仓库。贴近业务,将数据有效切合理的组织在一起,不用太刻意去考虑磁盘的消耗。
数据整理完了后,如何发现数据的价值,常规的传统的统计分析,这个是定量分析。在一个就是数据挖掘,这个是定性分析。再往上就是机器学习,深度学习,神经网络。
面对数据的处理,数据仓库,数据的价值挖掘这么一个庞大的数据处理工程就需要有监控,异常数据(错误数据和迟到数据)处理系统,任务重启恢复系统等。
以上只是从技术角度描述了什么是大数据。自从移动互联网的兴起,各行各业都积累了海量的数据,所以各行业都有自己的大数据,基于各自行业的特性挖掘其中数据的价值。
我是数据僧,现在依旧还是那个少年。欢迎一起讨论。