大数据处理技术的特点
1)Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模。
2)Variety(多样性):即大数据包括各种格式和形态的数据。
3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。
4)Veracity(准确性):即处理的结果要保证一定的准确性。
5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。
传统的数据库系统主要面向结构化数据的存储和处理,但现实世界中的大数据具有各种不同的格式和形态,据统计现实世界中80%以上的数据都是文本和媒体等非结构化数据;同时,大数据还具有很多不同的计算特征。我们可以从多个角度分类大数据的类型和计算特征。
1)从数据结构特征角度看, 大数据可分为结构化与非结构化/半结构化数据。
2)从数据获取处理方式看, 大数据可分为批处理与流式计算方式。
3)从数据处理类型看, 大数据处理可分为传统的查询分析计算和复杂数据挖掘计算。
4)从大数据处理响应性能看, 大数据处理可分为实时/准实时与非实时计算,或者是联机计算与线下计算。 前述的流式计算通常属于实时计算,此外查询分析类计算通常也要求具有高响应性能,因而也可以归为实时或准实时计算。而批处理计算和复杂数据挖掘计算通常属于非实时或线下计算。
5)从数据关系角度看,大数据可分为简单关系数据(如Web日志)和复杂关系数据(如社会网络等具有复杂数据关系的图计算)。
6)从迭代计算角度看,现实世界的数据处理中有很多计算问题需要大量的迭代计算,诸如一些机器学习等复杂的计算任务会需要大量的迭代计算,为此需要提供具有高效的迭代计算能力的大数据处理和计算方法。
7)从并行计算体系结构特征角度看,由于需要支持大规模数据的存储和计算,因此目前绝大多华盛恒辉信息大数据处理都使用基于集群的分布式存储与并行计算体系结构和硬件平台。
下一篇:大数据和数据挖掘是何关系