随着互联网规模的发展,我国网民规模达6.32亿,互联网普及率为46.9%,智能手机对功能手机的替代已经基本完成,智能手机用户已形成庞大规模,互联网行业产生的数据爆发式的增长。互联网行业产品和服务所涉及各行业包括门户网站、电子商务、即时通讯、搜索引擎、电信增值、在线游戏、视频媒体、在线旅行、互联网金融、在线教育、网络招聘、社交网络等等。而这些海量数据里背后的价值能够帮助互联网企业掌握市场和用户的意向,及时创新变革引领发展。数据价值则需要通过大数据技术来解决,互联网行业是大数据技术的先驱者。
1.1海量数据
互联网涉及移动用户的普及,所有用户的网上行为都产生了一系列的大数据,包括用户访问、浏览、购买行为、出行方式、消费喜好等用户行为数据。
1.2数据价值未体现
如何集合当下所有店铺的经营状况,实时监控并预警,哪些产品卖得好?众多的移动用户中谁会是你的客户?哪种促销形式最打动他们? 如何去吸引到更多用户买单?如何做出用户画像的分析?
1.3数据量大,平台性能要求高
日新增数据量基本在几十T级别,预计很快达到百T级别,对数据采集、处理能力要求非常高。如何在有效有效时间内完成数据的采集、处理,是必须解决的难题。
1.4数据口径不一,缺少整合
烟囱式的系统建设、数据处理过程,导致数据统计口径(算法、规则)不一,同时造成数据管理分散、割裂,信息孤岛严重,数据关联困难,需耗费较多资源对统计数据进行对比分析,进行统一标准,统一对外进行数据提供,支撑应用统计分析。
1.5数据共享要求高
上层应用厂商多,应用需求比较复杂,如何分配资源,如何共享提供数据,如何管控,最大限度的满足应用需求,同时具备灵活性、扩展性,是实现数据共享,发挥平台价值的关键问题。
2.1总体架构
总体架构图
整个系统分为三个层面
1、数据层:整合不同业务信息系统,实现从整体的高度看数据。
2、建模层:针对不同的分析角度,建立不同分析主题。
3、展示层:以丰富美观的图表展现方式,灵活多变的交互方式,将分析结果呈现给决策层和业务用户,IT和业务部门可以基于自己的需要做不同展现。
2.2MPP高性能集市架构
MPP架构图
MPP关键技术图
采用华盛恒辉高性能MPP数据集市作为介质。MPP分布式的数据集市支持高并发和高可用,每个数据集市是基于一个主题做好轻量建模的细节数据,数据被分布式存储在每个节点上,同时又做好了备份。数据按照列存储的方式,被高效压缩,打好标签,存储在磁盘中。当需要查询计算时,采用内存计算来进行数据计算,并且每台机器节点会同时计算,最终会将结果送应用层做展现。
2.3高性能集市部署方案
3.1华盛恒辉方案价值
1、华盛恒辉大数据可视化分析平台,能够提高了企业的运营、分析能力,有效提高客户满意度,促进企业持续、健康的发展。
2、降低成本,减少费用,统一数据共享方式,集中进行平台管控运营。大幅减少了数据的冗余存储、重复处理以及管理资源的消耗,大大减少了数据单位成本;敏捷自服务的产品属性使得业务分析和IT投入都会有明显效果提升。
3、敏捷的编辑数据报告,灵活的进行数据分析,美观的可视化展现,充分满足快速分析的所有需求。
4、高效的大数据处理能力,从容应对海量的历史数据以及迅速增长的增量数据,百亿级数据的计算及展现可达到秒级响应。
5、轻松集成深度分析算法,帮助用户更加透彻的看懂数据,挖掘数据价值。