大数据是继云计算、物联网之后IT产业又一次技术变革。“大数据”是公司在日常运营中生成、累积的用户网络行为的数据。这些数据的规模庞大,以至于不能用GB或TB来衡量。对金融行业而言,虚拟化及电子化交易将成为大数据时代金融行业发展的特征。因此,积极针对大数据布局,从战略层面应对大数据时代的挑战,推进并建立起数据驱动型发展方式的金融机构将获得比同业更高的效率。以有效提升交叉销售、投资管理市场份额及能力,并由此培育出自己的信息核心竞争力。
1.1数据推动企业管理变革
如今,数据已经成为非常重要的资产。以前人们还只是把它看做是一种附属物,客户来办理业务,在系统一中产生了这种附属物。而现在,发现在客户办理业务这条信息中,蕴含着一些客户的需求,成千上万条这类信息累积下来,就能洞察客户需求,而设计新产品,为客户个性化营销产生新的价值。数据变成一种资产了,还需要被管理起来。拥有数据的规模、灵活性,以及收集、运用数据的能力,将决定企业的核心竞争力。掌控数据就可以深入洞察市场,从而做出快速而精准的应对策略,这意味着巨大的投资回报。因此企业的IT部门将从“成本中心”转变为“利润中心”.而数据将成为企业的核心资产。
企业战略将从“业务驱动”转向“数据驱动”。数据化决策是企业未来发展方向。过去很多企业对自身经营发展的分析只停留在数据和信息的简单汇总层面,缺乏对客户、业务、营销、竞争等方面的深入分析。如果决策者只凭主观与经验对市场进行评估而制定决策,将导致战略定位不准,存在很大风险。在大数据时代,企业通过收集、分析企业内部和外部的数据,获取有价值的信息。通过挖掘这些信息,企业可以预测市场需求,进行智能化决策分析,从而制定更加行之有效的战略。
大数据最至关重要的方面,就是它会直接影响企业怎样做决策、谁来做决策。在今天的整个商业世界中,人们仍然更多依赖个人经验和直觉做决策,而不是基于数据。在信息有限、获取成本高昂,而且没有被数字化的时代,让身居高位的人做决策是情有可原的,但是大数据时代就要让数据说话。
2.1业务架构
面对大数据的挑战,战略层面上,金融企业应当建立“数据驱动型”发展模式,完善数据运营体系,落实大数据运营中心。战术层面上通过运营优化,管理提升,风险控制等应用全面提升金融核心价值和竞争力。
图2:银行大数据运营中心建设架构图
银行大数据运营中心建设的当务之急应该围绕运营优化、管理提升、风险控制三大建设目标,主要体现为:
1、以用户数据为核心的运营优化,通过客户画像、精准营销、产品优化、舆情分析、市场和渠道分析,全面提高运营效率。
2、以投入产出与价值贡献为导向的管理提升,通过绩效考核、领导驾驶舱、管理会计平台等应用真正实现精细化管理。
3、利用多维度的安全判断和更细粒度的建模及预判实现中小企业货款评估、实时欺诈交易分析、反洗钱业务分析等应用加强对商业银行风险的识别、评价和预答,有效防范金融风险。
2.2技术架构
图3:华盛恒辉科技MPP数据集市架构图
从数据源到最终展现分成如下几层:
·ETL层:采用PC server作为ETL前置机.将数据清洗、转换、装载。
·离线分析计算平台:采用Hadoop分布式存储。支持结构化和非结构化数据存储并且当数据量增大时方便横向扩展(Scale-out)。可将存储层的数据进行加工.根据分析需要,可进行数据模型计算,挖掘分析等时效性低的大规模批量计算任务。
·实时在线分析平台:采用华盛恒辉高性能MPP数据集市作为介质。MPP分布式的数据集市支持高并发和高可用,每个数据集市是基于一个主题做好轻量建模的细节数据,数据被分布式存储在每个节点上,同时又做好了备份。数据按照列存储的方式,被高效压缩,打好标签,存储在磁盘中。当需要查询计算时,采用内存计算来进行数据计算,并且每台机器节点会同时计算,最终会将结果送应用层做展现。
·应用层:利用华盛恒辉科敏捷BI提供自服务分析工具,对离线和在线分析平台中的数据进行自服务可视化展现。无论是终端用户还是IT开发人员都可以通过主流浏览器来访问BI系统,用户还可通过移动终端来访问系统。BI系统提供系统监控,权限多级管理,多维数据分析等等功能,还支持自服务式报表设计和数据分析。
3.1高性价比,低TCO
整个系统架构,摒弃了传统系统常见的向上升级(Scale-Up)的思想,不管是数据集市还是BI前端,都支持横向升级(Scale-Out)。随着企业的业务增长,数据分析需求都会大幅增长,基于X86 PC Server集群的平台架构十分关键。在这种架构下,我们不用采购昂贯的小型机去支撑高并发,去支撑海量数据计算,去支撑数据分析业务的发展,而是采购多台普通的PC Server搭建集群,建设高性价比的分析平台。
3.2敏捷:快速发布,持续迭代,拥抱变化
数据层敏捷:数据层无需做数据的预先汇总计算。传统的架构需要将数据提前按照能考虑到的所有维度的组合,以及所需的指标进行汇总,或者通过打Cube的方式预先计算好。但敏捷BI的方式是:只将数据关联做好,导入的数据还是细节数据,所有的计算都是在用户点击时发起实时计算。因此,数据层只需再建立一个轻量模型,导入新需求的细节数据即可。
应用层敏捷:采用灵活的ROLAP机制,每个点击发起的需求都会实时拼出SQL,送给计算层去计算,比较容易适应业务变化。模块层次少,建模完就可以直接设计报表和Dashboard,或进行探索式分析。因此对于终端用户来说也简单易用。
3.3自服务式和探索式多维分析
基于主题的集市,已经将物理表结构在语义上转义成便于理解的逻辑结构,终端用户通过拖拉拽的方式可以轻松自定义报表或仪表盘。
前端系统的交互和分析能力:过滤、钻取、缩放、关联、变换、动态计算、链接等等。用户通过发现问题,找到答案,做出商业决定,形成探索式的分析。
3.4高可用性
离线分析平台和在线分析平台都是分布式架构。数据存储是分布式的,数据的计算也是分布式的,还带有备份机制和监控机制。当某一台机器宕机,其他机器会自动承担所有计算。该分析计算平台应用广泛,有的电信级客户的数据量已经达到了上百T,依旧运行稳定可靠。该分布式数据集市支持对计算和存储节点进行热插拔扩展.可以从一个节点扩展到几十个甚至上百个节点。
3.5高并发性
在线分析平台支持高并发。数据集市作为计算层,支持分布式计算,采用MapReduce架构来提高计算效率。BI前端可直接连Oracle或Hadoop,但是不建议采用Oracle或Hadoop来支撑高并发的OLAP系统。因为,Oracle是行式存储的,在OLTP系统能支持好高并发,但支持不好高并发的OLAP系统;而Hadoop系统作为高性价比的仓储系统,也不适合于做实时分析系统。华盛恒辉科技的分布式数据集市,是列式存储的,采用良好的内存计算技术.可基于多台存储和计算节点并行工作.非常适合海最数据的实时数据分析。