搜索
您的当前位置:首页正文

大数据处理平台设计方案方案

来源:爱go旅游网
大数据处理平台设计方案方案 1.2.6.1 大数据基础平台

(1) 架构设计

SDC Hadoop大数据基础平台集工作台、工作流开发环境、任务调度、数据管理、数据检索、集群运维管理系统和应用门户为一体,为用户提供基于大数据的基础解决方案,全面满足不同行业、不同人群对大数据的个性化要求。其架构设计如下图:

 运维管理(SDC Console):SDC Console是大数据运维管理系统,为SDC Hadoop供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理等。

 SDC Hadoop集成开发工具:提供了web图形化方式操

作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。

 HDFS: Hadoop分布式文件系统(Hadoop Distributed File System) ,提供高吞吐量的数据访问,适合大规模数据集方面的应用。

 Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。  HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。

 Elasticsearch:提供了一个分布式多用户能力的全文搜索引擎。

 Parquet:面向分析型业务的列式存储格式。  YARN 资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。

 Tachyon:分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。  Redis:提供基于内存的高性能分布式K-V缓存系统。  MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。  Spark:基于内存进行计算的分布式计算框架。  Strom:提供分布式、高容错的实时计算系统。  Hive:建立在Hadoop基础上的开源的数据仓库,提供

类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

 Impala:提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。

 Spark Streaming:建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。  Kylin:支持在超大数据集上进行秒级别的SQL及OLAP查询。

(2) 功能模块

大数据运维管理

大数据运维管理为大数据存储供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、统一监控告警、统一用户权限管理、日志查询、服务管理等。

 服务管理

提供服务管理,支持对各项资源及服务进行创建、删除、启停、重启、配置、升级、部署、维护等操作:

 统一监控告警

提供集群监控功能,集成大数据服务、可视化服务、数据挖掘服务等,并对服务器CPU、服务资源、服务状态(警告、错误、隐患)进行实时监控,并以图表形式呈现。支持异常邮件报警,便于用户及时发现问题并处理:

 日志查询

提供日志分析友好的Web界面,可以帮助用户汇总、分析和搜索重要数据日志:

 统一用户权限管理

提供统一用户权限管理,方便管理员对用户进行管理:

SDC Hadoop集成开发工具

提供了web图形化方式操作,包括流程控制、作业调度、数据管理、数据搜索、元数据管理、文件管理等功能。

 流程控制

工作流是由多个节点和节点间的依赖关系所组成的一组逻辑和规则,形成一张有向无环图(DAG图)开发者可通过开发面板和管理面板新建工作流来新建工作流进入工作流设计器,在工作流设计器中通过拖拽不同类型节点并连线的方式来开发一个工作流,提供基本的数据集成、数据计算、

数据调度等组件的工作流设计,支持工作流的新增、删除、修改、查询、测试运行、格式化、提交、保存。支持设置工作流任务定时执行,并实时监控任务执行情况,支持运行日志查看。

 实时概况

采用多视图实时对流程运行进行监控,从状态、时段、步骤类型、耗时等不同角度查看过去12小时或24小时内所有流程的运行统计概况,帮助用户第一时间获知全局运行情况,并提供强大的性能分析报告优化流程调度:

流程设计:通过简单的拖拽方式即可完成数据特征提取,样本数据建立,数据挖掘场景构建等复杂流程设计,界面简洁,操作简单:

工作流列表和工作流设计在同一页面,方便用户快速的切换工作流进行操作,提供工作流新增、删除、修改、查询、运行、保存功能:

提供工作流组件参数配置,满足用户各类流程设计需求:

用户可设置工作流调度,让流程任务定时执行:

提供工作流运行、暂停功能,运行过程中实时返回各步骤运行结果:

运行监控:展示进行中和已完成的工作流信息,信息主要包含流程名称、状态、提交者、启动时间、结束时间、运行进度:

提供关键词搜索流程功能,支持按状态和周期筛选工作流,方便用户快速查找:

提供运行中的工作流暂停、终止功能;提供已完成的工作流再次运行、查看运行日志功能:

 作业调度

通过多时间维度的计算任务调度、在线运维、监控报警等功能为大数据开发提供稳定的计算调度能力,可以支持超过百万级的调度任务量。

 数据管理

支持关系型数据、Hadoop等多种方式的数据查询操作。可指定数据库进行查询,支持历史查询记录查看:

提供图表化的查询结果展示,支持条状图、折线图、圆形图、映射图;图表还可按升序、降序及正常序显示查询结果:

支持查询结果导出为XLS和CSV格式,还可保存到HDFS或者Hive中:

 数据搜索

通过平台建立多维索引,实现分布式实时搜索与分析引擎,可实时对数据进行深度搜索:

 元数据管理

对元数据进行管理和操作,查看表结构、表的存储位置及样本数据。支持从文件创建一个表、手动创建一个表以及Hadoop体系与传统关系型数据库之间大批量数据的传输。

查看元数据信息,如表结构、样例数据及存储位置等,支持指定数据库查看:

支持手动创建一个表,后续数据导入到该表文件夹下,可实现对数据的查询等操作;同时也支持从数据文件中导入数据的方式创建一个表:

 文件管理

文件管理主要功能是实现对Hadoop文件的管理,实现海量数据文件的分布式存储。支持对文件进行新增、删除、修改、查询、权限更改等操作。支持查看历史记录以及从回收

站恢复删除的文件:

分布式文件系统HDFS

HDFS是Hadoop的分布式文件系统,实现高吞吐量的数据访问,适合大规模数据集方面的应用,为海量数据提供存储。

HDFS包含主、备NameNode和多个DataNode。在HDFS内部,一个文件分成一个或多个“数据块”DataNode集合里,NameNode负责保存和管理所有的HDFS元数据。客户端连接到NameNode,执行文件系统的“命名空间”操作,例如打开、关闭、重命名文件和目录,同时决定“数据块”到具体DataNode节点的映射。DataNode在NameNode的指挥下进行“数据块”的创建、删除和复制。客户端连接到DataNode,执行读写数据块操作。

分布式批处理引擎MapReduce

MapReduce 是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的map和reduce函数。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函

数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。

统一资源管理和调度框架YARN

YARN是中的资源管理系统,它是一个通用的资源管理模块,可以为各类应用程序进行资源管理和调度。YARN不仅局限于MapReduce一种框架使用,也可以供其他框架使用,比如Tez、Spark、Storm等。YARN主要分为ResourceManager、ApplicationMaster与NodeManager三个部分。

 ResourceManager:RM是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器 (Applications Manager) 。

✓ 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应用程序。调度器仅根据各个应用程序的资源需求进行资源分配,而资源分配单位用一个抽象概念Container表示。Container是一个动态资源分配单位,它将内存、CPU、磁盘、网络等资源封装在一起,从而限定每个任务使用的资源量。此外,该调度器是一个可插拔的组件,用户可根据自己的需要设计新的调度器,YARN提供了多

种直接可用的调度器,比如Fair Scheduler和Capacity Scheduler等。

✓ 应用程序管理器负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动ApplicationMaster、监控ApplicationMaster运行状态并在失败时重新启动它等。

 NodeManager:NM是每个节点上的资源和任务管理器。一方面,它会定时向RM汇报本节点上的资源使用情况和各个Container的运行状态;另一方面,它接收并处理来AM的Container启动/停止等各种请求。

 ApplicationMaster:AM负责一个Application生命周期内的所有工作。包括:

✓ 与RM调度器协商以获取资源。

✓ 将得到的资源进一步分配给内部的任务(资源的二次分配)。

✓ 与NM通信以启动/停止任务。

✓ 监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务。

分布式数据库HBase

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase适合于存储大表数据(表的规模可以达到数十亿行以及数百万列) 访问可以达到实时级别。HBase

集群由主备Master进程和多个RegionServer进程组成:

 利用Hadoop HDFS(Hadoop Distributed File System)作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。

 为Spark和Hadoop MapReduce提供海量数据实时处理能力。

 利用ZooKeeper作为协同服务。

分布式内存计算框架Spark

Spark是一个并行数据处理框架,能够帮助用户简单的开发快速,统一的大数据应用,对数据进行,协处理,流式处理,交互式分析等等。

Spark具有如下特点:

 快速:数据处理能力,比MapReduce快10-100倍。  易用:可以通过Java,Scala,Python,简单快速的编写并行的应用处理大数据量,Spark提供了超过

80种高层的操作符来帮助用户组件并行程序。  普遍性:Spark提供了众多高层的工具,例如Spark SQL,MLib,GraphX,Spark Stream,可以在一个应用中,方便的将这些工具进行组合。

 与Hadoop集成:Spark能够直接运行于Hadoop 的集群,并且能够直接读取现存的Hadoop数据。尤其,Spark和Hadoop紧密结合,可以通过大数据基础平台 Console部署安装Spark。

Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。

Spark SQL是Spark中用于结构化数据处理的模块。Spark SQL提供了一种通用的访问多数据源的方式,可访问的数据源包括Hive、Avro、Parquet、ORC、JSON和JDBC数据源,这些不同的数据源直接也可以实现互相操作。Spark SQL复用了Hive的前端处理逻辑和元数据处理模块,使用Spark SQL可以直接对已有的Hive数据进行查询。另外,SparkSQL还提供了诸如API、CLI、JDBC等诸多接口,对客户端提供多样接入形式。

分布式搜索ElasticSearch

ElasticSearch是一个实时分布式搜索和分析引擎:  可用于全文搜索、结构化搜索、文本分析;  提供了一个分布式多用户能力的全文搜索引擎,基于

RESTful web接口,目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单;  使用Java开发的,用于复杂应用底层的搜索功能开发。  Elasticsearch不仅仅是Lucene和全文搜索,还支持以下特性:

 分布式的实时文件存储,每个字段都被索引并可被搜索;

 分布式的实时分析搜索引擎;

 可以扩展到上百台服务器,处理PB级结构化或非结构化数据。

 Elasticsearch是面向文档(document oriented)的:  可以存储整个对象或文档(document)。

 同时会索引(index)每个文档的内容使之可以被搜索。  在Elasticsearch中,可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。 数据仓库 Hive

Hive是建立在Hadoop上的数据仓库框架,提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。Hive主要特点如下:

 海量结构化数据分析汇总;

 将复杂的MapReduce编写任务简化为SQL语句。  灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFILE,ORC(Optimized Row Columnar)这几种存储格式。中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等)录等。

Hive为单实例的服务进程,提供服务的原理是将HQL编译解析成相应的MapReduce或者HDFS任务:

流处理 Storm、Spark Streaming

Apache Storm是一个分布式、可靠、容错的实时流式数据处理的系统。在Storm中, 先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology) 被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以

tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。

Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。Spark Streaming具备以下特性:

 能运行在100+的结点上,并达到秒级延迟。  使用基于内存的Spark作为执行引擎,具有高效和容错的特性。

 能集成Spark的批处理和交互查询。

 为实现复杂的算法提供和批处理类似的简单接口。 分布式缓存层(Tachyon、Redis)

Tachyon是Spark生态系统内快速崛起的一个新项目。本质上,Tachyon是个分布式的内存文件系统,它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来,使Spark可以更专注计算的本身,以求通过更细的分工达到更高的执行效率。Tachyon可以有效地解决如下问题:当两个Spark作业需要共享数据时,无需再通过写磁盘,而是借助Tachyon进行内存读写,从而提高计算效率。在使用Tachyon对数据进行缓存后,即便在Spark程序崩溃JVM进程退出后,

所缓存数据也不会丢失。这样,Spark工作重启时可以直接从Tachyon内存读取数据了。当两个Spark作业需要操作相同的数据时,它们可以直接从Tachyon获取,并不需要各自缓存一份数据,从而降低JVM内存压力,减少垃圾收集发生的频率。

Redis(REmote DIctionary Service)支持多种数据类型,集群扩容、减容,Balance。

 数据类型:包括 string(字符串)、list(链表)、set(集合)、zset(有序集合)、 hash等。

 集群扩容、减容:当集群需要提供大规模的处理能力时,可以一键式扩容一对或多对主从实例。在此过程中,系统会自动完成数据迁移和数据平衡,用户无需其他操作。

 Balance:出现扩容异常、部分实例掉线等异常场景时,Redis集群中的数据可能会分布不均匀,此时可以通过管理界面上提供的Balance功能,让系统自动对集群数据进行平衡,保证集群的健康运行。  分布式应用程序协调服务 ZooKeeper

 ZooKeeper是一个分布式、高可用性的协调服务。主要支持以下特性:

 帮助系统避免单点故障,建立可靠的应用程序。  提供分布式协作服务和维护配置信息。

ZooKeeper集群中的节点分为三种角色:Leader、Follower和Observer,其结构和相互关系。通常来说,需要在集群中配置奇数个(2N+1)ZooKeeper服务,至少(N+1)个投票才能成功的执行写操作。

(3) 功能特性

安全性加固

SDC Hadoop大数据基础平台通过架构安全、认证安全、文件系统层加密实现多维度安全管理。架构安全基于微服务架构方式,针对每个微服务请求之间保持服务的相互认证;用户认证安全基于用户和角色的认证体系,支持安全协议Kerberos,使用LDAP作为账户管理系统,提供单点登录能力;文件系统层针对表、字段的存储关键信息动态加密,集群内部用户信息禁止明文存储。

统一工作台

SDC Hadoop统一工作台提供丰富的可视化组件,包括批量采集、实时采集、实时消息、批量计算任务、机器学习等

任务类型。提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。相较于开源的工作流拖拽,提供更为便捷和灵活的体验与交互。

资源动态管理

SDC Hadoop大数据基础平台在统一存储上建立资源管理层,提供企业用户统一的计算资源管理、动态资源分配、多租户之间资源配置和动态共享,灵活支持多租户多服务在统一平台上平滑运行;在可管理性方面优势显着;大数据基础平台基于YARN,支持同时运行多个计算框架。

统一运维管理

SDC Hadoop大数据基础平台作为企业级解决方案,开发了用户友好的图形化管理界面、提供了系统安装、集群配置,资源级别安全控制、监控及预警等多方面支持,在可管理性方面优势显着;

全链路大数据管理

SDC Hadoop大数据基础平台提供个性化的数据建模、数据查询、收藏、管理功能,用户可轻松收藏所关注的数据表,同时可对数据表的生命周期、基本信息、负责人等信息进行管理,也可查看数据表存储信息、分区信息、产出信息、血缘信息等内容。

海量批处理和高速流处理

SDC Hadoop大数据基础平台基于Labmda架构,有机集

成了Hadoop、Spark、Storm等计算框架和HDFS、Hbase等数据存储服务,真正做到海量批处理和高速流处理的能力。

海量数据搜索

SDC Hadoop大数据基础平台分布式实时搜索与分析引擎,可实时对数据进行深度搜索,支持多维度的数据展现形态。

1.2.6.2 大数据多维分析查询系统

(1) 架构设计

SDC UE大数据多维分析查询系统整体架构如下图所示:

(2) 功能模块

➢ 多数据源管理

支持多种数据源的连接,包括:主流关系型数据库RDBMS、Excel/CVS文本数据源、基于hadoop的大数据平台数据源以

及其他多种JDBC数据源。

类型 RDBMS数据源 数据源描述 可直接使用已有数据源,也可以定义新的数据源。支持:Oracle、MySQL、SQLServer、PostgraSQL等主流关系型数据库。 支持高级数基于JDBC的数据集市DataMart、基于hadoop据源 的大数据平台数据源 Excel数据可直接上传.xls .xlsx 或.cvs 文件,并可读源支持 集成大数据基础平台 API定制化的第三方数据源 取其中的每个sheet页签。 集成大数据基础平台,实现一体化解决方案。 预留通过标准的API接口,实现读取第三方自定义定制化数据源的能力。

➢ 数据建模

数据源建好之后,支持对数据表进行进行数据建模,构建BI分析需要的维度、指标。大数据多维分析查询系统支持星型、雪花模型,拖拽式可视化建模。模型创建后,系统自动生成Cube,供BI分析使用。

平台智能识别出维度和指标信息,并且支持对维度、指标的转换。

➢ 工程化管理

支持工程模式的管理,一个工程下支持多个页面,也支持多个分组,分组下还可以新建页面,便于对多个可视化页面进行分类管理。工程发布后,工程名字即是发布报表的一级菜单,里边的分组是二级菜单。

支持对工程的新增、删除、发布、复制、导入、导出功能。

➢ 可视化编排

SDC UE大数据多维分析查询系统是基于纯JS代码开发的IDE,可以在各种浏览器下实现报表制作。通过所见即所得拖拽方式实现灵活的可视化布局,极致的用户体验。您只需要通过拖拽,无需编程能力,在设计器上任意发挥创意,即可创造出专业的BI报表和可视化数据展现Web页面。

支持字体对齐,组件对齐,组件分布,组件层级控制等等,相关操作非常便利:

字体对齐支持:文本左对齐、文本居中对齐、文本右对齐。

组件对齐支持:左对齐,左右居中,右对齐,顶端对齐,上下居中,低端对齐。

支持组件横向自动分布,组件纵向自动分布。 画布上支持标尺,提供标尺对齐线。

提供坐标显示、设置,长度、宽度直接设置。 支持画布大小选择,自定义社会。

支持拷贝、粘贴、上下左右移、回退、重做、保存、全部保存等快捷键。

当组件重叠的时候,支持设置组件层级,可以置顶或者降底。

 样式

支持对不同的组件,包括基础组件、图标组件、GIS组件等设置不同的样式,以满足不同的需求场景。

柱状图属性配置

面积图属性配置  主题

系统可以改变整个报表设计器的主题风格。 报表主题可以改变报表页面的主题风格。

 模板

为了提高开发效率,为开发者提供了自定义布局模板和业务模板的保存。方便后续的项目可以继承之前项目的一些成果进行复用。布局模板只继承页面设置框架。业务模板在布局模板的基础上集成了和业务相关的数据模型的绑定。

可以将饼图和一个混合图配置好之后,把他们一起保存为自定义业务组件,保存到平台中。下次相同的业务场景,就可以直接将这个自定义业务组件“饼图+混合图组合组件”拖到页面中,不需要再重新配置。

➢ 组件库

系统既支持柱状图、折线图、饼图、雷达图、散点图、玫瑰图、气泡图、矢量地图等多种基本图表,同时支持漏斗图、词云图、GIS地图等特殊图表,满足不同场景的数据展现需求。特别是系统支持丰富多样的WEB组件。

 图表组件

当前支持的有:面积图、条形图、趋势图、混合图、饼图、折线图、柱状图、折线堆积图、柱状堆积图、面积堆积图、表格、条形堆积图、南丁格尔玫瑰图、嵌套饼图、仪表盘、大规模散点图、标准气泡图、漏斗图、雷达图等等,样式丰富,且支持自定义扩展。

图标组件及相关功能介绍如下:

 表格组件

SDC UE大数据多维分析查询系统具备灵活额表格组件,实现对详细数据的表格化呈现。

表格的能力支持:每页行数控制、加载上限、滚动高度设置、单元格冻结、复选框、行序号、分页、搜索、多了排序、表头设置、数据区设置、背景及背景图片设置、奇偶行设置、边框设置、网格线设置,同时支持动态筛选、动态列选择、动态排序、异步加载、表格渲染、数据导出等动作。

➢ 地图组件  GIS地图

GIS组件支持用户自定义图层,提供多种控件和渲染方式,支持两种底图,支持卫星图。将带有“地域性”或“区域性”特征的信息通过地图的形式进行展现,更加直观地监控每个地区的业务情况。

GIS组件功能列表: 一级功能 二级功能 基础图层 功能点描述 支持卫星、矢量、地形图三种,支持天地图、google、高德的底图 通过图层展示业务数据绑定的结果,支持用户在地图上进行对象选择,并进行业务属性查询。每个图层上承载的是单图层管理 业务图层 一类型的对象,可以对应一种渲染规则。支持第三方业务图层,如县级以下行政区划边界,河流、道路等,自定义图标、展示字段、符号样式、可以设置过滤条件 图层事件支持图层响应鼠标单击,支持弹窗、跳绑定 模型绑定 空间数据模型 转、联动 支持空间数据绑定 业务模型支持业务模型关联,配置关联条件 一级功能 二级功能 绑定 基本渲染 功能点描述 按照图层类型(点、线、面)提供不同的基础渲染形式 可根据业务数据配置条件,满足不同条件采用不同的渲染形式 支持热力图渲染,可调节模糊半径、取值范围以及渲染配色 渲染设置 条件渲染 热力图 图层管理控制图层的显示、层级、透明度以及文控件 图例 字 可根据图层和渲染器配置,设置显示图例类型和样式,支持图片图例 放大缩小 地图放大缩小 控件 拖拽平移 支持鼠标拖拽 卫星/矢量底图切切换底图,依赖基础图层配置 换 测距、测面 鹰眼图 比例尺 距离、面积测量 显示比例尺 一级功能 二级功能 筛选器 功能点描述 可按模型和图层设置过滤条件 按图层检索定位,能够控制检索范围位置检索 (当前业务图层,本期不支持第三方接口的位置检索) GIS图层设置:

GIS筛选器设置:

 矢量迁移地图

支持迁移、流向场景的质量地图。用于直观地体现各种数据在省(直辖市)、市(州)的流动。

 矢量分布地图

支持全国、省(直辖市)、地市(州),三级分布地图。 让用户非常直观地监控不同地区的业务发展和绩效情况。地图区域采用不同颜色进行显示、或在地图区域上放置不同颜色的旗帜,决策层可以清楚了解企业的战略执行,并通过在地图上实现下钻操作及联动图形,探索问题的根源,增强洞察力。

多维BI分析

SDC UE大数据多维分析查询系统提供了各种常见的OLAP分析操作,除基本的分组聚合外,还可以进任意多维度分析,

包含:钻取、切片、切块、旋转、排序、过滤等分析功能。

 拖拽式自由分析

在多维BI分析一体化工作台中,您可以选择任意数据模型中的任意维度、度量进行自主拖拽分析。同一个模型中,所有的数据已经关联在一起了,这就决定了多维及时分析的自由度。同时,在一个页面就能进行数据模型选择、维度指标选择、图表选择、图表样式设置、数据预览。

 多层钻取

在进行BI分析时,支持自由创建维度间的层级关系,构建维度分级。将具备层级的维度应用到各种图表上,即可实现自动多层钻取能力,逐层分析和查看各种数值情况。下钻之后,还能自由地返回上级。

 组合过滤

提供以条件过滤的方式进行多维切片、切块分析。条件过滤可以应用到任意一个维度,即使该维度没有被用在图表上进行分析,增加了过滤的宽泛和强大性。过滤条件支持:

大于、小于、大于等于、小于等于、包含、不包含、不等于、等于等各种条件判断,同时,每个条件判断支持采用逻辑表达式的方式组合,形成强大的过滤模型,满足各种切片和切块需要。

 聚合

在数据分析工作中,除了对普通数据的维度、度量进行直接分析和观察数据的整体效应外,分析平均数、最大值、最小值、分位数等需求也是常见的。如果汇总方式仅有单一的求和汇总,则很难满足这类需求。

在SDC UE大数据多维分析查询系统中,能进行数据动态呈现的所有表格、图表、基本WEB组件除可进行分组或交叉汇总外,可以针对以选择的任意度量进行求和、求最值、求平均、求分位数等,并且它们之间可以实时切换。

 自定义计算度量

度量(指标)可以来自于原始的数据字段,同时也可以是通过公式计算得来。

SDC UE支持创建自定义计算字段。这些新增字段是通过原有的一个或者多个数据字段,采用几十种普通的数学公式函数计算而来。比如:有一个垃圾短信字段、一个正常短信字段,那么在原本没有总发送短信字段的时候,就可以通过这两个字段相加而得到。

 数据格式转换

针对度量数据,支持在分析时对这些数据进行格式转换,包含:时间转换、浮点数转换、流量转换、百分比转换、单位转换、经纬度转换、枚举值转换、服务区时间转换等等,还可以采用JavaScript代码,自定义转换函数。

数据格式转换及自定义代码 页面级编排

SDC UE大数据多维分析查询系统不仅仅能进行BI分析,编排通用的Dashboard报表页面,也能基于丰富的WEB组件,像Dreamweaver一样设计出用于数据呈现、数据查询、数据联动、数据分析的全套WEB系统。

相比于普通可视化分析产品只能编排出全图表式的Dashboard页面,SDC UE编排出的WEB页面支持丰富的WEB组件,以进行数据查询、图表之间联动、页面间联动和参数传递。

 WEB表单组件

为了在进行BI分析的同时,也能编排出一个完整的数据呈现WEB系统。SDC UE增加了独有的WEB表单组件。通过这些组件,可以设计出多样化的,具备交互能力的WEB系统。使得BI分析和页面展现一体化。

当前支持的有:文字控件、文本编辑、按钮、下拉框、单选框、复选框、上传组件、时间组件、矩形组件、开关组件、超链接组件、树组件、表单容器、Tab容器、查询容器、图片、菜单、行布局、状态设置、列布局、iframe容器、胶片容器、线条等等,样式丰富,且支持自定义扩展。

部分WEB组件的功能介绍如下:

 动态查询

丰富灵活的查询条件,支持运行时动态查询。 通过丰富的查询手段,既能满足普通用户自助式的简易查询需求,又能满足数据分析师的专业需要。业务用户可以轻松的访问、浏览和探察数据;满足业务人员自助式的、零编程的、快速的定制查询,数据分析。

 事件可编程

可以为大多数组件设置事件动作的响应,包含:左键单击、左键双击、鼠标进入控件、鼠标划过控件、鼠标离开控件、控件初始化完成、控件渲染完成等等。

联动设置:多表可配置进行维度、度量关联分析,帮助

用户深入了解数据关系。支持多表联动,单向联动,多向联动。联动操作触发的控制条件:

可以选择多种动作类型,包含:联动、跳转、服务调用、弹出窗口、关闭窗口、自定义动作。

事件触发后的组件动作:

跳转设置:可以通过跳转功能,来实现钻入和钻出的效果,跳转到预先设置好的不同维度的页面,查看下级数据。同理也可在钻入后的页面设置跳转动作到原页面,实现钻出效果。在钻入钻出的同时,支持带入参数值,并且可以自定义写入代码来实现相关效果。

调用接口设置:当组件所对应的的事件动作类型为服务调用时,可以设置服务访问类型为API接口。当点击URL之后,可以选择预先定义好的接口来进行触发相应的处理,如查询数据,事务处理流程等等。

接口选择页面,支持检索和分页:

弹窗设置:当组件所对应的的事件动作类型为弹出窗口时,可以设置弹窗内容,以及通过参数设置,可以控制弹出窗口的样式如标题,背景色,遮罩等等。

JavaScript开发接口:当需要配置的参数格式不满足项目要求时,开发者也可以通过Json代码自定义参数,通过代码转换成自定义参数。

实时分析/计算引擎

独有的实时分析/实时计算引擎将会帮助SDC UE相比传统的 BI 系统得到十倍以上的提升。针对 TB 级、PB 级的数据量的所有分析请求能根据不同请求对象自动进行负载均衡,保障结果能在一秒之内返回结果。这一架构的好处及技术显而易见的:

 尽量发挥机器系统的特点,避免远程访问数据库,

加快数据的计算;

 精心设计的存储结构以利于高速运算;

 特有的跨粒度计算、内存计算、流计算、库内计算、列存储、并行计算等技术来加速数据的计算;  避免频繁的 IO 访问和远程访问数据库。

得益于SDC UE大数据多维分析查询系统跨粒度计算,所有的计算都会被以最优化的方案转化为库内计算,从而获取最好的性能。各种常见的汇总函数,以及几乎所有的统计函数都支持。为了更好的理解数据,我们提供了自定义模型能力,可将以形成业务模型进行引用。

我的报表  发布与授权

SDC UE大数据多维分析查询系统的页面支持按照工程级发布,在发布时,可以对这个工程及所有页面进行授权管理,确定能被哪些用户查看。

报表查看人员可以在“我的报表”查看在自己权限内的所有报表工程以及相关页面。报表发布页面以缩略图的方式只管呈现。

 导出

每个Dashboard报表支持多种方式的导出,包括: 针对单个图表,支持以图片的方式直接导出到本地; 支持将页面编排效果导出为PDF格式的文件。

 引用

SDC UE大数据多维分析查询系统发布的报表工程、页面,能通过URL或者API接口方式嵌入到第三方应用系统。根据安全要求以及第三方系统特性,同时支持免登陆方式和权限认证方式。

集成与安全  基础管理

提供完整的基础管理系统,包含:地区管理、部门管理、人员管理、安全管理、日志管理、系统设置等。提供统一的登录认证门户。

 安全管理

提供用户、角色、权限三级管理机制。通过用户管理控制进行按照部门、地区、不同角色、不同用户进行精细化授权。

对于URL的访问安全,同时支持免登陆模式和认证模式。对于免登陆模式,可以直接打开URL页面。对于一些需要进行权限保护的URL页面,系统提供统一的权限管理机制,所有试图打开SDC UE大数据多维分析查询系统所发布的页面URL的第三方系统,都需要申请和登记,系统会为这些系统分配唯一标志,只有符合条件的系统才能够调用SDC UE大数据多维分析查询系统的报表页面。因此,就算外部系统或者其他人员拿到了这些URL页面地址,也无法访问。

对于数据安全,在报表配置页面,针对每一个维度、指标,都可以进行脱敏处理,包含:对数据加密显示或者屏蔽显示。

 部署与集成

SDC UE大数据多维分析查询系统能够非常方便的与其他应用进行集成。提供专门的SDK组件、丰富的二次开发调用接口,配以深入浅出的帮助和样例文档,让开发者很容易就能上手。

在平台集成和客户化功能方面,大数据多维分析查询系统开发的报表是完全基于HTML5技术,可以灵活和第三方进行集成应用和跨平台部署。

平台支持基于CAS认证的标准SSO单点登录技术和接口,可以很轻松地集成其他业务系统,同时也能被集成到第三方业务系统(要求提供标准的SSO接口)中去。

国际化

SDC UE大数据多维分析查询系统支持中文、英文双语版本,支持双语实时切换,面向全球的客户使用。无需单独购买版本。

(3) 功能特性

 极致的用户体验 ✓ 安装和维护成本低 ✓ 支持一键式自动部署

✓ 无需技术背景,业务人员即可操作

✓ 只需部署一次,使用人员无需单独安装,随时随地办公,只需要一个浏览器即可

 丰富简单的数据建模 ✓ 主流关系型数据库(RDBMS) ✓ Excel/CVS文本数据源

✓ 基于类hadoop的大数据平台、数据仓库、数据集市 ✓ 其他JDBS/ODBC数据源

✓ 灵活数据建模功能,让零基础用户轻松驾驭多源数据  自由式轻松编排

✓ 全拖拽式图形化编排,只需要动动鼠标 ✓ 自由布局,自动排版

✓ 多种样式主题,一键切换,一键整体换肤,无需单个配色

✓ 多种排版工具栏、快捷操作,具备Microsoft PPT一样的编排体验

 惊艳的组件

✓ 多达50个以上的图表组件 ✓ 支持3D图表 ✓ 支持GIS地图组件

✓ 支持矢量地图(分布图、迁移图等)  多维度智能分析

✓ 支持多维分析:多层钻取、切片/切块、旋转、排序 ✓ 支持并行计算,内存计算,秒级刷新 ✓ 支持动态绘制、动态刷新、动态维度切换  简单而又有深度

✓ 以用户为本,支持多用户类型

✓ 具备面向业务人员的傻瓜相机式使用,也支持专业人员的单方相机式使用

✓ 支持一键式、傻瓜式、自动式编排和分析 ✓ 全称无需编码也能轻松设计输出报表 ✓ 支持复杂的WEB系统级设计

✓ 支持复杂多样的组件事件配置、事件响应动作、参数传递

✓ 支持采用Javascript、JSON等脚本语言进行自定义编程

 安全可依赖

✓ 提供地区、部门管理,支持集团式、分区式用户权限管理

✓ 提供用户、角色、权限三级管理 ✓ URL集成具备免登陆式和权限认证式 ✓ 支持数据级别访问安全控制 1.2.6.3 大数据智能分析系统

(1) 架构设计

SDC Miner大数据智能分析系统整体架构如下图所示:

SDC Miner大数据智能分析系统是以数学模型训练从创建,到模型管理应用,全生命周期为核心的体系化建设方案,并在此基础上,拓展多样化的数据输入、导入接口,并建立基于客户账户个性化应用的算法管理体系,并辅以基础管理功能提供整体管理功能。从而实现客户多样化体系化的算法模型应用需求。

(2) 功能模块

大数据挖掘是一项系统性的工程,其涉及到数据探索、数据处理、模型建立、模型训练等一系列过程。因此,单一的步骤不足以表示大数据挖掘的全过程。SDC Miner大数据智能分析系统使用建模的概念来表示整个过程。其主要建模流程及功能如下所述:

数据源

关联数据是建模的第一步,用户可以在数据源直接连接

数据库或导入本地数据,并可通过新建文件夹或保存到相关的文件夹的方式来对数据进行方便有效的管理。

 支持多种数据库类型

✓ 基于大数据的 HIVE、HDFS 等;

✓ 传统关系型数据库Oracle、Mysql 、DB2、PostgreSQL等。

 支持多种格式的本地数据

本地数据支持类型:excel、txt、csv等。 模型训练

建模过程是一个不断尝试不断探索的过程。用户从原始数据出发,经过对数据的探索和处理,运用合适的算法,最终形成业务上可用的模型。

图 流程设计示意图

 易用性模型搭建

在SDC Miner大数据智能分析系统中,每一个流程都是由多个算法组成,复制一个算法的同时也复制了其参数配

置,极大的方便了用户快速构建大规模数据挖掘系统。每个算法接受若干输入,产生若干输出。每个算法的输出都可以作为其他算法的输入。用户只需把自身业务系统相关的算法拖拽到设计面板内,按需连接输入输出端,即可完成流程设计。

 多类型算法支持

SDC Miner大数据智能分析系统内置  流程多分支设计

在建模的过程中,会有很多尝试性的步骤,用户还可以通过在流程设计中添加算法分支的方式来对比进行不同的尝试方法,然后根据预测结果找到最佳的预测算法,帮助客户产生更多价值。

 流程管理

✓ 在流程设计过程中,用户可以随时保存操作步骤,下次打开该流程时继续进行设计。

✓ 当流程设计完毕后,用户可以保存设计步骤,这样就可以在同类型条件下使用该流程来输出模型结果,大大缩减了流程重设计的时间。流程只记录了原始数据如何一步一步转换为最终模型结果的过程,所不同的是,该流程只保留了输出模型结果的必要步骤,不再保留用户在建模时所做的尝试性工作。

 可视化结果

建模的目的就是将读取的数据通过一系列算法组合得到最终的模型结果。然后通过数据统计和分析图表等可视化的方式展示,供用户更直观的从图表中发掘数据背后的意义。

 实时监控

在模型搭建或运行期间,用户可随时查看每个算法的运行状态、运行结果和时间。还可查看其运行日志,便于用户排查运行故障。

自定义算法

SDC Miner大数据智能分析系统从业务落地出发,帮助客户有效的管理大数据挖掘的各个阶段,不仅为客户内置了丰富多样的数据挖掘算法,同时也为用户提供了强大的自定义算法功能及其便捷的管理系统。

客户可根据自身业务需求上传算法JAR包,并可对自定义算法进行编辑、启用、停用和删除操作,以便于对算法进行管理。

 编辑自定义算法:用户可根据业务实际需求,对自定义算法进行基本信息、端口信息、参数信息相应的配置;

 启用自定义算法:启用某个自定义算法后,它将在算法库的相应分类下展示,便于用户设计流程时调用;  停用自定义算法:停用某个自定义算法后,它将在算法库的相应分类下删除,便于用户对算法库进行整

理;

 删除自定义算法: 删除某个自定义算法后,它将在算法库和算法列表中同时删除(但不影响占用流程的运行),便于用户对自定义算法的管理。

(3) 功能特性

 强大的预测模型

✓ 提供行业里最全面的系列建模技术 ✓ 支持GB到PB级数据量训练  超大数据集

✓ 高吞吐量的数据读取

✓ 高可扩展性,轻松应对数据量持续增长  高性能处理

✓ 高效的并行化处理方式

✓ 流式的数据访问,一次写入多次读写 ✓ 高效的结构化、非结构化处理性能  简洁的模型训练

✓ 无需编写代码,简单拖拽即可操作 ✓ 可快速创建、更新模型配置  流程多分支同时训练 ✓ 支持流程多个分支同时训练

✓ 提供简洁易懂的可视化分析报告对比训练结果  丰富的数据挖掘算法

✓ 几十种数据挖掘算法 ✓ 可覆盖各类业务分析需求  强大的扩展性 ✓ 支持多种类数据源

✓ 可以支持Excel、txt、csv等本地数据

✓ 可连接HIVE、HDFS、Oracle、Mysql 、DB2、Postgresql等数据库

 可信赖的安全控制

✓ 提供用户管理及多种权限控制设置 ✓ 支持数据级别访问安全控制 ✓ 支持资源级别访问安全控制

因篇幅问题不能全部显示,请点此查看更多更全内容

Top