专利名称:一种基于Spark的数据处理方法及系统专利类型:发明专利
发明人:木伟民,张云,李名扬,张明诚,王伟平申请号:CN201710335307.0申请日:20170512公开号:CN107463595A公开日:20171212
摘要:本发明公开了一种基于Spark的数据处理方法及系统。本方法为:1)用户根据待处理文档的需求选取算子并配置所选取的算子参数,然后建立所选算子的连接关系,生成场景的XML文件;该场景的XML文件中包括每一所选算子的XML内容以及各算子的连接关系;2)根据场景的XML文件生成相应的有向无环图DAG;3)将该有向无环图DAG切分成若干能够在分布式计算环境下执行的子任务subJob,在Spark计算框架下执行切分后得到的子任务subJob,实现对该待处理文档的处理。本发明能够实现对接各种异构数据,提高了数据处理灵活性。
申请人:中国科学院信息工程研究所
地址:100093 北京市海淀区闵庄路甲89号
国籍:CN
代理机构:北京君尚知识产权代理事务所(普通合伙)
代理人:司立彬
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容