专利名称:一种互联网大数据清洗方法专利类型:发明专利发明人:刘磊,张洪
申请号:CN201910767145.7申请日:20190820公开号:CN1107377A公开日:20200131
摘要:本发明涉及数据清洗技术领域,涉及一种互联网大数据清洗方法,具体步骤如下:S1、利用数据采集模块提取出所需数据;S2、利用爬虫同步模块把oss中的文件同步下来;S3、利用数据清洗模块将处理后的数据打包插入KAFKA模块的kafaka队列中;S4、利用KAFKA模块,运用选举算法将数据合理分配到服务器队列中,通过网络传输数据库模块中;S5、利用数据库模块监测KAFKA模块传输过来的数据,并利用filer‑chainshain扩展监控统计。本发明通过数据清洗模块有效地将数据重新分类整合清洗至各个规范化数据库模块中,提高了数据清洗的准确度,解决了现有技术大数据因数据丢失而造成筛选清洗效率低下的缺陷,达到快速准确筛选清洗数据的目的。
申请人:广州宏数科技有限公司
地址:5100 广东省广州市番禺区沙头街禺山西路329号海伦堡创意园1座2栋809
国籍:CN
代理机构:广州市红荔专利代理有限公司
代理人:李彦孚
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务