环境数据中心
大数据平台分析
Big data platform analysis
SOFTWARE PRODUCTFPI-Company
聚光科技(杭州)股份有限公司
内部资料 注意保密
目 录
1. 大数据背景............................................................................................................... 1
1.1. 什么是大数据................................................................................................ 1 1.2. 发展现状........................................................................................................ 1 1.3. 大数据的应用................................................................................................ 2 2. 大数据平台介绍....................................................................................................... 4
2.1. 定位................................................................................................................ 4
2.1.1. 产品概述............................................................................................ 4 2.2. 功能................................................................................................................ 4 2.3. 设计................................................................................................................ 4 2.4. 技术................................................................................ 错误!未定义书签。 2.5. 总结................................................................................................................ 4 3. 环境数据中心........................................................................................................... 5
3.1. 背景定位........................................................................................................ 5 3.2. 功能................................................................................................................ 5
3.2.1............................................................................................................... 5 3.2.2............................................................................... 错误!未定义书签。 3.3. 设计................................................................................................................ 6 3.4. 技术................................................................................ 错误!未定义书签。 4. 总结........................................................................................................................... 6
I
内部资料 注意保密
1.大数据背景
1.1. 什么是大数据
大数据最早在上世纪90年代被提出,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
现在,业界普遍认同所谓“大数据”具有明显的“3V特征”:量级(Volume),速度(Velocity)和多样性(Variety)。大数据普遍具有量级大,要求处理速度快,数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里,都追加了第四个V——Value,价值;而IBM在其相关文档中给出的第四个“V”则是真实性(Veracity)。
大数据的价值:在海量的规则或不规则数据之中,用新的数据处理手段,以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。
1.2. 发展现状
随着移动互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、GPS设备、电话和医疗设备,产生海量的数据信息。这些用户大部分来自发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据背后的信息,将有助于认识需求、提供预测和防范危机。
大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法,生物制药、新材料研制生产的流程会发生性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。
- 1 -
内部资料 注意保密
1.3. 大数据的应用
大数据的开发与应用有着三个特点:
1、数据样本,不再是抽样,而就是数据的总体。分析数据是把所有搜集到的数据包括在内。
2、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝大部分人的共同特性。用“绝大多数的特性”代表“总体的特性”。
3、不再注重数据之间的“因果性”,而只注重于它们之间的“相关性”。
在《大数据时代》中举了很多实例讲解以上的观点。 1、语言的翻译:
传统翻译软件是设定了很多的语法规则,用这些僵化的规则拆解每个句子,然后再逐字翻译生成不同语文的语句。但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高。业界还盛传一个有关微软公司“机器翻译部门”的一个笑话:部门每有一个语言专家辞职,翻译质量就会提高一些。
谷歌的翻译软件却不是这么做,他们翻译团队的成员大多不但不是语文学家,甚至连翻译成的那种语言都一窍不通。他们都是一些统计学家,从大量的已存的翻译文章中对比,寻求规律,然后产生翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性。也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多!
2、流感的预测
以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”,但是“灾”已成事实了,卫生单位才警告社会,这时已经有很多人被感染。
又是谷歌提出了不同的预测办法。他们是以有多少人搜索“咳嗽怎么办?”或“发烧怎么办?”来警示流感可能发生了。但除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这类问题的答案。于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移。这个
- 2 -
内部资料 注意保密
项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。
3、飞机票价高低和多早预购的关系
也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:farecast.com,输入你的出发地和目的地,加上你要出发的时间,马上这个网页能告诉你是现在就赶快买票还是再等几天才买。
- 3 -
内部资料 注意保密
2.大数据平台介绍
由于互联网TO B的数据不外露,在网上的大数据
2.1. 背景定位
2.1.1. 产品概述
2.2. 功能 2.3. 设计 2.4. 总结
- 4 -
内部资料 注意保密
3.环境数据中心
3.1. 背景定位
环境管理部门每天要面对大量的数据,如环境监测数据、排污收费数据、排污申报数据、环境统计数据、环保信访数据、行政处罚数据、总量减排数据等。这些数据,往往存在来源复杂、格式多样、不一致、不准确、不完整、存放分散等问题,给环境管理带来诸多困难。各业务系统也彼此,从而形成了一个个信息孤岛,数据难以共享,环境决策缺乏有效的数据支持,难以做到科学决策。因此,需要建立统一的环境数据中心,全面整合各类环境资源数据,实现数据的集中管理。使之成为环保各业务科室之间协同工作的数据中心,成为多媒体、文档资料和法规的存储中心,成为环保决策所需的数据仓库中心。
3.2. 功能
3.2.1. 数据的管理
数据中心的数据来源主要于:
1. 国家下发的软件系统,如污染源普查软件、环境统计软件; 2.已有的业务系统,如排污申报与收费管理系统、12369环保热线等。 3.Excel表格、电子文档、图片、视频、扫描件等;
4.数据直报系统:系统提供定制的录入界面,用户手工填报。
对于这些来源复杂、格式多样、不一致、不准确、不完整、存放分散的数据进行统一的标准建立,实现信息共享,数据交互
3.2.2.数据的管理
1.文件的上传、修改、删除 2.元数据的编辑
- 5 -
3.2.3. 资源的共享
3.3. 设计
4.总结
内部资料 注意保密
- 6 -
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务