2017年・第3期 编辑粱丽霎E—mail_liven 01@163 COIT Resea rch l信息安全 基于大数据的安全技 ■中国人民银行张家界市中心支行谭正云 冰 摘 要:随着大数据技术的不断发展和应用,许多传统的信息安全技术受到了挑战,金融领域也不例外。事实 上,大数据本身就是解决诸多安全问题的一个重要工具,面对挑战,基于大数据的全新安全手段开始出现并得到发 展。本文就基于大数据的安全技术展开探讨,阐述了基于Hadoop的大数据安全架构、基于大数据的威胁发现技术 以及基于大数据真实性分析等技术要点,并提出只有在完整的安全体系指导下,金融信息安全建设所需的人财物等 才能整合并发挥最佳效力。 关键词:大数据;安全技术:Hadoop;身份认证:K—means算法 一.引言 随着信息技术的发展,金融机构通过自己的网络 和应用系统收集了大量用户信息,产生海量数据,金 融机构可以基于这些数据挖掘出更有价值的信息, 提高客户服务水平和经营管理水平。海量数据在采 集、传输、存储和分析挖掘的过程中都会涉及信息安 全问题。而大数据的“4V!C”特征,也使得大数据在 安全技术、管理等方面面临新的安全威胁与挑战, “4VIC”特征如图I所示。 大数据在金融领域的实际应用存在诸多信息安 全问题,值得业界思考。由于大数据技术本身就可以 提供新的安全技术手段来解决安全问题,下面就对5 类基于大数据的安全技术展开探讨。 图I大数据4VIC特征 作者简介:谭正云(1969一), 男,湖南张家界人,工程师。 收稿日期:2017一O1—17 本文仅代表作者个人观点, 不代表作者所在单位意见。 垃 科投峙,弋I 55 2017年-第3期 栏目编辑梁丽雯E—mai ̄:liven—O1@1 63 corn 二 基于大数据的安全技术 (一)基THadoop的大数据安全架构 Hadoop是一种分布式的数据和计算框架,已成 为全球范围内大数据应用最为广泛的技术架构,在 金融业也被大量采用。 当前,金融领域和学术领域都大量采用Hadoop 平台开展云计算大数据的应用研究。在不破坏大数 据集群的基本功能及大数据本身必要特点的前提 下,笔者先就此架构的安全问题及隐患进行分析,并 给出相应的安全解决建议。 图2 HDFS架构 在分布式数据中,验证异构平台之间的安全和 一致性是非常困难的,各个数据结点的安全性、结点 中。对于集群中的恶意节点和应用程序,它可以验证 判别并及时阻断,从而保护管理通道不被攻击。 二是对于恶意客户端发起的获取文件请求,可 以通过使用文件层加密对数据进行保护。因为文件 是不可读的磁盘映像,不容易被恶意访问,同时,文 之间的整体性和一致性是大数据分布式计算的一个 痛点。而与传统集中式数据安全模型不同,存储的数 据在集群内部流动,一个数据可能存在多个拷贝,它 们在多个节点间移动来确保冗余,这种机制导致数 据很难及时、准确地定位存储位置,也无法获知数 据备份个数,加大了副本安全保护机制设计上的难 度。在访问数据时,一般提供的访问控制最细粒度为 schema级别,虽然在大数据环境中还有安全标签和 其他高级属性可以借鉴,但这需要在应用和数据存 储的设计建立时就考虑进去。Hadoop和大部分的组 件没有建立起安全的通信机制,因为它们使用基于 件层加密还可以提供一致的安全保护,目前市面上已 经有产品能做到内存加密保护,进一步提高了文件安 全性。 三是运用密钥管理服务来管理大数据密钥和证 书,通过该服务,为不同的应用程序和用户组分发不 同密钥,确保文件被有效加密。 四是在节点之间、节点与应用程序之间使用SSL TCP/IP(传输控制协议)的RPC(远程过程调用协 议),并没有嵌入TSL(安全传输层协议)和SSL等安 全机制。另外,客户端可以直接与资源管理者及节点 进行交互,增加了恶意代码或链接发送的概率,也难 或TLs组件实现安全通信,设计、集成有效的安全通 信机制和现成组件。 (二)基于大数据的威胁发现技术 借助大数据挖掘分析技术,金融机构可以主动 发现威胁,从而超越传统的PDDR(保护、检测、响 以保证客户端免受数据节点的攻击。这些都是基于 HDFS架构的大数据环境的安全隐忧。HDFS架构如 图2所示。 应、恢复)模式:比如众所周知的棱镜计划,如果换 一个角度来理解,它就是运用大数据的挖掘分析主 基于Hadoop的大数据架构,其安全机制可以通 过以下4种方法和技术得以保证。 一动发现威胁的成功案例:事先收集全球各地的海量 数据,并整合、挖掘、分析,从而发现可能对当局造 成威胁的因素,并在这些威胁尚未浮出水面时及时 处理和解决。 是使用Kerberos进行节点验证。Kerberos是最有 效的安全控制措施之一,可以集成 ̄IjHadoop基础设施 56 I佐 H救咕 2017年・第3期 }“日编辑笫 #E—mail:liven 01@163 corn Researchl信息安全 大数据分析技术也为对抗APT(高级持续性威 胁)攻m提供了新的解决手段。APT具有隐蔽能力强、 综合分析能有效提升真假信息甄别水平。例如,对于 用户的银行卡消费行为,可以通过用户画像,来分析 客户特征,为鉴别其各种行为的真实性提供参考和 依据,如图4所示。 针对性强、攻击手段多、攻击范 广 和防范难度高等 特点,技术高级,威胁性也大,如匿13所示。 另一方面,引入人工智能的机器学习技术,建立 和优化模型,可以进一步提升真假信息的鉴别能力, 并随着机器学习和算法模型的进化而不断优化,甚 至有可能超过人工鉴别能力。大数据时代的到来,定 然会有更多更新、更丰富的安全技术应运而生。金融 机构不可能置身事外,但金融机构的数据涉及保密 问题,安全措施不能完全依赖外界,必须结合自己的 技术特点,依托金融自身收集的大量数据,开展数据 分析、建模,来提高信息甄别能力和安全管理水平。 图3 APT特征 按照目前的趋势,将来大数据服务作为底层的技术 基础,可帮助各金融机构搭建或定带JJ自己专属的信息 安全服务体系,提升金融领域的信息安全水平。 为J,心对APT攻击,日前已经有沙箱方案、异常 检测、全流量审计、深层协议解析异常识别、攻击溯 源等方案 APT的潜伏期可能很长,因此,金融机构 T以设定・定的时间,并对这个时期的数据进行挖掘 (P1])基于大数据的身份认证技术 身份认证是金融业不可回避的问题,不论是对 金融客户的身份识别,还是金融机构内部授权管理, 分析,从 发现蛛丝马迹,找到攻 源并化解。 (『|)摅于大数据真实性分析技术 都会涉及该问题。金融业传统的身份认证技术主要通 过口令和数字证书等硬件来实现,但这个看似严密的 前, 术界和金融界普遍认为,引人大数据技 术的真实性分析是最为有效的方法,基于大量数据 分期偏好 消费偏好 身份认证体系其实也面临着安全问题。一是对于用户 一j霸 聃躺1 1JIl 性别、 职业、 学历、 、、金融 体育 八卦 、——◆ 消费频率 消费地点 消费金额 分期类型 分期金额 基于大数据的客户画像算法 持卡人客户全景画像 图4基于大数据的持卡人画像 纠拉时 J 57 Resea rchl信息安全 而言,攻击者总是能够找到方法来骗取本只有用户才 知道的信息,比如密码口令和手机动态验证码,或者 通过木马等方式直接截取用户的隐私信息,从而通过 认证,展开攻击。 二是对于硬件安全而言,虽然增加了安全性,但 也加重了用户负担(例如携带硬件USB Key),甚至当 用户忘记携带相关硬件时,自身都无法通过验证,降 低了便利性。即使是近年兴起的生物认证技术也存在 部分缺陷,如生物信息(如指纹、掌纹等)被盗取后, 客户无法修改自身信息,面临后续威胁。且生物识别 的准确性也存在问题,如人脸识别随着年龄的增长而 变化.指纹识别因手指受伤或划痕而无法通过验证, 声音识别因咽喉嘶哑而不被系统认可等,而大数据可 以提供多维度的身份识别,将用户的多种生物特征进 行比对,同时结合用户的行为特征,提高身份识别准 确性。 面对种种问题,金融机构只有在身份认证中引 入大数据综合分析才能够有效地解决。综合分析用 户行为特征、生物特征和设备特征来判定用户身份, 如此一来,对攻击者而言,需要掌握用户方方面面的 信息才能展开有效攻击,大大增加了攻击难度;对合 法用户而言,则大大降低了认证失败的概率。这在提 升身份认证的安全性,同时又保证用户身份认证的便 利性。 (五)基于大数据的安全规则挖掘技术 在互联网中,为保证网络安全,金融机构会引入 防火墙技术和入侵检测技术等。这些技术通常是通过 建立一套安全规则或过滤规则达到其安全目标的,而 建立这些规则的传统方法是通过专家知识系统,引入 大数据技术后,安全规则可以通过数据挖掘等技术来 探索、求证、使用。 在众多的挖掘算法中,聚类分析是一项应用较为 广泛的技术,该算法把数据按照一定规则来实施分 组。聚类算法的好坏判定标准主要在于组内相似性要 58 l垃 抬螬,弋 2017年・第3期 栏目编辑粱丽雯E mail:liven一01@163 corn 高,组间差异性要大。在聚类算法中,K-means算法在 金融等行业被广泛采用。但是该算法并非十全十美。 依然存在一些缺陷,仍在逐步改进中。 一是K-means算法所涉及的两个关键要素:聚类 数K和初始质心集,都需要人为选取,而这两个要素选 取的标准,对该算法得出结果的质量有很大影响。对 此,Stephen C.H.等人提出了改进算法,他们摈弃了人 为选取初始条件的做法,改用基于密度的自动聚类, 从而提升了K-means算法结果的质量,降低了K-means 算法对初始条件和人为选取的过度依赖。 二是K—means算法仅适用于数据项全是数字的 情况。这在很大程度上限制了K-mean s算法的应用 范围。针对该问题,在借鉴K-means算法框架的基础 上,GENGeng I.K.提出了一种新的密度聚类算法,采 用预抽样的方法将算法时间复杂度控制为线性,同 时通过引入次质心的概念,解决聚类失效问题。分析 表明,该算法能很好地克 ̄K-mean s算法的初始条 件敏感性和一般密度聚类算法的聚类失效问题,实 现较为理想的聚类结果。 三.结束语 信息安全,三分靠技术,七分靠管理。随着大数据 的快速发展和在金融行业的规模应用,新形势下的信 息安全也面临诸多新挑战,在大数据产业链的各个环 节,安全问题无处不在。而大数据本身就能提供新的安 全手段,只有在正确完整的安全体系指导下, 息安全 建设所需的人财物才能有机整合,提升金融业信息安 全水平,也为大数据的发展和应用保驾护航。皿 参考文献: [1]林晓牟干.大数据时代下的信息安全治理[J].中国 信息安全,2015(5):51-52. [2]周洗“大数据”时代背景下计算机信息处理技术 的分析[J].信息与电脑,2015(12):48—49.