首页 > 热点资讯 >新闻内容

数据脱敏——什么是数据脱敏

2021年06月02日 12:06

一、什么是数据脱敏


数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。

百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

生活中不乏数据脱敏的例子,比如我们最常见的火车票、电商收货人地址都会对敏感信息做处理,甚至女同志较熟悉的美颜、有些视频中的马赛克都属于脱敏。


二、为什么要进行数据脱敏


上面说到,在“涉及客户安全数据或者一些商业性敏感数据的情况下”对数据进行改造,说明我们要进行改造的数据是涉及到用户或者企业数据的安全,进行数据脱敏其实就是对这些数据进行加密,防止泄露。

对于脱敏的程度,一般来说只要处理到无法推断原有的信息,不会造成信息泄露即可,如果修改过多,容易导致丢失数据原有特性。因此,在实际操作中,需要根据实际场景来选择适当的脱敏规则。改姓名,身份证号,地址,手机号,电话号码等几个客户相关字段。

三、如何实现数据脱敏


按照脱敏规则,可以分为可恢复性脱敏和不可恢复性脱敏。可恢复性脱敏就是数据经过脱敏规则的转化后,还再次可以经过某些处理还原出原来的数据,相反,数据经过不可恢复性脱敏之后,将无法还原到原来的样子,可以把二者分别看做可逆加密和不可逆加密。

我们目前遇到的场景是日志脱敏,即在把日志中的密码,甚至姓名、身份证号等信息都进行脱敏处理。

脱敏前:


脱敏后:

如上图,仔细分析会发现,打日志之前,获得脱敏的数据就两个步骤:【拿到要输入的数据(user实体)】→【进行序列化】,所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理,之后正常序列化;第二个方法就是在实体序列化的时候,对要脱敏的字段进行处理。


相关推荐

为什么网站优化在运营中这么重要?

信息化的发展,网络的普及,让我们很多人对网站有了人事,互联网是工具,但找个工具如何发挥作用,如何在互联网众多网站里脱颖而出,是我们的重中之中,这种时候网站优化技术的优势就很大程度上的凸显了出来。网站优化的含含义网站优化是指通过搜索引擎所允许的算法操作,对网站的内容、框架结构、链接架构进行优化,促进网站的排名,以及在首页的展示,吸引用户点击促进排名的进一步提升。网站优化的重要性论点一、互联网时代的到来,大量用户的涌入使得互联网体量变得极度大,有什么不懂就通过搜索引擎来搜索,习惯在互联网上获取信息,而网站优化则是为了让我们的信息在搜索引擎排在前面。二、互联网信息的搭建能够提升一个企业的知名度以及影响力,网站优化则是为了更好的展示自己的正面品牌形象。三、现在的互联网比拼是有效信息,讲究信息的有效性,网站优化就是提升网站内容的有效性、可读性。对于一个网站来说,网站优化的重要性是不言而喻的,很大程度上决定我们企业互联网形象的是我们的网站,而决定网站的是好坏的是优化技术。

2020年03月26日 01:11

如何利用伪原创增加自己网站的原创文章

网站在SEO优化中是大家在日常都会做到的工作,而这里面的工作重点就是写原创文章,但对于没有文字功底的网站工作人员来说,写作便是种笔尖上的噩梦,为了解决这个难题,很多小伙伴便把精力集中在了写伪原创,那么什么才是真正的伪原创呢?百度又是如何评判文章的质量呢?要想弄明白这个道理要知道伪原创的定义,百度百科给的定义是:伪原创是指把篇原创的文章进行再加工,使其让搜索引擎认为是篇原创文章,从而提高网站权重。编辑方法有修改标题的关键词和首尾段落总结两种。既然知道了伪原创的定义,那么下面小编和小伙伴们起来分析下,如何写高质量的伪原创,其实所谓的高质量伪原创是将已经发布的片旧的文章经过我们人为的调整改动,又将其发布于网络,同时又巧妙的躲避百度蜘蛛的检索规则,使其认为是篇原创文章,看到这里,我想小伙伴都应该明白做伪原创的精髓在哪里了,我们要做的内容是如何躲避蜘蛛的层层审核,使其认为是篇原创文章。那么问题来了?这些和伪原创又有什么关系呢?其实其中的原理都是相同的,只不过发展到,其数据演变为云计算,功能更加便捷快速而已,下面给大家说下搜索引擎的爬行原理,以此来指导我们写出更好的伪原创。搜索引擎的排名原理,第步要做的是爬行和抓取,以此完成蜘蛛的数据收集任务,步是蜘蛛的链接跟踪,其中将涉及深度优先法则与广度优先法则,第三步将是根据搜集数据建立地址库。第四步是预处理,很多人将此步骤定义为索引,其实这里有必要说明下,预处理包含众多规则,而索引只是预处理中重要的步骤,下面到了我们本次要说的重要的步骤,也是关系我们是否能成功处理伪原创的问题。预处理第步:文字提取,因为正常的网页中包含大量的标签,JS程序等无法用于排名的东西,所以第步将是把这些无法用于排名的东西统统处理干净,只剩下利于我们排名的文字,当然除了这些标签代码外,搜索引擎也会提取出些特殊的信息代码,例如富媒体替代文字等。部是:中文分词,中文分词是搜索引擎特有的步骤,搜索引擎处理页面及用户搜索都是以词为基础,英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合。而中文词与词之间没有任何分隔符,个句子中的所有字和词都是连在起的。搜索引擎必须首先分辨哪几个字组成个词,哪些字本身是个词。第三步是:去停止词,无论是中文还是英文,语句中总会包含些嗯,得,的,and,or,the等词语,搜索引擎在索引页面之前会去掉这些词语,以减少无畏的计算。第四步是:消除噪声,绝大部分页面上都会包含对搜索排名没有贡献的些词语,这些词语也将统统被搜索引擎所CUT,接下来将是去重,正向索引,倒排索引,链接关系计算,特殊文件处理,后步是:排名。所以看到这里的小伙伴应该明白单纯的将篇原创文章拿来后经过修改标题,然后关键词植入是不会把搜索引擎蒙蔽的,更何况,XX搜索引擎接二连三的算法层出不穷,又增加了对句子,对段落的各种匹配模式,所以又增加了伪原创的难度,并且伪原创问题已经在各类搜索引擎中加入甄别算法,对核心关键词匹配度达到70%的将被认为为伪原创,并对词意进行分析,对词意相似度达到80%的将定义为伪原创。  作为我们这些辛苦的网站工作者,要做的是合理避开这些规则,让我们的伪原创成为真正的原创。让这些原创,真正的让百度收录,将会具有事半功倍的效果。

2020年04月04日 04:11

三家航空公司陆续入驻北京大兴机场

3月29日上午,随着厦门航空一架航班起飞,大兴机场拉开2020年的转场序幕,厦门航空、重庆航空和东海航空三家航空公司多条航线将陆续入驻大兴机场。据悉,从3月29日起,厦门航空计划在大兴机场开通北京至厦门、福州、杭州、泉州、长沙等城市的航线。重庆航空计划在大兴机场开通北京至重庆的航线。东海航空计划在大兴机场开通北京至深圳的航线。根据计划,从3月29日起,多家航空公司将陆续转场入场大兴机场运营。在3月29日、4月12日、4月26日三个时间节点,东航、南航、厦航、重庆航、东海航将分批次把首都机场的时刻平移至大兴机场。受新冠肺炎疫情影响,各航空公司或将对航班计划进行动态调整,旅客出行前需进一步确定乘坐航班是否按计划执行。由于多家航空公司在大兴机场和首都机场两场运营,旅客和接送机的亲友,务必提前确认出发或到达机场,以免误走机场后耽误行程。旅客确认抵离机场可提前通过登录航空公司官网、APP,拨打航空公司、机场、购票机构服务热线、阅读购票成功提示短信等多种方式。同时,大兴机场为误走旅客制定了人性化服务措施。旅客凭身份证、机票在大兴机场航空公司票务柜台、机场大使问询柜台、机场大巴售票柜台等处领取“误走旅客识别标签”,凭此标签就可以获得“绿色通道”服务,包括优先搭乘交通工具,优先值机、过检,免费乘坐电瓶车等服务。目前,各航空公司针对误走机场旅客均有相应的机票退、改签优惠政策,具体可咨询所乘航司票务服务人员。大兴机场和首都机场值机、安检等关键服务岗位员工会在旅客寻求帮助后,提供协助值机、优先过检、快速转运等服务。(记者李博潘福达)

2020年04月15日 13:26