数据匿名化方法概览
姓名
1 泛化编码 仅保留姓,其余用某某替代,比如“张三”用“张某某”替代,“李小明”用“李某某”替代。 2 抑制屏蔽 删除姓名,用*号替代,比如“张三”用“**”替代,“李小明”用“***”替代。 3 随机替代 使用随机生成的汉字替代,比如“趁狩猎”替代“张三丰”。 4 假名化 使用假名进行替代,常见于匿名社区,比如“逍遥子”替代“张勇”。 5 可逆编码 采用密码技术,将姓名转换为字符,比如“xhs73sjd9hd9”替代“张三丰”。
身份证号
1 抑制屏蔽 直接删除身份证号,用“*”来表示,比如 ********************* 2 部分屏蔽 屏蔽身份证号中的一部分,以保护个人信息,比如“440524188001010014”可以使用“440524******0014”(适合保密出生日期的场景),“440524188*******0014”(适合按年代进行统计的场景) 3 可逆编码 采用密码技术,将身份证号转换为字符,比如“xhs73sjd9hd9“替代身份证号。 4 数据合成 随机产生符合身份证号编码规则的新身份证号代替原始值。
银行卡号
1 抑制屏蔽 删除银行卡号,用“*”来表示,比如 ***************** 2 部分屏蔽 屏蔽银行卡号中的一部分,以保护卡号信息,如屏蔽发卡机构标识代码和自定义位。 3 可逆编码 采用密码技术,将银行卡转换为字符,比如“xhs73sjd9hd9“替代银行卡号。 4 数据合成 随机产生符合银行卡号编码规则的新银行卡号代替原始值。
地址
1 泛化编码 使用概括抽象的符号来表示,比如“江西省吉安市安福县福隆街道1999号锦荣小区2栋1120号”,替换为“江西省吉安市安福县某小区”,仅保留统计所需要的省、市、县,具体的住址用某小区替代。 2 抑制屏蔽 直接删除用“*”来表示,比如所有地址都用“*****************” 3 部分屏蔽 屏蔽地址中的一部分,用来保护地址信息,比如使用“江西省**市**县”来替代“江西省吉安市安福县” 4 数据合成 采用重新产生的数据替代原来的地址,比如使用“黑龙江省鸡西市特铁县北京路23号”替代“江西省吉安市安福县福隆街道1999号”
电话号
1 抑制屏蔽 直接删除电话号,都用“*”来表示,比如所有电话都用“*****************” 2 部分屏蔽 屏蔽电话号码中的一部分,如“19288886666”可以使用“192********”“192****6666”或“*******6666”替代 3 随机替代 使用随机生成的一串数字来表示,如使用随机生成的“82965778501”来取代“19288886666” 4 可逆编码 采用密码技术,将电话号转换为字符,比如“xhs73sjd9hd9“替代电话号。
数值型标识符
年龄、成绩、薪资等数字也属于敏感信息,这种数值型的去标识化包括: 1 泛化编码 使用概括、抽象的 2 抑制屏蔽 都用“*”来表示 3 顶层和底层编码 使用区间段替换具体的数值,比如73岁处理为75后,薪资38766处理为3w~4w; 4 部分屏蔽 比如176替换为1**,734629替换为7***** 5 记录交换 如设定规则,将记录集中的所有数值取出并打乱位置后放回数据集中,这种方法可以保持数据集的统计特性不变。 6 噪声添加 相对原始数据,产生微小的随机数,将其加到原始数值上并代替原始数值。比如身高1.72,产生随机数-0.11,加到原数值后将其变为1.61 7 数据合成 随机产生新的数据替换原来的数据,比如19岁替代原来的45岁。
日期
1 泛化编码 使用概括,抽象的日期来表示,比如使用1880年替换“1880年1月1日” 2 抑制屏蔽 都使用*代替,或者使用“某年某月”代替 3 部分屏蔽 对日期中一部分进行屏蔽,比如使用“1880年1月*日”替换“1880年1月1日” 4 记录交换 如设定规则,将记录集中的所有数值取出并打乱位置后放回数据集中,这种方法可以保持数据集的统计特性不变。 5 噪声添加 相对原始数据,产生微小的随机数,将其加到原始数值上并代替原始数值。比如出生日期1980年1月1日,产生随机数值32天,加到原始数值后变为1980年2月2日。 6 数据合成 随机产生新的数据替换原来的数据,比如使用“1972年8月12日”替换“1980年1月1日”
地理位置
此处主要指地图坐标,比如(39.1827938, -77.2869372) 在一个个体的位置信息被持续记录的情况下,对于地理数据信息的去标识化将会尤其有挑战性。 1 噪声添加 相对原始数据,产生微小的随机数,将其加到原始数值上并代替原始数值。生成一个新的位置信息。 2 数据合成 随机产生新的数据替换原来的数据。 3 可逆编码 采用密码技术,将位置信息转换为字符,比如“xhs73sjd9hd9“替代地图坐标。
最后更新于