问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

调查数据隐私保护:去识别化处理方法指南

创作时间:
作者:
@小白创作中心

调查数据隐私保护:去识别化处理方法指南

引用
1
来源
1.
https://srda.sinica.edu.tw/news/eb451ac9-69d7-4a62-96ed-1359f7a4cae8

调查数据的隐私保护是现代社会科学研究所必须面对的重要课题。随着《个人资料保护法》的实施和IRB(机构审查委员会)制度的推广,如何妥善处理调查数据中的隐私信息,既保护受访者的隐私权益,又不影响数据的学术价值,成为研究者和数据管理者必须面对的挑战。本文将介绍调查数据中可能涉及的隐私信息类型,以及如何对这些数据进行去识别化处理,以保护受访者的隐私。

调查访问是研究现代社会现象的重要方法,也是制定政策或解决问题的重要参考。调查数据除了以研究主题为核心所收集的数据外,多少也会涉及受访者的个人资料,例如:姓名、生日、婚姻状况、种族、信仰、职业或是收入等。目前我国已有《个人资料保护法》规范个人资料的“隐私权保护”及“合理利用”。近年来,人文社会科学研究领域也开始推行IRB(Institutional Review Boards)审查,主要确保受访者知情同意,以及研究者不会逾越研究范围和善尽资料的保密等。因此,隐私的保护与资料的保存已是从事调查研究所应正视的课题。学术调查研究资料库(Survey Research Data Archive,简称SRDA)为妥善保管及释出之调查资料无披露受访者隐私资料之风险,会针对所保存的调查资料进行资料评估与相对应处理。本文将介绍调查资料如何评估以及有哪些处理方式,供研究者或资料管理者善尽资料保密责任之参考。

资料评估

首先,先了解调查资料的基本信息,像是调查的最小单位是个人、家户或是机构单位,调查是采用抽样调查或是普查,以及成功完访的样本数。再检视调查资料的内容是否包含隐私资料,并考量这些资料是否具有潜在的研究价值。观察内容包含:

(一)直接可识别个别单位的信息
变量能明确指出特定个别单位。例如:姓名、证照及牌照号码(如身份证号码、牌照号码或护照号码等)、联络个人所在地的信息(如电话号码、电子邮件地址、IP地址、通讯地址等),及机构名称和统一编号等独一无二的信息。

(二)间接可识别个别单位的信息

  1. 连续变量
    数值变量本身不会直接指出特定之个别单位,但因所提供的信息较细致,再伴随其他变量信息就可能指出特定的个别单位。例如:身高、体重或收入等。
  2. 文字变量
    变量的文字内容可能会直接指出特定之个别单位,或是针对受访者做过于详细的描述,再伴随其他变量信息就可能指出特定的个别单位。这些变量如学校系所或行职业等过于详尽的文字描述。

(三)详细的地理信息
地理信息变量(村里和门号等)与其他受访资料,如工作性质、教育程度和收入等比对后,辨识出特定之个别单位的风险将增高。例如:地理信息层级小于(含)村里、文字叙述提及特定位置或机构(如重要地标,像是某捷运站或百货公司)等。

(四)样本特性明确
样本来源为单一学校/机构、或某一个特定、相对小而明确的团体。例如:样本母体是特定身份,像是职棒球员、原住民族或受刑人等。

(五)可能与外部资料串连
透过外部资料的取得与串连,会增加辨识出特定个人或单位的风险。例如资料档中虽未提供特定学校名称,但经由其他变量(如学校规模、学生数或学校位置等)与外部资料(如教育部统计资料)的串连,可能会有识别特定学校之风险。

处理方式

经过资料内容的评估后,对于高低风险的资料可进行相对应的处理,以降低识别特定个别单位之风险。一般常用的方法有:

(一)直接删除(remove)
资料若具高风险,在最小蒐集原则下,最直接的方式是从未资料档中移除。如图1所示,原始资料中存有受访者的姓名和电话等隐私资料,若无进一步研究需求,应直接将这些资料删除。


图1、删除隐私资料示意

(二)严格控管
原始可识别特定个别单位的资料,将其留存有助于日后串连档案,进行追踪性的研究之用,应将这些可直接辨识之资料妥善控管,例如:权限控管或密码管制等,必要时再授权取出串连。
处理上可将原始资料分割成两个资料集,资料集间仅须保留样本编号,如图2左下为问卷资料,右下为受访者隐私资料。前者可用於一般传输使用,而后者则是须严格控管,必要使用时再透过样本编号合併两个资料集。


图2、分割隐私资料示意

(三)重新分组/编码(sub-group / top-recoding)

  1. 重新分组
    当连续变量的数值过于敏感时,可采用重新分组的方式整理资料。例如:若年龄为一连续变量,可将其分成数个组别,降低它与其他信息相参照后,特定个人或单位被辨识的风险;但须注意分组不宜过于粗略,使原始资料所蕴藏的信息不致因而消失殆尽。
    图3左边为一18岁到69岁年龄信息的连续变量,右边是重新分组(10岁为一组)后的次数分配结果,最小一组是18-29岁(由于18和19岁样本数过少,范例是将18-19岁组与20-29岁组合并为18-29岁组),最大一组是60岁以上,共分成五组。分组后,各组年龄所占百分比就会升高,可降低年龄信息的敏感性。


图3、重新分组资料示意

  1. 重新编码
    若连续变量的敏感性不高,但其极大或极小值占整笔样本的百分比过小,容易有泄漏受访者身份的风险,因此可将这类连续变量重新编码,归类至邻近的数值。极端值的认定,可由次数分配结果观察,重新编码后的极大/极小值比例参考美国人口普查局的规则,建议至少需占总样本数的0.5%。
    例如图4左边为受访者体重信息的连续变量,可得知20到29公斤的样本数不多,所占总样本数的百分比也都在0.5%以下,编码上可将20到29公斤的样本与30公斤的样本结合成一组「30公斤(含)以下」的组别,从图4右边可看出,重新编码后的百分比可提高到2.16%。


图4、重新编码资料示意

(四)移除明显文字叙述
若资料中的文字信息对于研究无特殊价值,但由於记載过於详尽且具敏感性,应移除名称等文字叙述。如图5所示,原始资料的文字叙述过於特定或敏感,对于研究分析并无特殊意义,应将特定工作单位的名称移除,仅保留在什麼行业上班即可。


图5、移除明显文字叙述示意

(五)合併/转換变项(combining variable / collapsing variable)

  1. 合併变项
    过细的资料可能会透露过於详尽信息,为了降低敏感性,可将两个或以上之细项变项合併为一个加总变项(summary variable)。例如图6将家户中某类支出的各细项金额,加总成为此类支出总金额后,再行释出。


图6、合併变项示意

  1. 整併变项
    某些文字型变项虽然不适合释出原始信息,但依照特性或属性经过分类后,仍具有研究的价値与意义,則可针对这类变项进行转換处理。例如图7将学校名称转換为新增变项后取代,新增变项保留其特定信息,如公立/私立、普通/技职等;或是将系所信息转換成领域、学门。


图7、整併变项示意

(六)分类编码(coding)
针对行业或职业的文字型变项,可采用行职业标准分类代码(如主计总处版),来进行分类编码的工作(不释出文字变项),既可保留分析价值,又不至于暴露风险。
如图8的范例将原始文字变项中的中华电信、邮政和大学等信息,依行职业标准分类代码编码成(610)电信业、(540)邮政及快递业和(850)教育服务业。


图8、分类编码示意

(七)虚拟或匿名化
若村里资料有保留的必要性,可利用虚拟编号来降低辨识的风险。如图9将原始料的村里代碼,透过自订的公式重新编码(recode),将代号编码成另一组虚拟村里代号,如此可用於分类和分析但卻無法得知是那一村里。目前SRDA释出的资料档,除限制性资料外,在地理信息方面仅提供到乡镇市区的等级。
另外,特别提醒若样本编号中包含乡镇市区的信息,而样本编号又有保留的必要性,也需利用虚拟编号建立新的样本编号。


图9、虚拟编号示意

其他处理机制

除了运用上述的处理方式来降低资料被辨识的风险外,国内外政府机构在整理或释出特别敏感的资料时,另有数种处理方式。不过,由於这些方式会影响样本数或变更原资料内容,所以需要进行一些统计上的确认,以免影响分析结果,一般用在样本数很大或是普查资料上。

(一)取样(sampling)
当样本人数占母群体总人数的比例很高(甚至普查)时,样本被辨识的风险就会提高。若资料的样本数非常大,可从原始资料中抽取足以提供合理推论的样本大小,代替释出所有的原始资料。例如:SRDA释出的「台湾教育长期追蹤资料库」(Taiwan Education Panel Survey,简称TEPS)公共版,是從实际受訪样本中隨机抽取70%的样本资料作为释出档案,只要具网络会员身份即可直接下载。

(二)扰乱(disturbing)
当变项的原始数值可能会透露敏感信息时,可考虑增加变项的随机变异或随机误差,降低资料被识別的风险。如同一群体的样本有相同的权数,可将权数加上微小的随机数值,可解决同一群体样本因权数一样导致被辨识风险,且不至於影响分析。例如:TEPS的學生资料因同一班級有相同的权数,为使學生的班級身份不被辨識,已将學生权数加上微小的随机数值,降低同一班學生权数都一样的被辨識风险。

(三)置換(swapping)
当某些样本的特定变项数值,容易洩漏样本的個人資訊,則可针对那些可被间接识別出的样本,置換其重要变项之数值或将其换成特定範围的数值。一种方式是纪录置換(record swapping),就是将敏感变项之数值调换(如两个家户样本位在不同地理区,都只住1人,除了收入之外,其他个人背景资料都一样,可将两个家户资料置換);另一种方式为等级置換(rank swapping),也就是将某些级距内的资料,其一小部分换成特定範围的数值(如级距之平均值,适用於连续变项)。由於这两种方式都会变更原资料内容,实务上SRDA并未使用过。

随着个资法修法通过后,个人资料保护的议题不断被提及,调查资料的个人隐私保护已是研究者所必须肩負的责任,一旦处理不当,可能会有民事、刑事和行政责任。希望透过本文的介绍,能协助研究者妥善保管自己所掌管的调查资料,以保障受訪者的权利。当然,若整个计划礙於人力、物力或财力无法对调查资料有效管理,亦可选择寄存在SRDA平台上进行系统化管理,以增進资料再次使用的效益。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号