비식별 기술이란 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 다른 값으로 대처하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술
1. 데이터 마스킹
- 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
예: 홍길동, 20세, 궁미도 거주, 율도대
-> 홍 * * , 20세, 궁미도 거주, * * 대
2. 가명처리
- 개인 식별에 중요한 데이터를 식별할 수 있는 다른 값으로 변경하는 기술
- 다른 값으로 대체 시 일정한 규칙이 노출되지 않도록 주의해야 함
→ 난수화[Random number] : 규칙적이지 않게 나열되어 예측이 불가능한 숫자
에: 홍길동, 20세, 궁미도 거주, 율도대 재학
-> 홍길동, 20세, 궁미도 거주, 국내대 재학
3. 총계처리
- 데이터 총계 합을 보냄으로써 개인 데이터의 값이 보이지 않도록 하는 기술
- 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인정보 공개와 동일한 결과를 초래하므로 주의
예: 홍길동 180cm, 형길현 170cm, 부홍문 170cm, 모춘섬 160cm
->홍길동 등장인물들의 키 합 : 680cm 평균 키 : 170cm
4. 데이터 값 삭제
- 데이터공유, 개방목적에 따라 데이터셋에 구성된 값 중에 필요없는 값 또는 개인식별에 중요한 값을 삭제
- 날짜와 관련된 개인 정보[자격취득일자, 출생일 등]는 연단위로 처리
예: 홍길동, 20세, 궁미도 거주, 율도대 재학
-> 20세, 궁미도 거주
5. 데이터 범주화
- 데이터 값을 범주의 값으로 변환하여 값을 숨김
범주 : 동일한 성질을 가진 부류나 범위
예: 홍길동, 20세
-> 홍씨 , 20~29세
반응형
'ADP(데이터분석 전문가) > 스터디노트' 카테고리의 다른 글
[2과목] ETL 개요 (0) | 2021.02.01 |
---|---|
[1과목] 빅데이터의 위기요인 (0) | 2021.02.01 |
[1과목] 데이터의 이해 - 용어 정리 (0) | 2021.01.31 |
[1과목] 빅데이터의 이해 (0) | 2021.01.31 |
[1과목] 데이터베이스(database) (0) | 2021.01.24 |