Privacidade diferencial e anonimização

Artigos

Privacidade diferencial e anonimização

Um conjunto de dados anonimizados ainda é passível de apresentar riscos para a privacidade dos titulares

Marison Gomes Segunda-feira , 16 de Setembro de 2019

A privacidade diferencial é um tipo de técnica que tem como objetivo anonimizar dados pessoais ao adicionar ruídos no conjunto de dados de modo que possa-se gerar informações úteis com o conjunto ao mesmo tempo em que inibe a identificação do titular do dado.

Vamos imaginar um cenário onde é necessário obter dados como o consumo de drogas de determinado conjunto de pessoas. Esse tipo de coleta se feito sem uma técnica que garanta a privacidade e anonimização do titular pode gerar uma informação com um percentual de erro muito alto pois os indivíduos trazem consigo o medo da represália, preconceito, discriminação ou mesmo vazamento das informações. Ao utilizar uma técnica como essa podemos oferecer a possibilidade de respostas fielmente anônimas ao adicionar um ruído matemático na resposta de modo que seja impossível determinar qual foi a resposta de uma pessoa, mesmo que ela seja identificável.

Importante compreender que tanto a GDPR (General Data Protection Regulation) que regulamenta o tratamento de dados pessoais na união européia quanto a LGPD (Lei Geral de Proteção de Dados Pessoais) que rege o tratamento de dados pessoais no Brasil, interpretaram como válida a teoria expansionista onde o dado pessoal pode ser um conjunto de dados que combinados podem vir a identificar uma pessoa.

Algumas grandes empresas como Google e Apple já utilizam essa técnica para assegurar a privacidade para os usuários, sendo que o Google tornou ainda mais transparente esse processo ao abrir para a comunidade de desenvolvimento de software a sua biblioteca de privacidade diferencial que você pode encontrar aqui.

Linkage Attacks

Nesse contexto a privacidade diferencial pode ajudar a garantir o direito à privacidade ao servir de defesa contra ataques conhecidos como "Linkage Attack". Basicamente, sem entrar em detalhes mais técnicos de cibersegurança, esse tipo de ataque consiste em conseguir identificar um indivíduo ao linkar (reunir) vários conjuntos de dados que teoricamente estariam classificados como anonimizados mas que tem a capacidade de reunidos tornar uma pessoa identificável, ou, de-anonimização.

Por exemplo:

Repositório 1: Banco de dados público do governo que, de acordo com a lei de transparência, deve exibir os gastos públicos incluindo salário, nome e cargo.

Repositório 2: Fórum da internet onde o titular se apresenta com seu nome e posta produtos para venda, com dados geográficos, incluindo CEP.

Repositório 3: Redes sociais, sejam públicas ou com dados capturados através de pesquisas, jogos para classificação da personalidade do indivíduo, entre outros.

Cenário: Um hospital pretende realizar uma pesquisa para classificar as doenças mais comuns por atividade profissional por região. O pesquisador anonimiza os dados que identificam diretamente os titulares e mantém o CEP e Profissão para cumprir o objetivo de classificação por atividade profissional e região.

Em um ataque de combinação de repositórios o vazamento pode acontecer ao utilizar o CEP e a Profissão para, somando dados obtidos nos três repositórios anteriores, saber com precisão quem é a pessoa e com isso dados sensíveis de saúde. Ou seja, mesmo bases de dados anonimizadas, se públicas ou vazadas, podem tornar o indivíduo identificável e gerar riscos para a privacidade. Além disso, algoritmos de ataque desse tipo não trabalham com apenas algumas bases de dados mas com milhares de modo que eles conseguem identificar o percentual de que um conjunto de dados anonimizados seja de uma determinada pessoa com muita precisão.

Parece improvável?

A Netflix divulgou dados anonimizados de avaliação dos seus filmes de 500 mil clientes em 2007 para fins de pesquisa. Através da combinação de dados do IMDB , pesquisadores conseguiram identificar muitos titulares
Nos EUA pesquisadores da Universidade de Stanford detectaram que utilizando dados do censo de 1990 eles conseguiram identificar 87% da população norte-americana apenas usando o CEP (zip code), Gênero e Data de nascimento
Em 2006 a AOL divulgou um banco com 20 milhões de pesquisas no seu site e substituíram o nome do usuário que fez a pesquisa por um identificador numérico. Repórteres do New York times detectaram que as pessoas pesquisavam, além pelo seu próprio nome, mas por vários dados que tornaram possível saber quem é a pessoa. Depois de 3 anos de análises eles identificaram por exemplo que o id 4417749 era de uma pessoa chamada Thelma Arnold, mulher de 62 anos que vive em Lilburn, Georgia, além de aspectos da sua personalidade a partir do que ela buscava.

Generalização de dados

Além da privacidade diferencial existem diversas técnicas que podem auxiliar na busca por uma anonimização realmente eficiente como a permuta, a agregação, o k-anonimato, a l-diversidade e a t-proximidade. Vamos falar um pouquinho sobre o k-anonimato.

O grande problema da privacidade diferencial é que ela é eficaz em conjuntos de dados realmente grandes, caso contrário o ruído pode gerar informações imprecisas em um banco de dados pequeno.

Para bancos de dados menores uma técnica de generalização de dados pode servir de apoio para se atingir o que conhecemos como "k-anonimato". Imagine que "k" seja um número ideal onde, dentro do seu contexto, seja impossível inferir a identificação de alguém caso exista "k" indivíduos com os mesmos dados.

Por exemplo, se você precisa gerar uma base de dados anonimizada mas manter um conjunto com o "Gênero", "Cidade" e "Bairro", quantas pessoas são necessárias que tenham a mesma combinação de gênero+cidade+bairro para se acabar com o risco de identificar alguém pela combinação de dados? Essa resposta é o "k". Quanto maior for o "k" maior é a segurança de que será inviável saber que é o titular.

Deve-se buscar, antes de anonimizar bases de dados que contenham dados pessoais, responder essas três perguntas:

Ainda é possível identificar uma pessoa?
Ainda é possível fazer uma ligação entre os registros para identificar uma pessoa?
É possível inferir informações de uma pessoa?

Se por um lado a anonimização e suas técnicas de re-identificação são assuntos de constantes pesquisas, por outro lado até os dados anonimizados, como estatísticas, podem ser usados para fazer o enriquecimento de perfis de titulares dos dados, gerando novas questões relacionadas à proteção dos dados.

Por fim, os responsáveis pelo tratamento dos dados pessoais devem levar em consideração que um conjunto de dados anonimizados ainda é passível de apresentar riscos para a privacidade dos titulares dos dados sendo que qualquer técnica antes de aplicada deve ser avaliada com critério.

Referências:

Barbaro, Michael & Zeller, Tom. (2006). A Face is exposed for AOL searcher no. 4417749. New York Times.

Khaled El Emam. (2013). Guide to the De-Identification of Personal Health Information

Brito, Felipe T., and Javam C. Machado. "Preservação de Privacidade de Dados: Fundamentos, Técnicas e Aplicações."

Marison Gomes

Marison Gomes Diretor/Presidente da empresa Sócio-fundador da Privacy Tools, Maven Inventing e Trubr, engenheiro de software e arquiteto de soluções corporativas. Certificado em Blockchain for Business pela Linux Foundation e em Data Protection pela Exin (PDPF). Lidera projetos de tecnologia no Brasil e Europa tanto no mercado corporativo quanto governo. Atualmente apoia o núcleo III do Instituto iColab, é instrutor de GDPR/LGPD em cursos e certificações e tem como preferência atuação com plataformas de Blockchain permissionada como Hyperledger.