Geleia de Menta

Blog/newsletter sobre tecnologia com perspectiva humana

Mais uma publicação em defesa do aprendizado federado

Última atualização em:

Para quem não liga o nome à coisa, Federated Learning no contexto do Google significa exatamente o Floc que foi barrado por todos os outros navegadores sob o argumento da privacidade. Ainda não falei especificamente sobre este assunto mas futuramente escreverei na parte do blog de forma mais detalhada como funciona… só não sei quando…

Acho realmente curioso como tudo envolta do assunto cita privacidade, algo que também é o foco do artigo publicado ontem à noite no blog da Google, quando o motivo real de sua adoção por parte de empresas quanto a negação de seu uso por parte softwares/produtos de outras empresas nada tem a ver com privacidade. De um lado temos um meio de fazer uma gigantesca economia de banco de dados e hardware, o que significa também precisar de menos funcionários e menos chances de uma falha paralisar alguma atividade; e por outro lado nós temos uma decisão acima de tudo política de barrar o avanço de uma big tech que já tem poder demais sobre todos os navegadores (incluindo a Mozilla, cuja maior parte de sua receita vem da busca do Google ser o padrão no Firefox), mas de fato tem uma ponta técnica nisso que é impedir algo que tem o potencial de se tornar uma grande vulnerabilidade no acesso aos dados de usuários.

Antes de continuar, uma breve explicação sobre como funciona o aprendizado de máquina federado: A ideia é relativamente simples, em vez de se ter um algoritmo em treinamento rodando em 1 único servidor, lendo dados alimentados pelos usuários e guardados em outros servidores, no aprendizado federado os dados nem saem (em teoria) das máquinas dos usuários, porque todo o treinamento do algoritmo se dá na própria máquina deles, sendo que são os parâmetros do algoritmo treinado individualmente pelo usuário que é enviado para um servidor da empresa. Com os parâmetros do algoritmo de pelo menos parte dos usuários já é possível fazer um cálculo como de uma média e assim se tem um algoritmo treinado que deve atender a uma gama expressiva de usuários. Percebeu como apesar de realmente evitar o tráfego de dados pessoais, a maior vantagem é economizar em infraestrutura?

O ponto sensível quando se fala em privacidade aqui é o quanto é possível inferir sobre cada usuário a partir do algoritmo treinado, como a rede neural usada está se adaptando ao usuário, então inserir dados dela e ver como reage pode dizer muito sobre a quem a rede neural se adaptou. É aqui que entra o post publicado ontem à noite, falando do sucesso no uso de privacidade diferencial para anonimizar os dados do algoritmo enviados aos sevidores da Google, como é dito no post.

“A privacidade diferencial (DP) fornece uma medida quantificável de anonimização de dados e, quando aplicada ao ML, pode resolver preocupações sobre modelos que memorizam dados confidenciais do usuário.”

O termo “privacidade diferencial” é um tanto quanto confuso, afinal se trata de uma forma de lidar com dados em lotes sem poder identificar imediatamente de quem são aqueles dados, mas num contexto de aprendizado de máquina, não significa que a privacidade seja realmente mantida, há vários artigos e experimentos que mostram como identificar pessoas a partir de dados anonimizados e apesar da privacidade diferencial ser um obstáculo a mais nesse processo, ainda não me parece ser um impeditivo tão grande.

Analisando politicamente o que esta publicação quer dizer, podemos imaginar que ela é parte de uma resposta a ser dada em questões sobre privacidade quando a empresa for questionada por autoridades. Falo disso porque privacidade diferencial é algo usado em censos e outras pesquisas governamentais, é algo bem mais palatável do que explicar o funcionamento de complexos algoritmos. Postagens como essa servem muito bem de relações públicas porque sugerem uma implementação de uma camada de anonimização de dados quando a ausência de auditorias ou qualquer regulação sobre quais os procedimentos mais corretos de serem adotados são completamente inexistentes.