Geleia de Menta

Blog/newsletter sobre tecnologia com perspectiva humana

Dados, internet das coisas, desempenho e privacidade

Última atualização em:

Se puxarmos pela memória sobre as primeiras vezes que vimos na TV algo que se assemelhasse a internet das coisas (IoT, na sigla em inglês), muito possivelmente chegaremos numa reportagem do Fantástico que, fazendo jus ao nome do programa, tentava apresentar tudo de forma espetacular, fantástica de fato, no sentido de criar uma fantasia a partir de uma narrativa um tanto quanto mágica.

Mas isso são coisas de outros tempos e cá estamos agora, com IoT significando muito mais câmeras de vigilância que usam reconhecimento facial do que verificar se esqueceu o gás aberto quando saiu de casa. É sobre essa realidade, não tão menos fantasiosa mas bem mais preocupante que é este pequeno comentário acerca desta publicação do blog da Microsoft: Don’t let data drift derail edge compute machine learning models. Na verdade é bem mais sobre alguns links e teor geral do que sobre algo ligado a essa empresa especificamente.

Resumo de onde quero chegar: apesar de todas as questões envolvendo privacidade, o motivo real para se pensar em formas mais distribuídas de processamento de dados, seja no caso do FLOC da Google ou no que a publicação em questão fala acerca de IoT, estamos migrando para uma era com menos grandes servidores centralizados para o processamento e coleta de dados, e encurtando o ciclo ao mesmo tempo que é distribuído em hardwares bem menores, mais baratos, de baixo poder de processamento, mas que ainda assim reportam o resultado do processamento para um servidor central. Afinal estamos tratando aqui da diminuição de custos e não da diminuição da vigilância.

O próprio texto dos pesquisadores da MS afirma que entre os dados de treinamento e a realidade, há uma perda de aproximadamente 22% de precisão. É complicado falar de estatísticas assim sem abrir grandes parênteses, afinal é até mesmo óbvio imaginar que em dias chuvosos a qualidade dos resultados caia muito, assim como em locais que são atingidos por nevascas, além de que é bem fácil imaginar o impacto da forma como é feita a iluminação pública. Podemos deduzir uma perda de precisão bem maior que apenas 22% para diversas situações, só que com os dados brutos tendo seu ciclo de vida apenas no hardware embarcado, como avaliar isso? O que estou tentando argumentar aqui é que não há como fugir de alguma centralização, seja na simples leitura dos resultados, seja acerca do treinamento contínuo ou não, mas que também ocorra localmente. Aliás, quando se fala de aprendizado federado, estamos falando justamente disso, e como já afirmado antes, isso não torna a aplicação um exemplo de privacidade.

Mais uma vez acabo chegando onde chego sempre: não adianta falar de uma técnica ou outra, visando ou não a redução de custos, mas justificando com uma fala sobre privacidade. O que lida diretamente com privacidade é a definição de protocolos/etapas que sirvam para auditoria sobre o algoritmo e muito especialmente, transparência em todo o processo, especialmente em relação ao que é usado sobre grande parte da população e/ou pelo poder público (que quase na totalidade das vezes vem na realidade de empresas privadas prestando serviços ou em parceria com o governo).

Para concluir, tem alguns links realmente muito interessantes:

  1. Um dataset com 101 horas de vídeos de câmeras de segurança da cidade de Bellevue: os links para os vídeos armazenados no google drive estão no github
  2. Um projeto bem interessante de uma implementação de um algoritmo com aprendizado contínuo exatamente nesse contexto que estamos falando, e também usando dados de câmeras de segurança (você poderá ver outros datasets do tipo no próprio repositório): Ekya - Continuous Learning on the Edge
  3. E por fim, mais uma vez o YOLO, aquele mesmo algoritmo cujo criador resolveu deixar de fazer pesquisas em visão computacional por questões éticas ligadas ao uso militar do algoritmo que ele criou e que continua como um padrão ouro ( e que por aqui preferem chamar de “estado de arte”): darknet/yolo