Geleia de Menta

Blog/newsletter sobre tecnologia com perspectiva humana

O curioso caso da 'transmissão cultural'

Última atualização em:

Pesquisadores da DeepMind publicaram ontem um ótimo trabalho de 53 páginas e com 18 pesquisadores envolvidos intitulado: “Learning Robust Real-Time Cultural Transmission without Human Data”.

Bem… Vamos entender algumas coisas previamente:

  • Robustez neste contexto normalmente se refere a tolerância a “falhas” nos dados do treinamento, ou seja, não sendo necessário passar todos os dados bem certinhos para que o algoritmo entenda como proceder, literalmente deixando informações faltando.
  • Tempo Real é um termo realmente bastante dúbio porque dá a impressão de um aprendizado mais rápido, com um desenvolvimento quase instantâneo, mas na realidade é sobre o treinamento não ser numa “simulação” no sentido de ambiente controlável ao ponto de bastar uns cálculos para já se poder avaliar o aprendizado, tendo, portanto, de esperar cumprir todo o percurso ou atividades. Então “tempo real” aqui não significa algo mais rápido, é justamente o contrário disso mas também é como as coisas acontecem no mundo real, sem ter como acelerar o tempo e nem pular etapas. Para esta pesquisa estamos falando de treinamentos que envolveram 300 horas, ou seja, 1 semana e meia.
  • Transmissão Cultural, é aqui que a coisa parece complicar mas na realidade se trata da reprodução de ações/comportamentos de uma relação como professor/aluno e que necessitam de algum nível de compreensão sobre objetivos em cenários que não são exatamente iguais ao do treinamento. Exemplo: de tanto observar como uma pessoa responde a mensagens de amigos em algum aplicativo, um algoritmo poderia começar ele mesmo a sugerir respostas seguindo o mesmo padrão comportamental levando em consideração dados que oferecem contexto além da simples mensagem recebida, como o horário e histórico recente das atividades no celular, geolocalização, etc. Essa compreensão do contexto em cenários tão mutáveis é que faz diferença aqui.
  • Sem Dados Humanos, eis a cereja do bolo: se o aprendizado se dá a partir de uma relação como de professor/aluno e se afirma que não precisa de dados humanos, significa que o “professor” nesse caso pode ser apenas um script que executa instruçẽos básicas ou versões desse mesmo algoritmo proposto nesta pesquisa. Devido a sua robustez, é necessário apenas encontrar o que poderia ser as instruções mínimas para o aprendizado de cada tarefa.

Para simular aspectos que interessam do mundo real, foi usado um cenário desenvolvido com o Unity Game Engine onde em cada experimento feito haviam diferentes obstáculos e objetivos. Para o algoritmo, representado como um personagem no cenário, se orientar, foi simulado o uso de um tipo de censor chamado LIDAR, que é apenas um sensor de distância. Esta escolha é importante para a viabilidade de implementação desse algoritmo num cenário real onde nem sempre se dispõe de hardware capaz o suficiente para lidar com o volume de dados exigido por câmeras 360º por exemplo.

ao fundo há quadrados de diferentes tamanhos com barras coloridas em pé sobre eles indicando diferentes configurações do ambiente de simulação. em primeiro plano há três áreas com distintas informações: na esquerda diz que foram usados cenários de diferentes tamanhos, não-planos e com paredes invisíveis ao algoritmo em treinamento além de diferentes densidades e formas de obstáculos, cada um com configurações independentes. No campo da direita há descrição dos agentes (expert e o algoritmo desenvolvido pelos pesquisadores, chamado de MEDAL-ADR), de suas ações (mover, rotacional e saltar) e dos sensores, o LIDAR e o que indicava a posição do outro agente e que era usado apenas no treinamento. Embaixo está a descrição das atividades testadas, tendo como base a posição de marcadores coloridos no cenrário onde cada tarefa/jogo consistia e coisas como percorrer esses marcadores desviando dos obstáculos ou passar por cada um deles seguindo alguma ordem de cores.

Descrição das atividades (jogos), cenários, agentes e ações testadas. Recomendo abrir em uma nova aba para enxergar melhor o que está escrito.

A forma como o algoritmo foi treinado, mais ainda que essas qualificações acerca dele que foram indicadas no título, indica bem no que os pesquisadores pensavam ao trabalhar em seu desenvolvimento: na interação humano-máquina ligada a tarefas no mundo real, o que no futuro (ainda com certa distância e certamente depois dos métodos empregados nesse algoritmo serem mais refinados) poderá ser traduzido como robôs assistentes em hospitais, robôs tão autônomos quanto possível para pesquisas espaciais, mas que também poderiam ser subvertidos em robôs de combate para incursões militares, mas este já é o assunto da próxima edição newsletter.

Existem várias aspectos muito sofisticados no algoritmo, como a forma de uso de um modelo encoder-decoder para poder dar sentido/oferecer contexto a partir dos dados do sensor, recorrência para dar uma perspectiva temporal ao algoritmo, as especificidades do aprendizado por reforço no contexto da transmissão cultural, etc. Mas não entrarei em detalhes, tanto por serem exclusivamente técnicos quanto para evitar que esta nota fique demasiadamente grande. Recomendo fortemente a leitura do artigo disponibilizado, há diversas boas observações e questões fundamentais que são tratadas de forma realista sem mistificar nem engrandecer nada. Sobre isso, talvez a seção acerca das limitações (sempre presente em bons trabalhos da área) onde se questiona as próprias métricas empregadas seja um ótimo exemplo do profissionalismo e ética envolvidos. Realmente aqui não se está vendendo nem propagando uma visão de mundo, apenas se está usando os recursos disponíveis no momento para tentar esticar a inteligência artificial para um patamar um pouco mais próximo do conceito humano de inteligência.

Infelizmente não foi disponibilizado, pelo menos por enquanto, um repositório com o código do projeto, habitualmente os repositórios com os códigos ficam listados em um repositório no github da própria DeepMind: github.com/deepmind…

Ao longo das próximas semanas ficarei de olho neste repositório que indiquei acima e se o código for publicado, o colocarei aqui.


Se chegou até o final deste texto, espero que tenha gostado. Mas para continuar este projeto de divulgação crítica e política da ciência da computação e outros assuntos ligados à tecnologia sem todo o misticismo comum à publicidade, sua ajuda é muito importante. Faz um PIX 😊
pix copia e cola: 00020126430014BR.GOV.BCB.PIX0121geleiadementa@tuta.io5204000053039865802BR5925Lincoln de Macedo Santos 6009SAO PAULO61080540900062070503***630467FE