Facebook/Meta e a tecnomagia
Última atualização em:
Todos que já leram algum dos textos neste site sabe das críticas que faço ao misticismo envolta de coisas puramente técnicas como algoritmos inteligentes. E para a supresa de absolutamente zero pessoas é exatamente este o viés de uma publicação no blog sobre IA do Facebook (o site não mudou de domínio apesar da empresa ter mudado de nome): Yann LeCun on a vision to make AI systems learn and reason like animals and humans.
Para quem não conhece, Yann LeCun é o criador das redes convolucionais, o pai das redes densas usadas atualmente e que são os principais alvos de grandes investimentos. Ele também trabalha para o Facebook/Meta atualmente como cientista-chefe de IA. A tal postagem parte de uma fala em grande parte bem acertada, e que já foi parcialmente tratada numa edição passada da newsletter, sobre o quanto os algoritmos inteligentes são limitados em relação a forma e capacidade de humanos e animais de aprederem.
O ponto que vejo como tão limitado que chego a criticar é o fator “senso-comum”. Segundo a publicação, Yann LeCun afirma:
“Human and nonhuman animals seem able to learn enormous amounts of background knowledge about how the world works through observation and through an incomprehensibly small amount of interactions in a task-independent, unsupervised way. It can be hypothesized that this accumulated knowledge may constitute the basis for what is often called common sense.”
Tal declaração é complementada no texto esclarecendo que o sentido de “senso comum” aqui é o de “modelos de mundo”, o qual mais à frente no texto se fala de um modelo de rede neural auto-supervisionada. A idéia que aqui parece tão inovadora é já um padrão no trabalho com IA em escala e que já foi falado em outra nota acerca de uma publicação de pesquisadores da Microsoft: basicamente em vez de começar o treinamento do zero, se começa de alguma representação dos dados, e para isso se treina uma rede neural usando algum conjunto de dados sem que precise mesmo chegar a algum ponto, o importante é que a rede crie uma representação espacial da relação entre os dados de alguma forma, e isso pode ser feito de muitas formas como, pegar um texto e fazer o algoritmo prever quais as palavras envolta de determinada palavra numa frase, ou pegar imagens em escala de cinza e fazer o algoritmo tentar prever quais as cores, etc.
Anos atrás o termo “word embeddings” se tornou muito popular em processamento de linguagem natural (NLP na sigla em inglês) devido ao grande impacto que teve tanto na qualidade de algoritmos treinados quanto no rumo de pesquisas na área. Há um texto meu de uns anos atrás que explica e inclusive implementa isso, mas em resumo: toda rede neural lida com representações espaciais dos dados, então uma camada próxima a saída de uma rede neural é usada como uma camada por outra. Há semelhanças dessa técnica, que mais recentemente tem sido mais conhecida como “transformer”, com a transferência neural, que apesar do nome, significa pegar uma rede extensivamente treinada, trocar a camada de saíde e treinar para outra coisa. Em ambos os casos o que se busca é não começar do zero e se aproveitar de um treinamento mais abrangente para facilitar a adaptação de uma rede neural a um uso mais específico.

Esquema bem superficial de como funciona essa ‘incorporação’ da saída de uma camada de uma rede treinada que serve como uma camada da rede que ainda vai ser treinada.
O que o artigo no blog de IA do Facebook/Meta realmente sugere é um modelo assim mas tão geral que em teoria serviria para representar qualquer coisa. O problema é que apesar de explicar tecnicamente como funcionaria, não há nem provas de sua relevância, nem exemplos, nem nada. Há um falso tom de novidade em um ar do que acho bem justo chamar de “tecnomagia”. Algo que pode funcionar para a mídia especializada em publicidade de big techs e alguns entusiastas mas que facilmente é compreendido como uma forma de chalatanismo para quem tem alguma educação científica.
De forma alguma estou apontando o dedo para Yann LeCun, há certa razão no que ele diz e é comum ensinar sobre essas técnicas que citei fazendo analogias com coisas como o tal “senso comum”, que é um termo que não gosto de usar por ser muito vago e nesse contexto parece atribuir a isso uma qualidade que ele não tem, afinal não faltam exemplos de quando o senso comum era absolutamente errado. O problema real é o tom do que foi publicado e a forma como usa algo técnico para indicar como real algo absolutamente não-técnico. incorporar valores que representam espacialmente um conjunto de dados numa rede neural não vai fazer a rede aprender como humanos ou animais, nem há novidade alguma nisso, e o que poderia contribuir realmente para a ciência é o algoritmo citado mas a como ele foi apenas um acessório e não se buscou em momento algum provar algo, acabou que tudo foi apenas mais um discurso vazio de tecnomagia.
