O uso da Inteligência Artificial em criação de artes ameaça artistas?

Tecnologia desafia a nossa compreensão do que é real ou do que é gerado por softwares de imagens.

A arte que você vê nesta publicação é o Théâtre D’opéra Spatial de Jason Allen que, desde sua criação e vitória na competição de arte na Colorado State Fair, vem gerando controvérsia entre os artistas e amantes das artes. O motivo da polêmica é o uso da ferramenta que Jason utilizou na criação, o Midjourney, um programa de inteligência artificial. Mas espera aí, o que exatamente esses avanços tecnológicos significam para o mundo da arte? 

As implicações da tecnologia com artistas

Enquanto alguns artistas veem nessas tecnologias a criação de uma nova e poderosa ferramenta para ser utilizada em conjunto com seus dotes artísticos, outros veem nelas a morte da arte tradicional e de suas áreas de trabalho. Para entender um pouco melhor como essa discussão pode evoluir, é fundamental olharmos um pouco para o passado e entendermos de onde viemos e para onde estamos indo.

Impressionante imagem gerada pela Trya.CC, software desenvolvido integralmente pela Action Labs.

Há alguns anos, a maior parte das inteligências artificiais que tentavam criar imagens automaticamente usavam um tipo de algoritmo de aprendizado de máquina chamado de Generative Adversarial Networks ou GANs. Daqui pra frente é importante ter algo em mente: Todas as tecnologias que exploraremos geram imagens a partir de um briefing do usuário (que são chamados de prompts). Isso significa que o usuário fornece para o algoritmo uma descrição da imagem que deseja que ele gere e toda a mágica é feita com base na inteligência artificial.

O ano de 2022 foi incrivelmente produtivo nessa área e vimos saltos enormes da capacidade desses modelos de criar imagens coerentes e com um alto nível de compreensão textual. Conheça os softwares de criação mais conhecidos entre os artistas e que já cativaram a imaginação de muitos no mundo. 

DALL-E e DALL-E 2

O primeiro modelo de difusão que ganhou notoriedade fora dos círculos de entusiastas foi o DALL-E da OpenAI, instituição que tem entre seus fundadores o bilionário Elon Musk. O modelo foi apresentado em janeiro de 2021 e surpreendeu o mundo com a qualidade das imagens geradas e em 2022 foi lançado o DALL-E 2.  Comparada às GANs, é fácil apontar o avanço da tecnologia nesse curto espaço de tempo.

Midjourney

Midjourney é um modelo de difusão que foi criado pelo laboratório independente de pesquisa de mesmo nome, liderado por David Holz e seu time de pesquisadores. A versão inicial foi disponibilizada em julho de 2022, mesmo mês em que o DALL-E 2 da OpenAI foi anunciado. 

Alguns dizem que o Midjourney foi o primeiro modelo que “democratizou” o acesso a essas ferramentas, uma vez que eles disponibilizaram a aplicação por meio de um bot na famosa plataforma de troca de mensagens e comunicação por voz Discord, que hoje conta com mais de 300 milhões de usuários registrados. A facilidade de acesso a esse software resultou em uma chuva de novas imagens sendo compartilhadas em redes sociais e até sendo usadas em competições.

Stable Diffusion

Dos modelos que falamos aqui, Stable Diffusion é possivelmente o que menos foi amplamente divulgado pelos veículos de comunicação mas é, na minha opinião, o mais empolgante de todos.

Real ou fake? “Sandálias na praia”, mais uma imagem gerada pelo software Trya.CC, da Action Labs, encabeçado pelo desenvolvedor Leonardo de Andrade.

Lançado em agosto de 2022, um mês depois do lançamento do DALL-E 2 e do Midjourney, a grande diferença desse poderoso modelo é que ele foi disponibilizado de uma forma open-source. Tanto o código fonte quanto o modelo estão disponíveis para qualquer pessoa baixar e usar como quiser, gratuitamente, desde que você tenha um computador potente o suficiente para rodar o algoritmo.

O fato de ser open-source pode acabar passando como um detalhe pequeno para aqueles que não estejam tão envoltos na área mas, para os entusiastas, representa toda uma nova fronteira criativa dentro dessa nova forma de expressão. Por termos o modelo em mãos, é possível alterar todos os parâmetros, expandir o modelo, criar aplicações que usem o modelo e muito mais. Tendo isso em mente, vamos explorar agora algumas aplicações do Stable Diffusion que só são possíveis pela natureza aberta do modelo, como por exemplo a geração de vídeos.

Às vezes dá azia – Flávio Carvalho

Como vocês podem ver, o resultado ainda não é perfeito para animações. Isso se dá pelo fato de que esses modelos não são efetivos em manter a coesão temporal durante o processo de criação de inúmeros frames para a composição de um vídeo mas, considerando o quanto evoluímos nesses últimos dois anos, não tenho dúvida de que vai ser possível criar vídeos coerentes temporalmente em pouco tempo. Inclusive, recentemente a Google publicou um artigo acadêmico explicando a metodologia para criação de vídeos com seu próprio modelo de difusão, Imagen.

Google’s Video AI: Outrageously Good!

Outro caso de uso interessante que surge a partir desses modelos é a geração de modelos 3D a partir de uma instrução textual. A Google também já publicou um outro papel acadêmico com a metodologia para criação desses modelos. 

Google’s New AI: DALL-E, But Now In 3D!

Entusiastas da área já fizeram, inclusive, uma versão para Stable Diffusion mas que ainda está nas fases iniciais de aprimoramento.

Stable Dreamfusion

Já estamos em um momento bem empolgante da exploração das possibilidades que surgem com essa nova tecnologia e a tendência é que esse processo fique cada vez mais rápido. O fator mais empolgante é a velocidade na qual as inovações estão surgindo e sendo disponibilizadas para o público. A evolução das tecnologias que debatemos aqui aconteceram em um espaço de tempo de 2 anos. Por conta disso, eu deixo a reflexão: Onde estaremos daqui a 5, 10, 20 anos?

Veja também

Inscreva-se para receber nossos Insights 

Inscreva-se para receber nossos Insights