O Novo Mundo Criativo de Aprendizagem Automática de GANs
As capacidades da inteligência artificial (IA) estão crescendo exponencialmente, especialmente na área da criação de imagens sintéticas que são foto-realistas. Em 2014, foram introduzidas redes geradoras de adversários (GANs). Alguns anos depois, GANs bidirecionais (BiGANs) foram criados. Depois vieram os BigGANs que superaram as GANs de última geração na síntese de imagens. Mas espere, ainda há mais: na semana passada, pesquisadores da DeepMind, da Alphabet Inc., lançaram BigBiGANs. Aqui está um olhar para o grande e grande mundo da aprendizagem de máquina de IA de GANs, BiGANs, BigGANs e BigBiGANs.
O que são GANs?
As GANs são uma inovação recente na história moderna da inteligência artificial. GAN é um acrônimo de generative adversarial network – um tipo de arquitetura de rede neural AI usado para treinamento de aprendizagem profunda de IA que foi introduzido em 2014 na conferência Neural Information Processing Systems por Ian Goodfellow, juntamente com Jean Pouget-Abadie e Mehdi Mirza. Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville e Yoshua Bengio, membro sênior do CIFAR.
Goodfellow e sua equipe fizeram história de IA com sua nova proposta de estrutura de aprendizado de máquina, a rede geradora de adversários, que consiste de duas redes neurais artificiais (RNAs) que competem, treinando-se simultaneamente. A rede generativa cria amostras sintéticas, a outra é uma rede discriminativa que tenta detectar se as amostras são criadas ou a partir de dados reais.
O que são redes neurais convolucionais e deconvolucionais?
Muitas vezes, uma rede neural convolucional (CNN) para a rede neural discriminativa e uma rede neural deconvolucional (DNN) é usada para a rede generativa. A CNN é um tipo de rede neural profunda que é um pouco inspirada pelo córtex visual do cérebro biológico. Uma rede neural deconvolucional é uma CNN que opera em sentido inverso.
O que são redes neurais artificiais?
Redes Neurais Artificiais (RNAs) são camadas de computação interconectadas com neurônios artificiais conectados, nós, com pesos associados que podem ser ajustados durante o processo de aprendizagem. No mínimo, existem três camadas em uma camada ANN – entrada, processamento e saída. Quanto mais camadas intermediárias, mais profunda a rede neural.
A arquitetura conceitual das Redes Neurais Artificiais é um pouco análoga aos neurônios do cérebro biológico, onde a informação pode ser passada entre nós. As RNAs são ferramentas de modelagem de dados estatísticos não-lineares usadas para modelar relacionamentos complexos e descobrir padrões para uso no mundo real em visão computacional, tradução automática, jogos, reconhecimento de voz e mais propósitos. Como as RNAs podem chegar a soluções a partir de amostras, em vez de conjuntos de dados completos e completos, elas são consideradas relativamente computacionalmente eficientes.
Como as GANs funcionam?
O objetivo de treinamento da rede generativa é criar amostras que seu oponente, a rede discriminativa, pensa ser a partir da distribuição real de dados. Por exemplo, imagine um novo tipo de reality show de TV chamado VeGAN, onde um chef vegano (rede generativa) tenta enganar um provador de alimentos (rede discriminativa) com amostras baseadas em plantas geradas por chefs, como bratwurst vegan, hotdogs de soja e hambúrgueres sem carne feitos de proteína de ervilha e extrato de suco de beterraba, feitos para assemelhar-se a pratos de carne reais (distribuição de dados reais).
O provador (rede discriminativa) é treinado com amostras de um conjunto de dados de treinamento até atingir um nível de precisão desejado. O objetivo do provador é discriminar com precisão quais pratos são carne real versus pratos veganos. O provador de alimentos prova pratos com carne real (distribuição real de dados), além de gerar pratos de carne falsa produzidos pelo chef vegano.
O provador é dado um prato de amostra, e produz um escalar sobre se a amostra parece ser vegan ou não. O objetivo final do chef (rede generativa) é sintetizar amostras de alimentos de uma maneira que engane o provador – para aumentar a taxa de erro de degustação. O chef aprende quais pratos enganam o degustador e aplica-o para melhorar os pratos para futuras rodadas de jogo.
A retropropagação (propagação retrógrada) é aplicada a ambas as redes neurais de duelo, para que o provador seja capaz de discriminar com melhor precisão, e o chef produz pratos veganos que são mais parecidos com carne.
O que é retropropagação?
A retropropagação é uma técnica algorítmica relativamente eficiente usada no aprendizado profundo de IA para treinar redes neurais profundas. Quando uma Rede Neural Artificial encontra um erro, o gradiente da função de erro é calculado com mudanças baseadas em pesos em uma direção inversa – começando com a última camada de rede neural e terminando com a primeira camada de rede neural. Os cálculos são realizados de uma maneira em que os cálculos semi-completos de uma camada são usados para cálculos de gradiente na camada de rede neural anterior.
Usando a mesma analogia, o jogo continua em várias rodadas (iterações), onde tanto o chef vegano quanto o degustador melhoram suas habilidades, aprendendo assim com o duelo.
O que são GANs Bidirecionais (BiGANs)?
Os pesquisadores Jeff Donahue e Trevor Darrell, da Universidade da Califórnia em Berkeley, e Philipp Krähenbühl, da Universidade do Texas, em Austin, introduziram uma nova estrutura de aprendizado de recursos não supervisionada chamada Biergan (Bidirectional Generative Adversarial Network) em uma conferência anual de aprendizado de máquina chamada Conferência Internacional. em Learning Representations (ICLR) em 2017. BiGANs extrai representações de recursos de dados que as GANs sozinhas não são capazes de fazer. Além de uma rede generativa e uma rede discriminativa, os BiGANs possuem um codificador que é capaz de aprender o mapeamento inverso. Em BiGANs, a rede discriminativa recebe o objetivo adicional de classificar a codificação do codificador versus a codificação gerada sinteticamente.
O que é um BigGAN?
Agora que temos uma compreensão dos fundamentos das GANs e BiGANs, o que é um BigGAN? Em termos simples, um BigGAN é um grande GAN com sinos e assobios adicionais para fazer com que supere as GANs comuns por uma margem enorme.
Andrew Brock, Jeff Donahue e Karen Simonyan publicaram um documento de conferência apresentando o BigGAN na ICLR em fevereiro de 2019 com base no artigo intitulado “Treinamento de GAN de Grande Escala para a Síntese de Imagens Naturais de Alta Fidelidade” apresentado pela primeira vez em setembro de 2018 no arXiv. O BigGAN é um algoritmo que é capaz de realizar treinamento de GAN em larga escala que resulta em síntese de imagem natural de alta fidelidade que excede o desempenho das soluções atuais – produz imagens realistas.
Para criar o BigGAN, os pesquisadores aumentaram o tamanho do lote em oito vezes, os modelos foram treinados com duas a quatro vezes mais parâmetros e um “truque de truncamento” foi usado para permitir o controle da troca entre a fidelidade e a variedade da amostra.
O BigGAN teve melhor qualidade de imagem e diversidade que supera as GANs existentes. Em um treinamento de resolução 128 x 128 no ImageNet, o BigGAN’s Inception Score (IS) foi melhor do que o melhor IS existente de 52.2 em mais de três vezes com um impressionante IS de 166.6, e um valor Fréchet Inception Distance (FID) batendo o FID existente registro de 18,65 com um valor mais baixo cobiçado FID de 7,4.
BigGAN são redes adversárias gerais treinadas “na maior escala ainda tentada” com modificações para produzir “o novo estado da arte na síntese condicional de imagens”, de acordo com os pesquisadores.
O que é um BigBiGAN?
O que você ganha quando um BiGAN é combinado com um gerador BigGAN? Por que você ganha um BigBiGAN, naturalmente. Em 4 de julho de 2019, Jeff Donahue e Karen Simonyan, da DeepMind, da Alphabet Inc., apresentaram o BigBiGAN em um artigo submetido no arXiv que leva os BiGANs e BigGANs para o próximo nível.
“Nossa abordagem, BigBiGAN, baseia-se no modelo BigGAN de última geração, estendendo-o ao aprendizado de representação adicionando um codificador e modificando o discriminador”, escreveram os pesquisadores do DeepMind. “Avaliamos extensivamente as capacidades de aprendizagem e geração de representações desses modelos BigBiGAN, demonstrando que esses modelos baseados em geração alcançam o estado da arte na aprendizagem de representação não supervisionada no ImageNet, bem como na geração de imagem incondicional”.
Por que todos esses sabores de GANs são importantes?
Modelos geradores como GANs, BiGANs, BigGANs e BigBiGANs permitem que as máquinas produzam e simulem suas próprias imagens ou conceitos novos – uma forma de imaginação artificial de fato. Ao aplicar campos interdisciplinares de matemática, ciência de dados, tecnologia da informação, ciência da computação e estatística, os pesquisadores dotaram as máquinas da capacidade de criar – representando um marco na inovação pela humanidade – e um passo em direção à inteligência artificial geral e à singularidade tecnológica. no futuro.