Ao percorrer seus feeds de mídia social, há uma boa chance de você ver ilustrações acompanhadas de legendas. As imagens estão se tornando populares. "Quero um quadro de Salvador Dali com robótica", pediu um usuário. Seja bem-vindo(a) ao mundo em que tudo o que você escreve e solicita se transforma em imagens! Isso é resultado do DALL-E, app que usa modelos de inteligência artificial para criá-las.
Usando modelos de inteligência artificial do software Imagen do Google, bem como da OpenAI, uma start-up apoiada pela Microsoft, foi criado o DALL-E Mini. Em seu site, o aplicativo se explica como “um novo sistema de IA que pode criar imagens e arte realistas a partir de uma descrição em linguagem natural”.
Embora o Google e a OpenAI não disponibilizaram a tecnologia amplamente ao público, muitos dos primeiros usuários são amigos e parentes de funcionários. Se você está buscando acesso, você deve entrar em uma lista de espera e, primeiramente, indicar se você é um artista profissional, desenvolvedor, pesquisador acadêmico, jornalista ou criador online. A fila é extensa, mas há quem batalhe por um lugar nela!
“Estamos trabalhando duro para acelerar o acesso, mas provavelmente levará algum tempo até chegarmos a todos; em 15 de junho, convidamos 10.217 pessoas para experimentar o DALL-E”, escreveu Joanne Jang, da OpenAI, em uma página de ajuda no site da empresa.
O DALL-E é um sistema que se baseia em código aberto de uma equipe de desenvolvedores vagamente organizada (apesar de geralmente estar sobrecarregado com a demanda). As tentativas de usá-lo podem ser saudadas com uma caixa de diálogo que diz "Muito tráfego, tente novamente".
É um pouco reminiscente do serviço Gmail do Google, que atraiu as pessoas com espaço de armazenamento de e-mail ilimitado em 2004. Os primeiros adeptos só podiam entrar por convite no início, deixando milhões à espera. Agora o Gmail é um dos serviços de e-mail mais populares do mundo.
Criar imagens a partir de texto pode nunca ser tão onipresente quanto o e-mail. Mas a tecnologia certamente está tendo seu momento, e parte de seu apelo está na exclusividade.
O laboratório de pesquisa privado Midjourney exige que as pessoas preencham um formulário se quiserem experimentar seu bot de geração de imagens de um canal no aplicativo de bate-papo Discord. Apenas um grupo seleto de pessoas está usando o Imagen e postando fotos dele.
Os serviços de texto para imagem são sofisticados, identificando as partes mais importantes dos prompts de um usuário e adivinhando a melhor maneira de ilustrar esses termos. O Google treinou seu modelo Imagen com centenas de seus chips de IA internos em 460 milhões de pares internos de imagem-texto, além de dados externos.
"Quero um coala fazendo smoothie com o liquidificador, pediu um usuário. O resultado está na imagem acima. Simples assim!
As interfaces são faceis de manusear. Geralmente há uma caixa de texto, um botão para iniciar o processo de geração e uma área abaixo para exibir as imagens. Para indicar a fonte, Google e OpenAI adicionam marcas d'água no canto inferior direito das imagens do DALL-E 2.
As empresas e grupos que constroem o software estão justificadamente preocupados em fazer com que todos invadam os portões ao mesmo tempo. Lidar com solicitações da Web para executar consultas com esses modelos de IA pode ficar caro. Mais importante, os modelos não são perfeitos e nem sempre produzem resultados que representam o mundo com precisão. Há também falhas no processo que precisam ser corrigidas:
O exemplo acima do Sonic e Marios Bros unidos numa parada gay é um destes casos Kkkk. Os engenheiros estão treinando os modelos em extensas coleções de palavras e imagens da web, incluindo fotos que as pessoas postaram no Flickr, para corrigir o problema.
A OpenAI, com sede em San Francisco, reconhece o potencial de danos que pode vir de um modelo que aprendeu a fazer imagens essencialmente vasculhando a web.
Para tentar resolver o risco, os funcionários removeram conteúdo violento dos dados de treinamento e existem filtros que impedem o DALL-E 2 de gerar imagens se os usuários enviarem avisos que possam violar a política da empresa contra nudez, violência, conspirações ou conteúdo político.
“Há um processo em andamento para melhorar a segurança desses sistemas”, disse Prafulla Dhariwal, cientista de pesquisa da OpenAI.
Apesar dos riscos, a OpenAI está entusiasmada com os tipos de coisas que a tecnologia pode permitir (e o público também). Dhariwal disse que poderia abrir oportunidades criativas para indivíduos e ajudar com aplicações comerciais para design de interiores ou sites de decoração.
Os resultados devem continuar a melhorar ao longo do tempo. O DALL-E 2, lançado em abril, produz imagens mais realistas do que a versão inicial que a OpenAI anunciou no ano passado, e o modelo de geração de texto da empresa, GPT, tornou-se mais sofisticado a cada geração.
Tags: #SevenJoin #Inovação #Ideias #NovosNegócios #Empreendedorismo #Consultoria #ConsultoriaDeInovação #Intraempreendedorismo #Business #Tecnologia #MetodolodiasAgeis #CasesDeSucesso #Crowdsorcing #B2U #Universidades #DVNB #Startups #Tendências #Gurus #AI #IA #InteligênciaArtificial #Aplicativos #DALLEMini
Comments