Genie, a Inteligência Artificial que cria Games

Genie, do Google DeepMind, é um modelo de Inteligência Artificial (IA) que cria mundos virtuais a partir de prompts de imagens. Este modelo de IA poderá em breve permitir que os usuários criem seus próprios videogames. Veja por que esse modelo experimental é revolucionário.

A maior atração dos videogames é o escapismo ou a fantasia de um mundo muito distante da nossa realidade imediata. Agora, imagine se você pudesse criar seu próprio mundo. Bem, os pesquisadores do Google DeepMind criaram algo que permitirá que você crie seu próprio mundo fictício, semelhante às paisagens bizarras vistas em jogos emocionantes e cheios de ação.

O Google DeepMind acaba de lançar o Genie, um novo modelo que pode gerar videogames interativos a partir de apenas um prompt de texto ou imagem. Isso também sem nenhum treinamento prévio em mecânica de jogo (que são essencialmente regras, elementos e processos que compõem um jogo).

Mas não para por aí, podemos até entrar em criações projetadas por humanos, como esboços! 🧑‍🎨

O que é o Genie?

De acordo com uma postagem oficial do blog Google DeepMind, Genie é um modelo mundial básico treinado em vídeos provenientes da Internet. O modelo pode “gerar uma variedade infinita de mundos jogáveis (controláveis por ação) a partir de imagens sintéticas, fotografias e até esboços”.

O artigo de pesquisa ‘Genie: Generative Interactive Environments‘ afirma que Genie é o primeiro ambiente interativo generativo que foi treinado de maneira não supervisionada a partir de vídeos da Internet não rotulados. Quando se trata de tamanho, o Genie tem parâmetros de 11B e consiste em um tokenizador de vídeo espaço-temporal, um modelo de dinâmica autorregressiva e um modelo de ação latente simples e escalável.

Essas especificações técnicas permitem que o Genie atue em ambientes gerados quadro a quadro, mesmo na ausência de treinamento, rótulos ou quaisquer outros requisitos específicos do domínio.

Um ‘tokenizador’ é um algoritmo que divide, por exemplo, um texto em unidades menores chamadas tokens. Esses tokens podem ser palavras individuais, frases, sílabas ou até mesmo caracteres, dependendo do contexto. O objetivo do tokenizador é facilitar a análise e processamento de texto, dividindo-o em partes mais gerenciáveis e significativas.

Imagem criada por Leonardo.ai à partir do seguinte prompt: "Generative Artificial Intelligence playing VideoGames" — Imagem criada por Leonardo.ai à partir do seguinte prompt: “Generative Artificial Intelligence playing VideoGames”

O que o Genie faz?

De acordo com o artigo de pesquisa, Genie é um novo tipo de IA generativa que permite a qualquer pessoa – até mesmo crianças – sonhar e entrar em mundos gerados semelhantes a ambientes simulados projetados por humanos. O Genie pode ser solicitado a gerar um conjunto diversificado de ambientes interativos e controláveis, embora seja treinado apenas com dados de vídeo.

Em poucas palavras, temos visto vários modelos generativos de IA que produzem conteúdo criativo com linguagem, imagens e até vídeos. Genie é uma inovação, pois cria ambientes jogáveis a partir de um único prompt de imagem.

De acordo com o Google DeepMind, o Genie pode receber imagens que nunca viu. Isto inclui fotografias e esboços do mundo real, permitindo que as pessoas interajam com seus mundos virtuais imaginados. Isto é o que é conhecido como modelo mundial de base.

Quando se trata de treinamento, a pesquisa destaca que eles se concentram mais em vídeos de jogos de plataforma 2D e robótica. O Genie é treinado em um método geral, permitindo funcionar em qualquer tipo de domínio, e é escalonável para conjuntos de dados da Internet ainda maiores.

Por que isso é importante?

O destaque do Genie é a capacidade de aprender e reproduzir controles de personagens do jogo exclusivamente a partir de vídeos da internet. Isso chama a atenção porque os vídeos da internet não possuem rótulos sobre a ação que é realizada no vídeo, ou mesmo qual parte da imagem deve ser controlada.

“O Genie aprende não apenas quais partes de uma observação são geralmente controláveis, mas também infere diversas ações latentes que são consistentes em todos os ambientes gerados. Observe aqui como as mesmas ações latentes geram comportamentos semelhantes em diferentes imagens de prompt”, diz a postagem do blog.

De acordo com o Google DeepMind, o aspecto mais distinto deste modelo é que ele permite criar um ambiente interativo totalmente novo a partir de uma única imagem. Isto abre muitas possibilidades, especialmente novas formas de criar e entrar em mundos virtuais. Para demonstrar isso, os pesquisadores criaram uma imagem usando o modelo de texto para uma imagem e, em seguida, usaram-no como um prompt para criar mundos virtuais. O mesmo pode ser feito com esboços.

Com o Genie, qualquer pessoa poderá criar seus próprios mundos virtuais totalmente imaginados. Além disso, a capacidade do modelo de aprender e desenvolver novos modelos mundiais sinaliza um salto significativo em direção aos agentes gerais de IA (um programa ou entidade independente que interage com os seus ambientes, percebendo o seu entorno através de sensores).

O Google revela o Genie AI, que pode criar videogames a partir de prompts de texto e imagem

A equipe DeepMind do Google decidiu revelar seu modelo inovador de IA, preparado para revolucionar a indústria de jogos e também os empreendimentos criativos, depois que a OpenAI anunciou a Sora.

Genie, apresentada como uma plataforma inovadora capaz de criar videogames 2D interativos a partir de uma única imagem ou descrição de texto, marca um salto significativo no domínio da inteligência artificial. Desenvolvido pela equipe Open-Endedness do Google DeepMind, este projeto pioneiro significa uma fusão de tecnologia de ponta e potencial imaginativo.

Ao contrário de seus antecessores, o Genie opera segundo um princípio único. Extraindo insights de um vasto conjunto de dados que compreende 200.000 horas de vídeos não rotulados, predominantemente de jogos de plataforma 2D, esta maravilha da IA aprende por meio da observação, e não de instruções explícitas. Ao discernir padrões e interações nos vídeos, o Genie transcende as limitações tradicionais, capacitando-o a gerar experiências de jogo envolventes a partir de informações mínimas.

Investigando a mecânica por trás da magia do Genie, o processo se desenrola em três etapas distintas:

O Video Tokenizer serve como base, dividindo dados de vídeo complexos em “tokens” gerenciáveis, semelhantes a um chef habilidoso que prepara ingredientes meticulosamente.
O Modelo de Ação Latente, semelhante a um conhecedor de culinária, analisa transições entre quadros para identificar ações fundamentais cruciais para o jogo, desde pular e correr até a interação com objetos.
Por último, o Modelo Dinâmico, comparado a um chef criativo orquestrando sabores, prevê frames subsequentes com base na jogabilidade atual, criando uma experiência de jogo dinâmica e contínua.

Embora o potencial do Genie seja vasto, ele continua sendo um trabalho em andamento, cercado por limitações como qualidade visual restrita e acesso restrito.

Genie, a Inteligência Artificial que cria Games

O que é o Genie?

O que o Genie faz?

Por que isso é importante?

O Google revela o Genie AI, que pode criar videogames a partir de prompts de texto e imagem

últimos artigos

explore mais

Gostaria de deixar um comentário? Cancelar comentário

mais vistos

tendências