O próximo grande modelo de IA do Google foi lançado nesta quarta-feira (11). O Gemini 2.0 Flash pode gerar imagens e áudio nativamente, além de texto. Segundo a gigante de buscas, ele também pode usar aplicativos de terceiros, acessar as pesquisas do Google e muito mais.
Uma versão experimental estará disponível a partir de hoje por meio da API Gemini e das plataformas de desenvolvedores de IA do Google (AI Studio e Vertex AI). No entanto, os recursos de geração de áudio e imagem serão liberados apenas para mais usuários apenas em janeiro.
O que muda no novo Gemini 2.0
- O Google alega que o Gemini 2.0 Flash é duas vezes mais rápido que o modelo Gemini 1.5 Pro em certos testes de desempenho, especialmente em áreas como codificação e análise de imagem;
- A empresa diz que ainda que o novo Gemini supera o 1.5 Pro em habilidades matemáticas e "factualidade";
- Como mencionado antes, o Gemini Flash 2.0 pode gerar — e modificar — imagens junto com texto. O modelo também pode lidar com fotos e vídeos, bem como gravações de áudio, para responder perguntas;
- A geração de áudio é outro recurso destacado pelo Google. O modelo pode narrar texto usando uma das oito vozes “otimizadas” para diferentes sotaques e idiomas.
Leia mais:
- Google testa deixar Gemini te ajudar a 'criar' no Docs
- Gemini pode ter botão 'Estou com sorte' fixo na tela inicial
- Gemini Ultra, Pro, Flash e Nano: saiba a diferença entre modelos de IA do Google
- Como transformar o Google Gemini em um app no PC Windows 10 e 11
O Google diz que está usando sua tecnologia SynthID para colocar marca d’água em todos os áudios e imagens gerados pelo Gemini Flash 2.0. Em “produtos selecionados” as saídas do modelo serão sinalizadas como sintéticas para impedir abusos e a prática do deepfake.
Nos próximos meses, o Google diz que trará o novo Gemini em uma variedade de versões para produtos como Android Studio, Chrome DevTools, Firebase, Gemini Code Assist e outros.
Olhar Digital