Google I/O: o que o Gemini vai receber?

O Google dedicou a maior parte de seu evento Google I/O para detalhar como a inteligência artificial (IA) Gemini, lançada ano passado, tomará conta de praticamente todos os aspectos da empresa de Mountain View.

Os anúncios foram tão variados que, considerando o timing, é difícil não especular que tudo tenha sido uma resposta à altura ao GPT-4o, anunciado ontem pela concorrente OpenAI. E, dependendo do que você gosta no campo das IAs, essa resposta pode ter sido bem à altura.

Gemini Advanced agora usa o Gemini 1.5

O Gemini Advanced é a parte “paga” da IA do Google, e como todo serviço de assinatura, traz bem mais recursos que sua contraparte gratuita. Na prática, isso significa que o Gemini Advanced agora pode processar “vários documentos de tamanho grande, de até 1,5 mil páginas, ou resumir até 100 e-mails”.

Outra função é a capacidade dele de realizar o upload de arquivos ao Google Drive diretamente do seu dispositivo e responder a você eventuais questionamentos sobre esses arquivos. Como de praxe, o Google prometeu a privacidade total do conteúdo, com nada do que o Gemini “ver” sendo usado para treiná-lo.

Um recurso que ainda não chegou, mas foi mencionado como “próximo”, é a habilidade do Gemini de compreender planilhas a nível de estudo. Em termos práticos, ele não apenas será capaz de agrupar dados em uma planilha do Google Sheets, como também poderá oferecer insights de interpretação dessas informações, gerar gráficos espontâneos e com objetivos específicos e trazer visualizações customizadas.

Além disso, ele tem uma melhor compreensão de imagens, chegando ao ponto de reconhecer uma receita culinária completa a partir de uma foto.

O Gemini Pro 1.5 já conta com as novas funções a partir de agora, em 35 línguas diferentes para mais de 150 países.

Extensões inteligentes

Uma demonstração interessante vista durante o evento foi a capacidade do Gemini de “ler” uma foto contendo diversos compromissos e, a partir disso, criar eventos e marcações no seu calendário.

Essa e muitas outras funções variadas são parte do que o Google chamou de “Utilities” (“Utilidades”, na tradução literal). Basicamente, elas conduzem o trabalho de integração entre o Gemini e as várias aplicações do Google. Hoje mesmo, por exemplo, foi disponibilizada a capacidade de encontrar uma música no YouTube Music apenas mencionando ao chatbot um trecho de sua letra ou o nome de algum artista convidado que participe dela. Vale comentar que algo similar está sendo desenvolvido para outras aplicações musicais, também.

Todas essas extensões se juntam às já existentes no Gmail, Google Drive e aplicações do Workspace (Docs, Sheets, Slides etc.). Elas também trazem uma maior sinergia e identificação de tarefas mais rápida e fluída. Esta parte vale tanto para usuários pagantes como para aqueles da versão gratuita.

Além disso, em uma atualização “próxima”, usuários empresariais do Gemini e assinantes de planos pagos poderão criar o que o Google chamou de “Jóias” – versões próprias da IA da empresa, trabalhadas especificamente para atender às suas demandas mais específicas. Por exemplo, um personal trainer poderá criar uma versão específica para o trabalho de recomendar exercícios físicos, um nutricionista poderá valer-se de uma que monte dietas específicas e planos gastronômicos etc.

Gemini 1.5 Flash

Desenvolvedores receberam uma atualização especial do Gemini, contendo todas as benesses das versões mais recentes da IA, mas de uma forma mais leve, com menor latência e, acima de tudo, com custos mais reduzidos. No aspecto técnico, trata-se de um modelo mais leve e multimodal de linguagem e processamento. Na prática, é o mesmo Gemini 1.5 (e seus outros três formatos: Nano, Pro e Ultra), mas bem mais leve.

O Flash traz capacidades interessantes, como a sumarização de documentos longos, a legendagem de fotos e vídeos, aplicações de chatbot, interpretação de tabelas e várias outras vertentes.

Essa versão já se encontra disponível em forma de prévia, por meio do Google AI Studio (voltado especificamente para desenvolvedores), em mais de 200 países e territórios.

Planejamento avançado e multifacetado

Digamos que você tenha uma viagem preparada para o final de semana com sua esposa e filho. O Gemini ganhou capacidades mais imersivas, podendo responder a coisas como “Vou com a minha família para Angra dos Reis: minha esposa quer experimentar a cozinha local e meu filho é fã de futebol. Poderia me ajudar a planejar as atividades da viagem?”

Dentro desse exemplo, o Gemini vai puxar os dados das passagens de avião, estadia de hotel (por meio das confirmações via Gmail) e estabelecer uma lista com sugestões de restaurantes mais turísticos para almoço e jantar, além de atividades esportivas que possam ser adquiridas por meio do formato day use de pagamento – como alugar quadras por um horário pré-estabelecido.

Todas essas atividades, então, poderão ser sincronizadas no Google Maps e, confirmadas, serão marcadas no seu calendário para que você mantenha o controle de tudo.

Gemini Nano agora “fala” com imagens

A versão mais leve do Gemini era, até então, restrita a comandos textuais – ao contrário de suas implementações maiores, que já contextualizam imagens e, dependendo do caso, podem até gerar algumas. Não mais: embora o Nano ainda não crie imagens por conta própria, aplicações onde ele for aplicado poderão ter uma compreensão maior e, com isso, se aprimorar com base nas funções originais do app.

Em termos práticos: uma foto tirada pela câmera de um smartphone Pixel – onde a novidade está restrita, ao menos por enquanto – poderá sugerir filtros e edições que realcem a beleza da captura, sem que você precise necessariamente fazer nada para isso.

Fonte