Dois meses após o lançamento do Gemini, o grande modelo de linguagem que o Google espera que o leve ao topo do campo da IA, a empresa já está anunciando seu sucessor. O Google está lançando o Gemini 1.5 hoje e em breve o disponibilizará para desenvolvedores e usuários corporativos antes do lançamento completo para o consumidor. A empresa deixou claro que o Gemini é uma ferramenta de negócios, um assistente pessoal e tudo mais, e está pressionando muito esse plano.
O Gemini 1.5 tem muitas melhorias: o Gemini 1.5 Pro, o modelo de uso geral do sistema do Google, está no mesmo nível do recém-lançado Gemini Ultra de última geração da empresa e superou o Gemini 1.0 Pro em 87 por cento. Testes de critério. Ele é construído usando uma técnica cada vez mais comum conhecida como “composto de especialistas” ou MoE, o que significa que ele executa apenas uma parte do modelo geral quando você envia uma consulta, em vez de processá-lo o tempo todo. (Aqui está um bom explicador sobre o assunto.) Essa abordagem deve tornar o modelo mais rápido para você usar e mais eficiente para o Google executar.
Mas há uma novidade no Gemini 1.5 que deixa toda a empresa, começando pelo CEO Sundar Pichai, particularmente entusiasmada: o Gemini 1.5 tem uma enorme janela de contexto, o que significa que ele pode lidar com consultas muito maiores e visualizar mais informações de uma só vez. Essa janela é de 1 milhão de tokens, em comparação com 128.000 para o GPT-4 da OpenAI e 32.000 para o atual Gemini Pro. Os tokens são uma métrica difícil de entender (Aqui está um bom detalhamento), então Pichai simplifica: “São cerca de 10 ou 11 horas de vídeo, dezenas de milhares de linhas”. Uma janela de contexto significa que você pode perguntar ao bot de IA todo esse conteúdo de uma vez.
(Pichai também diz que os pesquisadores do Google estão testando uma janela de contexto de 10 milhões de tokens – ou seja, toda a sequência A Guerra dos Tronos Ao mesmo tempo.)
Enquanto ele me explica isso, Pichai menciona claramente que você pode encaixar tudo Senhor dos Anéis Trilogia nessa janela de contexto. Parece muito específico, então pergunto a ele: isso já aconteceu, não é? Alguém no Google está trabalhando no Gemini para ver se há algum erro de continuidade, para tentar entender a complicada linhagem da Terra Média e para ver se a IA consegue finalmente entender Tom Bombadil. “Tenho certeza de que isso teria acontecido ou acontecerá – um de dois”, diz Pichai rindo.
Pichai também acredita que a janela de contexto maior será mais útil para as empresas. “Ele permite usar casos em que é possível agregar muito contexto e informações pessoais no momento da consulta”, afirma. “Pense nisso como se tivéssemos expandido drasticamente a janela de consulta.” Ele imagina os cineastas enviando o filme inteiro e perguntando a Gêmeos o que os críticos podem dizer; Ele vê empresas usando o Gemini para visualizar vários registros financeiros. “Vejo isso como um dos maiores avanços que fizemos”, diz ele.
Por enquanto, o Gemini 1.5 está disponível apenas para usuários corporativos e desenvolvedores por meio do Vertex AI e AI Studio do Google. Eventualmente, será a versão padrão do Gemini 1.0 e Gemini Pro – disponível para todos. gemini.google.com E em aplicativos corporativos – haverá o 1.5 Pro com uma janela de contexto de 128.000 tokens. Você tem que pagar a mais para conseguir o milhão. O Google está testando os limites éticos e de segurança do modelo, especialmente no que diz respeito à janela de contexto recentemente maior.
À medida que empresas em todo o mundo tentam descobrir a sua própria estratégia de IA – e se devem assinar contratos de desenvolvimento com a OpenAI, o Google ou qualquer outra pessoa, o Google está agora numa competição séria para construir a melhor ferramenta de IA. Ainda esta semana, a OpenAI anunciou uma “memória” para ChatGPT e parece estar se preparando para pesquisas na web. Até agora, o Gemini parece impressionante, especialmente para quem já faz parte do ecossistema do Google, mas há muito trabalho a ser feito por todos os lados.
No final, me implorando, esses 1.0 e 1.5, prós, ultras e batalhas corporativas realmente não importam para os usuários. “As pessoas consomem experiências”, diz ele. “É como usar um smartphone sem sempre focar no aplicativo que está por baixo.” Mas no momento, diz ele, ainda estamos no ponto em que todos conhecem o chip do telefone porque é importante. “A tecnologia subjacente está mudando muito rapidamente”, diz ele. “As pessoas se importam.”