Hello GPT-4o

May 13, 2024

Conteúdo

Lançamento

Hoje quem lançou a braba foi a galera da OpenAI. A jogada da vez foi o seu novo modelo GPT-4o, projetado para revolucionar a geração de texto, imagem, áudio e vídeo.

Esse “o” aí vem de “onipresente”, ou seja, os caras vão estar em todos os lugares. Eles querem que o GPT-4 consiga criar qualquer tipo de conteúdo, em qualquer formato e em qualquer idioma.

Mudança

Atualmente muitos devs utilizam os seguintes modelos para atingir os seus objetivos:

ModeloEntradaSaídaTokens
gpt-3.5-turboTextoTexto16k
gpt-4-turboTextoTexto128k
gpt-4-turboImagemTexto16k

A nova proposta da OpenAI promete entradas/saídas de imagens, áudios e vídeos, então o que veremos em um futuro próximo é:

ModeloEntradaSaídaTokens
gpt-4oTextoTexto128k
gpt-4oTextoImagem128k
gpt-4oTextoÁudio128k
gpt-4oImagemTexto128k
gpt-4oImagemÁudio128k
gpt-4oImagemVídeo128k
gpt-4oVídeoTexto128k
gpt-4oVídeoÁudio128k
gpt-4oVídeoVídeo128k
gpt-4oAudioTexto128k
gpt-4oAudioImagem128k
gpt-4oAudioVídeo128k

Incrível, não? 🤯

E o melhor de tudo, uma janela de contexto de 128k tokens, ou seja, o modelo consegue entender e gerar textos muito mais longos e complexos, e tudo isso com um CUSTO 50% MAIS BAIXO!

A CTO Mira Murati apontou que a utilização de três modelos diferentes pode causar latência no GPT. A solução é ter um único modelo capaz de processar áudio, texto e visão, eliminando esse problema e proporcionando uma interação mais fluída e imediata, semelhante à comunicação humana.

AGI se aproximando? 🤔

Exemplos de uso

Os gringos lançaram uma pancada de exemplos de aplicações usando esse novo modelo:

E você, já pensou no que vai criar com esse novo modelo? Conta aí nos comentários.

Acessando a API

Vamos brincar um pouco com a API que já está disponível para todos os desenvolvedores.

main.py
from openai import OpenAI
import os
 
SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)
 
completion = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {"role": "system", "content": "Você é um assistente prestativo. Me ajude com a minha lição de matemática!"},
    {"role": "user", "content": "Olá! Você poderia resolver 2+2?"}
  ]
)
 
print("Assistente: " + completion.choices[0].message.content)
 
"""
Saida:
( 2 + 2 = 4 ). Se precisar de mais ajuda com sua lição de matemática, estou à disposição!
"""

Exemplo bem simples, certo?

Mas veja que não precisamos mais usar o gpt-4-turbo para resolver problemas matemáticos, o gpt-4 já resolve isso para nós.

Eu ainda pretendo continuar usando o gpt-3.5-turbo para algumas situações, pois ele ainda é mais rápido e mais barato para textos menores.

Processamento de Imagem

Para esse teste peguei um screenshot do meu linkedin e vou pedir para o modelo descrever o que posso melhorar no meu perfil.

main.py
from openai import OpenAI
import base64
 
SECRET_KEY = "SUA_CHAVE"
client = OpenAI(api_key=SECRET_KEY)
 
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")
 
base64_image = encode_image("linkedin.png")
 
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Você é um assistente que analisa imagens."},
        {"role": "user", "content": [
            {"type": "text", "text": "O que eu poderia melhorar no meu perfil do LinkedIn?"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/png;base64,{base64_image}"}
            }
        ]}
    ],
    temperature=0.0,
)
 
print(response.choices[0].message.content)
 
"""
Saida:
1. **Foto de Perfil e Capa**:
   - A foto de perfil é profissional e amigável, o que é ótimo. Certifique-se de que a foto de capa também seja relevante para sua área de atuação ou que reflita sua personalidade profissional.
 
2. **Título Profissional**:
   - Seu título atual é "CTO na VIK". Considere adicionar palavras-chave que descrevam suas habilidades e especializações, como "CTO | Engenheiro de Software | Especialista em Ruby on Rails".
 
3. **Resumo (Sobre)**:
   - O resumo é uma ótima oportunidade para destacar suas principais realizações e habilidades. Considere adicionar mais detalhes sobre projetos específicos, resultados alcançados e como você pode agregar valor a potenciais empregadores ou parceiros.
 
...
"""

Bem mais interessante, certo?

O modelo conseguiu analisar a minha foto e sugerir melhorias no meu perfil.

Conclusão

Em breve a OpenAI disponibiliza as entradas/saídas de áudio e vídeo (Sora?).

Eles não lançaram ainda, com a seguinte ressalva abaixo.

”Reconhecemos que as modalidades de áudio do GPT-4 apresentam uma variedade de riscos novos. Hoje estamos lançando publicamente entradas de texto e imagem e saídas de texto. Nas próximas semanas e meses, trabalharemos na infraestrutura técnica, usabilidade pós-treinamento e segurança necessária para liberar as outras modalidades. Por exemplo, no lançamento, as saídas de áudio serão limitadas a uma seleção de vozes pré-definidas e seguirão nossas políticas de segurança existentes.”


E aí, curtiu?

Se você chegou até aqui, muito obrigado!

Seria incrível se você pudesse compartilhar este material em suas redes sociais!

Shoutout!

© 2024