Sábado – Pense por si

“Isto é uma loucura”. OpenAI anuncia novo modelo de IA e preocupa internautas

Luana Augusto
Luana Augusto 14 de maio de 2024 às 10:37
As mais lidas

A OpenAI lançou o GPT-4o, que além de gerar emoções, será capaz de compreender áudios e vídeos.

A OpenAI, responsável pela criação do ChatGPT, anunciou na segunda-feira (13) o GPT-4o, um novo modelo de Inteligência Artificial. O lançamento liderado por Mira Murati, diretora técnica da OpenAI, causou algumas preocupações nas redes sociais. 

REUTERS/Dado Ruvic/Illustration

"Ok, o ChatGPT ficou assustador. A IA agora responde-te por voz, quase em tempo real, com entoação, risadinhas, piadas, pausas, suspiros, respiração profunda, e por aí vai", escreveu uma página no X. "A OpenAI acaba de anunciar o novochatde conversação em tempo real do ChatGPT. Isto é uma loucura", escreveu um outro utilizador na rede social.

Capaz de responder numa média de 320 milissegundos, o semelhante ao tempo de resposta de um humano, o GPT-4o agora pode compreender mensagens de voz, vídeos e textos, e responder no mesmo formato.

Além disso, pode até detetar emoções. Durante a demonstração, um investigador pediu ao GPT-4o que lesse a sua expressão, e a assistente de voz disse que parecia "feliz e animado com um grande sorriso e talvez até com uma pitada de entusiasmo". "Seja o que for que esteja a acontecer, parece que estás com óptimo humor. Podes contar-me o que o originou?", questiona a voz. 

"O GPT-4o é um passo em direção a uma interação humano-computador muito mais natural. Ele aceita como entrada qualquer combinação de texto, áudio e imagem e gera qualquer combinação de saídas de texto, áudio e imagem. Pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é o semelhante ao tempo de resposta humano numa conversa",lê-se num comunicado. Além de ser possível falar e obter respostas do Open AI, também se pode interromper o assistente, simulando uma conversa natural. 

A OpenAI divulgou ainda um vídeo para demonstrar como o modelo deverá funcionar. Num primeiro teste, uma pessoa pede ao ChatGPT para avaliar a sua roupa para uma entrevista de emprego, e num segundo, é pedido ao modelo que crie uma música.

Anteriormente já era possível falar com o ChatGPT através de áudio, mas para isso era preciso transcrever o áudio para texto. Depois o GPT-3.5 ou o GPT-4 interpretava o conteúdo e criava uma resposta. Por fim, o material era convertido em áudio. Segundo a OpenAI, este processo fazia com que houvesse perda de muita informação e não era possível analisar "o tom, ruídos de fundo, produzir risadas, cantar ou expressar emoções".

Agora que a entrada de texto e de imagem já foi lançada na segunda-feira na Application Programming Interface (API)  - uma interface de programação de aplicações - espera-se que nas próximas semanas sejam lançadas as entradas com áudio e vídeo.

Recorde-se que a OpenAI também deverá estar perto de um acordo para inserir as suas funcionalidades no sistema operativo dos iPhones da Apple, segundo a agência noticiosa Bloomberg. 

Sam Altman, CEO da Open AI, foi peremptórionuma entrada no seu blogue: "Parece a Inteligência Artificial dos filmes... Falar com um computador nunca me pareceu natural; agora sim."

Artigos Relacionados

As 10 lições de Zaluzhny (I)

O poder não se mede em tanques ou mísseis: mede-se em espírito. A reflexão, com a assinatura do general Zaluzhny, tem uma conclusão tremenda: se a paz falhar, apenas aqueles que aprendem rápido sobreviverão. Nós, europeus aliados da Ucrânia, temos de nos apressar: só com um novo plano de mobilidade militar conseguiríamos responder em tempo eficaz a um cenário de uma confrontação direta com a Rússia.