OpenAI faz testes e diz que ChatGPT-5 já se compara a humanos em várias funções

setembro 26, 2025 augustopjulio

A OpenAI apresentou, nesta quinta-feira (25), os resultados de um benchmark chamado GPDval, que tem o objetivo de monitorar o desempenho de ferramentas de inteligência artificial (IA) em comparação com humanos em diversas tarefas. De acordo com a companhia, o ChatGPT-5 já alcança níveis próximos a especialistas em várias funções.

Os testes foram realizados com foco em tarefas reais e “economicamente valiosas” de 44 ocupações, divididas em 9 setores:

Imóveis, aluguel e arrendamento;
Governo;
Fabricação;
Serviços profissionais, científicos e técnicos;
Assistência médica e social;
Finanças e seguros;
Comércio varejista;
Comércio atacadista;
Informação.

Segundo a empresa, essa avaliação faz parte da missão de garantir que a inteligência artificial geral (AGI) beneficie toda a humanidade, ao mesmo tempo em que comunica com transparência os avanços desses sistemas.

–
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
–

Método do GPDval

A OpenAI selecionou profissionais com média de 14 anos de experiência em cada uma das ocupações analisadas para criar tarefas que representassem seu trabalho diário. As mesmas atividades foram realizadas por modelos de IA, como o GPT-5, o GPT-4o e o Claude Opus 4.1, da Anthropic.

Para avaliar o desempenho, o benchmark contou com um grupo de “classificadores” especialistas, também das mesmas ocupações. Eles compararam os resultados produzidos pelas IAs com os de humanos, sem saber quem era o autor.

“Descobrimos que os melhores modelos de fronteira atuais já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”, destacou a OpenAI.

O Claude Opus 4.1 foi o que mais se destacou, apresentando desempenho igual ou superior ao de especialistas em 47,55% das tarefas. Já o GPT-5 High — versão aprimorada do GPT-5 — obteve resultados iguais ou melhores que os humanos em 38,76% dos casos.

“O Claude Opus 4.1 foi o modelo com melhor desempenho no conjunto, destacando-se particularmente em estética (como formatação de documentos e layout de slides). Já o GPT-5 se destacou em precisão (como na busca de conhecimento específico de domínio)”, explicou a companhia.

Limitações da avaliação

A OpenAI ressalta que o GPDval tem algumas limitações, já que não analisa cenários em que um modelo de IA precisa construir o contexto da tarefa ou melhorar sua atuação após receber feedback de um cliente.

“Além disso, no mundo real, as tarefas nem sempre são claramente definidas com um prompt e arquivos de referência; por exemplo, um advogado pode ter que lidar com ambiguidades e conversar com seu cliente antes de decidir que criar um resumo jurídico é a abordagem certa para ajudá-lo”, acrescenta a empresa.

Leia mais:

VÍDEO | CHATGPT, PERPLEXITY, CLAUDE, GEMINI: QUAL ESCOLHER?

Leia a matéria no Canaltech.

O que achou dessa notícia? Deixe um comentário abaixo e/ou compartilhe em suas redes sociais. Assim conseguiremos informar mais pessoas sobre as curiosidades do mundo!

Esta notícia foi originalmente publicada em:
Fonte original

Método do GPDval

Limitações da avaliação

augustopjulio

Você pode gostar também

O momento trágico em que um menino precisou dizer ao tribunal que a mãe dele afogou a própria irmã

Quando o resumo semanal do Spotify chega ao Brasil? Entenda o lançamento

A camada de ozônio deve apresentar recuperação total até 2066 — mas há um porém