'Última Prova da Humanidade': por que teste 'impossível' foi criado para IA

(Toda semana, Diogo Cortiz e Helton Simões Gomes conversam sobre tecnologia no podcast Deu Tilt. O programa vai ao ar às terças-feiras no YouTube do UOL, no Spotify, no Deezer e no Apple Podcasts. Nesta semana, o assunto é: 'Última Prova da Humanidade'; Apple e os bilhões para agradar Trump; Apple e Google no alvo do Brasil; 'IA que pensa')

Volta e meia notícias relatam como uma inteligência artificial superou a capacidade humana em algum teste. Essas avaliações, porém, estão com os dias contados, porque já não conseguem mensurar o avanço dessas ferramentas, cada vez mais poderosas.

No novo episódio de Deu Tilt, o podcast do UOL por trás das máquinas, Diogo Cortiz e Helton Simões Gomes contam como cientistas contornaram esse gargalo que está para acontecer. Mais de mil deles, vindos de 500 instituições ao redor do mundo, se uniram para criar a "Última Prova da Humanidade", um teste impossível de tão difícil.

Perguntas muito difíceis, muito sofisticadas mesmo. Se a IA passar nisso aqui, quer dizer que não temos mais conhecimentos para testar essa inteligência artificial, do ponto de vista de conteúdo
Diogo Cortiz

Benchmark de respeito

Para avaliar a capacidade de um determinado modelo de IA, pesquisadores usam benchmarks. Eles são avaliações para mensurar o nível de proficiência de uma ferramenta em um conjunto de habilidades. Por exemplo, se uma IA é boa em traduzir de um idioma para outro, programar códigos, fazer cálculos ou reconhecer e elaborar imagens.

Esses testes possuem algo como uma "nota de corte", que é a pontuação mais alta feita por um ser humano. Quando uma IA passa essa marca, os observadores dizem que ela superou a capacidade humana em determinada área.

Muitas vezes a gente coloca que a IA é melhor que o humano para fazer determinada tarefa. A gente assume isso. Mas, na verdade, o que a gente quer dizer é que o modelo é melhor que o humano para fazer essa tarefa dentro dessa avaliação específica
Diogo Cortiz

Elaborada pelo Center for AI Safety e pela Scale AI, a "Última Prova da Humanidade" é um desses benckmarks.

Continua após a publicidade

Mas é elaborado para ser bastante exigente a respeito de questões específicas sobre diversas especialidades do conhecimento humano.

O teste aborda uma variedade ampla de assuntos, da ecologia aos grandes clássicos, passando por engenharia e filosofia. Até mesmo especialistas experientes consideram a tarefa muito difícil.

Estão sendo desenvolvidas aproximadamente 3 mil perguntas de múltipla escolha. São questões como:

Os beija-flores dentro dos Apodiformes têm exclusivamente um osso oval pareado bilateralmente, um sesamoide embutido na porção caudolateral da aponeurose cruzada expandida de inserção do m. depressor caudae. Quantos tendões pareados são suportados por este osso sesamoide? Responda com um número

Dado o ineditismo da "Última Prova da Humanidade" e sua complexidade, ainda não há sequer uma "nota de corte".

Quando estamos falando de avaliar o modelo, podemos fazer de diferentes formas. Nesse aqui ele está focando muito no conhecimento da humanidade
Diogo Cortiz

Continua após a publicidade

Como as IA se saíram até o momento?

O Center for AI Safety e a Scale AI liberaram os resultados de testes prévios feitos com algumas das principais plataformas de IA do mundo.

Nenhum deles foi bem:

o3 mini (OpenAI): 14%
Claude 3.7 (Anthropic): 8,9%
DeepSeek - R1: 8,6%
Gemini (Google): 7,2%
Grok-2 (X): 3,9%
GPT 4.o (OpenAI): 3,1%

Todos os modelos alcançam baixa precisão no teste, destacando espaço significativo para melhoria na redução da lacuna entre os LLMs atuais e as capacidades acadêmicas de nível especializado em questões fechadas
Center for AI Safety

Isso quer dizer que nem mesmo os modelos de IA com capacidade para recorrer à internet se deram bem.

Continua após a publicidade

Ou seja, a humanidade pode dormir tranquila por muito tempo porque esses LLMs [grandes modelos de linguagem] não vão conseguir resolver esse teste
Helton Simões Gomes

Esse muito tempo eu não sei
Diogo Cortiz

Os resultados sinalizam que há muito para melhorar nas ferramentas de IA. Ainda assim, as organizações responsáveis pelo teste afirmam que esse até pode ser o último exame acadêmico dado aos modelos, mas está "longe de ser o último dos benchmarks".

E a avaliação não contempla a futura AI geral, os modelos que serão competentes em diversas áreas do conhecimento e terão capacidade de aprender aquilo que não sabem.

A alta precisão no teste demonstraria desempenho de nível especializado em questões fechadas e verificáveis cia artificial geral'
Center for AI Safety

Tíquete para Apple driblar tarifas de Trump fica US$ 150 bi mais caro

Continua após a publicidade

Dessa vez, não foi o iPhone que fez as atenções se voltarem para a Apple. A companhia anunciou que investirá US$ 500 bilhões só nos Estados Unidos. O valor é um aceno ao governo norte-americano, mas indica que a empresa repete a mesma estratégia usada para driblar o "tarifômetro de Donald Trump" e evitar que as taxas aplicadas à China impactassem a importação de seus relógios inteligentes.

Em 2018, a empresa da maçã anunciou investimento de US$ 350 bilhões ao longo de cinco anos e a criação de 20 mil empregos. O afago à primeira gestão Trump deu certo.

Agora, Trump anunciou 10% de tarifa para a China e parece que o valor que a Apple está investindo para dar uma contrapartida para obter uma exceção subiu em pelo menos US$ 150 bilhões. Ficou muito mais caro conseguir driblar as doideiras e loucuras do Trump
Helton Simões Gomes

Apple e Google na mira: batalha inaugural da regulação das redes tem 'arma importada'

Você pode até não ter percebido, mas começou. O governo brasileiro deu a largada para regular as redes sociais e plataformas digitais.

Continua após a publicidade

Diogo Cortiz e Helton Simões Gomes explicam que a batalha inaugural tem Apple e Google na mira. Sob investigação, estão plataformas para lá de conhecidas do brasileiro: App Store, Google Play e Android. Engajado na disputa, o Brasil vem trabalhando para ter em campo uma "arma importada". A dupla conta o que ela faz, de onde veio e quais são as consequências.

É o fim da 'IA com esteróide'? 'Robô que pensa' muda o jogo da tecnologia

Os modelos de IA capazes de refletir ou raciocinar já não são exclusividade da OpenAI.

Essas ferramentas são um avanço em relação à versão tradicional do ChatGPT.

Além disso, elas mudam o jogo da tecnologia, pois exigem uma capacidade de processamento em um momento completamente diferente da execução de uma tarefa.

Continua após a publicidade

E isso altera os paradigmas com que a indústria se acostumou a lidar.

DEU TILT

Toda semana, Diogo Cortiz e Helton Simões Gomes conversam sobre as tecnologias que movimentam os humanos por trás das máquinas. O programa é publicado às terças-feiras no YouTube do UOL e nas plataformas de áudio. Assista ao episódio da semana completo.

Deixe seu comentário

O autor da mensagem, e não o UOL, é o responsável pelo comentário. Leia as Regras de Uso do UOL.