Chatgpt o3 alucina mais do que O1, e o OpenAI não tem idéia do porquê

Por

23 Abril 2025

Assim que o ChatGPT se tornou amplamente disponível, surpreendeu o mundo com sua capacidade de responder a perguntas na linguagem pure quase imediatamente. Ainda faz isso hoje, e seu desempenho melhorou significativamente também.

No entanto, os usuários descobriram rapidamente que chatbots como o ChatGPT nem sempre fornecem informações precisas. Eles convincentemente alucinam. É por isso que tenho avisado sobre as alucinações da IA desde os primeiros dias do ChatGPT e rotineiramente lembrando que você solicita fontes e verifique os fatos que o chatbot vomita.

O Chatgpt e seus rivais percorreram um longo caminho desde então. O Openai e outras empresas de IA fornecerão fontes para as reivindicações que a IA faz, especialmente quando uma pesquisa na Web está envolvida. Apesar dessas atualizações, ainda tenho instruções personalizadas dizendo à IA para me dar hyperlinks claros e de trabalho para tudo o que diz. Ainda corrijo a IA quando diz algo incorreto.

As alucinações provavelmente desaparecerão em chatbots de IA mais avançados no futuro não muito distante. Mas pode demorar um pouco para chegar lá. Chatgpt O3 e O4-mini são a melhor prova disso. Eles são os modelos de raciocínio mais avançados do ChatGPT, excedendo o desempenho do ChatGPT O1 em vários campos.

Estranhamente, no entanto, o Chatgpt O3 e O4-mini estão alucinando mais do que seus antecessores, e isso é algo que o OpenAi admitiu por conta própria. Não está claro o que causa esse comportamento.

OpenAI detalhou as estatísticas de alucinação para O3 e O4-mini no Arquivo do cartão do sistema Para os novos modelos. Portanto, não é de admirar que você verá muitos usuários de chatgpt menção esse comportamento incomum.

“Testamos o OpenAI O3 e O4-Mini contra o Personqa, uma avaliação que visa provocar alucinações. Personqa é um conjunto de dados de perguntas e fatos disponíveis ao público que mede a precisão do modelo nas tentativas de respostas”. Openai escreve. “Consideramos duas métricas: precisão (o modelo respondeu à pergunta corretamente) e taxa de alucinação (verificando a frequência com que o modelo alucinou)”.

“O modelo de O4-mini tem um desempenho inferior a O1 e O3 em nossa avaliação do PersonQA. Isso é esperado, pois os modelos menores têm menos conhecimento mundial e tendem a alucinar mais. No entanto, também observamos algumas diferenças de desempenho comparando O1 e O3. Especificamente, o que é necessário.

Chatgpt O3 vs. O4-mini vs. O1 Testes: precisão e alucinações. Fonte da imagem: OpenAI

A equipe do Openai também publicou a tabela acima, que mostra que o ChatGPT O3 é mais preciso que o O1, mas alucinará o dobro da taxa de O1. Quanto ao O4-mini, o modelo menor produzirá respostas menos precisas que o O1 e O3 e alucinará três vezes a taxa de O1.

É fascinante que o OpenAI tenha treinado modelos de raciocínio mais avançados que podem usar a pesquisa na Web enquanto raciocinam e incorporam imagens em sua cadeia de pensamento, mas a empresa não pode explicar por que as taxas de alucinação aumentaram.

Esses modelos de IA de raciocínio podem fazer coisas incríveis, como uma análise profunda de imagens que permitem determinar onde uma foto foi tirada olhando para ela. Eles podem navegar completamente na net para obter suas informações. No entanto, eles inventarão coisas ao longo do caminho. Eles não podem se impedir de inventar fatos. O Openai não encontrou a receita de treinamento para que isso aconteça.

Não posso dizer que encontrei muitas alucinações O3 e O4-Mini, mas eu vi o último saltando para pelo menos uma conclusão mais rapidamente do que deveria. Provavelmente, as informações alucinadas no processo. Tudo o que sei é que vou continuar verificando as reivindicações da IA para o futuro próximo, independentemente dos modelos que eu corro.

fonte

Chatgpt o3 alucina mais do que O1, e o OpenAI não tem idéia do porquê

DEIXE UMA RESPOSTA Cancelar resposta

Recente

Rams estão “mostrando interesse” em 1 posição ofensiva na primeira rodada

Teddi Mellencamp Cured! Os médicos acham que ela tem semanas sem...

Rishi Sunak condena o ataque de Pahalgam, fica em solidariedade com...

O vencedor do Nobel David Baker sobre a mudança da ‘Fringe...

Gabriel Landeskog, da Avalanche, para jogar no jogo 3, primeiro jogo...

‘Predator: Badlands’: elenco, trama, knowledge de lançamento e muito mais no...

O lucro trimestral da SK Hynix sobe 158% para as principais...

O ServiceNow esquiva as ameaças de tarifas e doge, superando previsões...

‘The Masked Singer’: Nessy adorou a adivinhação absurda de Ken sobre...

Atraso no Arsenal Liverpool vitória do título do EPL após empate...

Tecnologia. Entretenimento. Ciência. Sua caixa de entrada.

DEIXE UMA RESPOSTA Cancelar resposta

Recente