Dúvidas da Apple sobre a capacidade de raciocínio da IA

Novo estudo reforça as dúvidas sobre o raciocínio da IA

Novo estudo reforça as dúvidas da Apple sobre o raciocínio da IA. Ainda assim, não descarta possíveis avanços. Pesquisadores da Universidade de Nova York criaram o RELIC (Reconhecimento de Linguagens em Contexto). Trata-se de um benchmark que testa a capacidade dos modelos de linguagem de seguir instruções com várias etapas. Os resultados foram semelhantes aos de um estudo recente da Apple. Mesmo assim, os autores afirmam que há margem para melhorias.

dúvidas da Apple sobre a capacidade de raciocínio da IA

Como funciona o teste RELIC

O RELIC apresenta ao modelo de IA uma gramática formal, com regras bem definidas que formam uma linguagem artificial. Junto a isso, fornece uma sequência de símbolos. A função do modelo é verificar se essa sequência segue corretamente as regras indicadas.

Exemplo prático de aplicação das regras

Os pesquisadores definem uma “sentença” (S) como a junção de “Parte A” com “Parte B” (S → A B). “Parte A” é composta pelos símbolos “C” e “D” (A → C D). Outras regras levam à definição de símbolos concretos, como “C” representando ‘t43’ (C → ‘t43’). A IA precisa analisar se uma cadeia como “t43 t51 t66 t72” pode ser gerada a partir dessas regras. O modelo não recebe exemplos anteriores nem treinamento com essa gramática específica. Ele deve aplicar as regras em um cenário “zero-shot”, usando apenas as instruções fornecidas no próprio contexto.

Raciocínio complexo e limites dos modelos atuais

Para alcançar bons resultados, o modelo precisa identificar e aplicar várias regras em uma ordem flexível. Muitas vezes, ele precisa repetir ou combinar essas regras de forma aninhada. Os pesquisadores comparam essa tarefa à validação de um código de programação ou à análise gramatical de uma frase. As regras são classificadas em dois tipos: as que convertem símbolos abstratos (não-terminais como S, A, B) em outros símbolos abstratos (como S → A B) e as que substituem símbolos abstratos por símbolos concretos (terminais como ‘t43’, por exemplo, C → ‘t43’). O RELIC consegue gerar automaticamente testes ilimitados com níveis variados de dificuldade, o que impede a simples memorização de respostas.

Esse cenário reforça as dúvidas da Apple sobre a capacidade de raciocínio da IA, já que os modelos muitas vezes falham em seguir essas estruturas de forma consistente, mesmo quando a lógica das regras está claramente definida no contexto.

A falha não está nos erros, mas na ausência de tentativas: novas evidências mostram que modelos de linguagem abandonam tarefas complexas sem sequer explorar soluções alternativas – um desafio épico para a próxima geração de IAs.” Dados do experimento aqui.

RELIC revela um padrão já conhecido

Avaliação com oito modelos de IA revela limitações importantes

A equipe avaliou oito modelos de linguagem diferentes, entre eles o GPT-4.1 e o o3 da OpenAI, os modelos Gemma do Google e o DeepSeek-R1. Para realizar os testes, os pesquisadores criaram o conjunto de dados RELIC-500. Esse conjunto inclui 200 gramáticas únicas, cada uma com até 500 regras de produção e cadeias de teste com até 50 símbolos. Segundo os autores, mesmo as gramáticas mais complexas do RELIC-500 ainda são muito mais simples do que as usadas em linguagens de programação reais ou na linguagem humana.

Modelos acertam em tarefas fáceis, mas tropeçam nas difíceis

Os modelos apresentaram bom desempenho ao lidar com gramáticas simples e cadeias curtas. No entanto, à medida que a complexidade aumentava — seja na estrutura das regras ou no tamanho das sequências —, a precisão caía de forma acentuada. Isso acontecia mesmo em modelos voltados ao raciocínio lógico, como o o3 da OpenAI e o DeepSeek-R1. Esse comportamento reforça as dúvidas da Apple sobre a capacidade de raciocínio da IA, já que os modelos, embora muitas vezes aparentem saber aplicar as regras corretamente, não conseguem sustentar esse desempenho de forma consistente em tarefas mais difíceis.

Atalhos heurísticos substituem raciocínio estruturado

Em tarefas simples, os modelos aplicavam as regras de forma correta e em sequência lógica. No entanto, à medida que os desafios se tornavam mais complexos, eles passavam a adotar heurísticas superficiais, abandonando a construção da “árvore de derivação” esperada. Em alguns casos, consideravam uma cadeia válida apenas por conter muitos símbolos ou por apresentar elementos mencionados nas regras — mesmo fora de ordem. Essa abordagem, porém, não garante que a cadeia esteja realmente em conformidade com a gramática, evidenciando as dúvidas da Apple sobre a capacidade de raciocínio da IA em situações que exigem análise mais profunda.

Estudo identifica “raciocínio superficial” em tarefas difíceis

o4-mini é usada como “juíza” para avaliar o raciocínio dos modelos

Para entender melhor as estratégias de raciocínio dos modelos de linguagem, os pesquisadores utilizaram outra IA — a o4-mini da OpenAI — como uma espécie de “juíza artificial” para avaliar as respostas geradas. Uma amostra dessas avaliações foi revisada por humanos, que concordaram com os julgamentos da o4-mini em cerca de 70% dos casos. Os revisores destacaram a habilidade da IA em identificar respostas rasas e o uso de atalhos no lugar de raciocínio estruturado.

Modelos seguem lógica apenas em tarefas simples

A análise revelou que, ao enfrentarem tarefas curtas e simples, os modelos geralmente tentavam aplicar as regras de forma sequencial, montando uma “árvore de análise” lógica. No entanto, diante de exemplos mais longos ou complexos, recorriam automaticamente a heurísticas simplificadas, deixando de lado o processo mais estruturado de raciocínio.

Complexidade crescente, esforço decrescente

Um dos principais problemas identificados no estudo diz respeito à relação entre a complexidade da tarefa e o “cálculo em tempo de teste” — a quantidade de processamento que o modelo emprega para resolver um problema, medida pelo número de passos intermediários no raciocínio. Em teoria, esse esforço computacional deveria crescer com a entrada de dados mais extensa. Na prática, os pesquisadores observaram o contrário: com cadeias curtas (até 6 símbolos no GPT-4.1-mini e 12 no o3), os modelos produziam muitos passos intermediários; porém, à medida que a dificuldade aumentava, o número de etapas caía significativamente.

Modelos pensam menos quando mais deveriam pensar

Em resumo, os modelos interrompem o raciocínio cedo demais, sem analisar completamente a estrutura do problema. Esse padrão — um “raciocínio insuficiente” justamente quando a tarefa exige mais — reforça as dúvidas da Apple sobre a capacidade de raciocínio da IA. A própria Apple já havia observado queda na atividade cognitiva dos modelos de raciocínio linguístico (LRMs) à medida que a complexidade aumentava, comportamento que este novo estudo também confirma.

Modelos de linguagem precisam de mais poder computacional ou abordagens mais inteligentes

Estudos revelam falhas críticas em tarefas complexas

Tanto o estudo da Universidade de Nova York quanto o da Apple demonstram que os modelos de raciocínio atuais conseguem resolver problemas simples, mas falham de forma crítica diante de desafios mais complexos. De maneira paradoxal, esses modelos “pensam” menos — e não mais — à medida que a dificuldade das tarefas aumenta.

RELIC vai além dos testes tradicionais

O RELIC se destaca por ir além dos cenários em estilo de jogo explorados no estudo da Apple. Ele testa uma habilidade fundamental para aplicações reais de inteligência artificial: a capacidade de aprender e aplicar novas linguagens ou sistemas de regras com base apenas nas informações fornecidas no próprio contexto.

Compreensão contextual mais profunda e exigente

Diferente de benchmarks como os testes do tipo “agulha no palheiro”, que buscam apenas localizar um fato em meio a um longo texto, o RELIC exige que a IA reúna regras espalhadas por todo o conteúdo e as combine de forma complexa. Isso torna a tarefa significativamente mais desafiadora e revela falhas estruturais nos modelos atuais.

Futuras IAs precisarão de mais poder ou melhores estratégias

A análise teórica dos pesquisadores indica que os futuros modelos de linguagem terão que contar com muito mais poder computacional — como o uso ampliado de “tokens de raciocínio” no momento da inferência — ou com estratégias de solução mais eficientes. Para eles, compreender e executar instruções complexas é uma capacidade fundamental. Sem isso, torna-se difícil alcançar uma inteligência artificial realmente avançada.

“Se os modelos atuais não conseguem fazer isso, precisamos de modelos mais robustos. Isso não significa que os LLMs não raciocinam, ou que os LRMs não raciocinam, ou que o deep learning está com problemas. Apenas que a capacidade desses modelos de ‘raciocinar’ ainda é limitada, e devemos buscar aprimorá-la”, afirmou Tal Linzen, coautor do estudo.