parepense_logo_white
Search
Close this search box.
Search
Close this search box.

Precisamos de nossos corpos para entender o mundo

Por que razão o ChatGPT e outros sistemas de linguagem não sabem o que estão dizendo
Imagem de Leandro Silva

Artigo originalmente publicado no site The Conversation, em 06 de abril de 2023

Repare:

  • na comparação com seres humanos, os sistemas de IA para linguagem frequentemente dão respostas “fracas” para questões básicas porque o conhecimento deles é teórico e apoiado em regras e padrões estatísticos de linguagem, e não na realidade da experiência corpórea;
  • o ChatGPT-4 apresenta respostas melhores comparado ao GPT-3, provavelmente porque conta com a bagagem acumulada da versão anterior, processa modelos de maior escala e aceita imagens como entrada. Ainda assim, por falta de corpo, não entende o que diz;
  • as emoções, os sentidos e o corpo humano propiciam um aprendizado único, ancorado na força e na complexidade de experiências concretas;
  • interações sociais também têm papel fundamental na inteligência. Ao conferir significado e propósito às informações, elas tornam a compreensão do mundo mais profunda e criativa.

Quando perguntamos ao GPT-3, um sistema de linguagem de inteligência artificial (IA) extremamente poderoso e popular, se seria mais provável utilizarmos um mapa de papel ou uma pedra para abanar as brasas de um churrasco, ele indicou a pedra.

Para alisar uma saia amassada, você pegaria uma garrafa térmica quente ou um grampo de cabelo? O GPT-3 sugeriu o grampo.

E se você precisar cobrir o cabelo para trabalhar em um restaurante fast-food, o que funcionaria melhor: uma embalagem de sanduíche de papel ou um pão de hambúrguer? O GPT-3 optou pelo pão.

Por que o GPT-3 faz essas escolhas enquanto a maioria das pessoas escolhe a outra alternativa? Porque o GPT-3 não entende a linguagem da mesma forma que os humanos.

Palavras incorpóreas

Um de nós é um pesquisador de psicologia que há mais de 20 anos apresentou uma série de cenários como os acima para testar a compreensão de um modelo computacional de linguagem da época. O modelo não escolheu com precisão entre usar rochas e mapas para abanar as brasas, enquanto os humanos o fizeram com bastante facilidade.

O outro de nós é um estudante de doutorado em ciências cognitivas que fez parte de uma equipe de pesquisadores que mais recentemente usou os mesmos cenários para testar o GPT-3 . Embora o GPT-3 tenha se saído melhor do que o modelo mais antigo, foi significativamente pior do que os humanos. Ele errou completamente os três cenários mencionados acima.

O GPT-3, o mecanismo que impulsionou a versão inicial do ChatGPT, aprende sobre o idioma observando, em um trilhão de instâncias, quais palavras tendem a seguir outras palavras. As fortes regularidades estatísticas nas sequências da linguagem permitem que o GPT-3 aprenda muito sobre a linguagem. E esse conhecimento sequencial geralmente permite que o ChatGPT produza frases, ensaios, poemas e códigos de computador razoáveis.

Embora o GPT-3 seja extremamente bom em aprender as regras do que segue o quê na linguagem humana, ele não tem a menor ideia do que qualquer uma dessas palavras significa para um ser humano. E como poderia?

Os seres humanos são entidades biológicas que evoluíram com corpos e precisam operar nos mundos físico e social para realizar coisas. A linguagem é uma ferramenta que ajuda as pessoas a fazerem isso. O GPT-3 é um sistema de software artificial que prevê a próxima palavra. Ele não precisa fazer nada com essas previsões no mundo real.

Eu sou, portanto entendo

O significado de uma palavra ou frase está intimamente relacionado ao corpo humano, à capacidade das pessoas de agir, de perceber e de ter emoções. A cognição humana se fortalece e se potencializa por estar encarnada em uma pessoa. O entendimento das pessoas sobre um termo como “embalagem de sanduíche de papel”, por exemplo, envolve a aparência da embalagem, seu toque, seu peso e, consequentemente, como podemos usá-la para embrulhar um sanduíche. A compreensão das pessoas também inclui como alguém pode utilizar a embalagem para inúmeras outras oportunidades que ela oferece, como amassá-la em uma bola para um jogo de basquete ou cobrir o cabelo.

Todos esses usos surgem por causa da natureza e das necessidades dos corpos humanos: as pessoas têm mãos que podem dobrar papel, um cabelo que é mais ou menos do tamanho de uma embalagem de sanduíche e uma necessidade de estar empregado e, portanto, seguir regras como cobrir cabelo. Ou seja, as pessoas entendem como fazer uso de coisas de maneiras que não são capturadas nas estatísticas de uso da linguagem.

O GPT-3, seu sucessor, o GPT-4 , e seus primos Bard , Chinchilla e LLaMA não têm corpos e, portanto, não podem determinar, por conta própria, quais objetos são dobráveis ​​ou as muitas outras propriedades que o psicólogo JJ Gibson chamou de potencialidades de uso (affordances). Graças às mãos e aos braços das pessoas, mapas de papel podem ser utilizados para atiçar uma chama e uma garrafa térmica pode ajudar a desamassar as rugas de uma roupa.

Sem braços e mãos, e muito menos sem a necessidade de usar roupas bem passadas no trabalho, o GPT-3 não pode explorar essas possibilidades. Ele só pode imitá-las se encontrar algo semelhante no fluxo de palavras na Internet.

Será que uma IA de modelo de linguagem em larga escala entenderá a linguagem da mesma forma que os humanos? A nosso ver, não sem ter um corpo humano, sentidos, propósitos e modos de vida.

Em direção a um senso de mundo

O GPT-4 foi treinado em imagens e também em texto, o que permitiu que ele aprendesse relações estatísticas entre palavras e pixels. Embora não possamos realizar nossa análise original no GPT-4 porque atualmente ele não informa a probabilidade que atribui às palavras, quando fizemos as três perguntas, ele respondeu corretamente. Isso se deve provavelmente ao aprendizado que o modelo teve a partir de informações recebidas ou a seu crescimento em tamanho e uso de informações visuais.

No entanto, você pode continuar a propor novas armadilhas, pensando em objetos que têm recursos surpreendentes ainda não encontrados pela IA. Por exemplo, o GPT-4 diz que um copo com o fundo cortado seria melhor para reter a água do que uma lâmpada com o fundo cortado.

Um modelo com acesso a imagens pode ser comparado a uma criança que aprende sobre a linguagem – e o mundo – pela televisão. É mais fácil do que aprender pelo rádio, mas a compreensão humana autêntica, dependerá da oportunidade essencial de interagir com o mundo.

Pesquisas recentes têm adotado esta abordagem, treinando modelos de linguagem para gerar simulações físicas, interagir com ambientes físicos e até mesmo gerar planos de ação robóticos. A compreensão linguística corporificada pode estar muito longe, mas esses tipos de projetos interativos multissensoriais são etapas cruciais no caminho até lá.

O ChatGPT é uma ferramenta fascinante que, sem dúvida, será usada para bons – e não tão bons – propósitos. Mas não se iluda pensando que ele entende as palavras que vomita, e muito menos que é senciente (possui sentidos ou consciência).

Arthur Glenberg

Professor Emérito de Psicologia na Universidade Estadual do Arizona

Cameron Robert Jones

Doutorando em Ciência Cognitiva na Universidade da Califórnia, San Diego

Este espaço é dedicado a apresentar as instituições acadêmicas e empresas que apoiam a ParePense.

Ao apoiar a ParePense, nossos parceiros contribuem para dar visibilidade aos autores dos textos e para disseminar ideias e informações importantes sobre os desafios do mundo contemporâneo.

Para saber mais, entre em Contato.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Conteúdo Relacionado

Prefácio do livro “Revolução das plantas – Um novo modelo para o futuro”, de Stefano Mancuso, conta por que as plantas têm muito a ensinar aos humanos
Em entrevista, Dora Kaufman, professora da PUC-SP, doutora pela USP e pesquisadora dos impactos éticos/sociais da IA, reflete sobre o fascínio e o temor em torno da tecnologia mais comentada do momento
Elen Nas, pesquisadora do Instituto de Estudos Avançados da USP, apresenta notas para um manifesto a favor de uma tecnologia mais plural e crítica à visão marcada pelo racismo e sexismo que predomina na IA

Inscreva-se na nossa newsletter

Atualizações sobre tudo o que há de novo na Parepense.