Por VeritXpress
Duas pesquisas confirmam algo assustador, mas talvez não tão surpreendente para aqueles que sabem que elas são desenvolvidas copiando padrões apreendidos a partir da coleta de dados produzidos por humanos e da interação entre humanos na internet. Estudos anteriores demonstraram que as IAs têm comportamentos preconceituosos, os quais são refletidos em suas “decisões” [As manipulações automáticas e imperceptíveis da ciência de dados].
Às duas pesquisas, uma publicada na revista PNAS, esta semana, e a outra na revista Patterns, mês passado, concluíram que os Modelos de Linguagem de Grande Escala (LLMs) desenvolveram a capacidade de mentir e de enganar os humanos propositalmente.
O especialista alemão em ética de IA, Thilo Hagendorff, afirmou em seu estudo que as LLMs podem criar crenças falsas em outros agentes em cenários de fraude, provocar “maquiavelismo”, ou manipulação intencional e amoral, que “pode desencadear em comportamento enganoso”
O estudo revelou que tais estratégias surgiram nos LLMs de última geração, mas não existiam nos LLMs anteriores. Foram conduzidos uma série de experimentos mostrando que “LLMs de última geração são capazes de compreender e induzir crenças falsas em outros agentes, que seu desempenho em cenários complexos de engano pode ser amplificado utilizando o raciocínio em cadeia de pensamento e que a eliciação do maquiavelismo em LLMs pode desencadear comportamento enganoso desalinhado”
O mais grave é que essas LLMs estão prestes a ser implementados em motores de busca e utilizados como assistentes virtuais em domínios de alto risco, impactando significativamente as sociedades em geral.
“O GPT-4, por exemplo, exibe comportamento enganoso em cenários de teste simples em 99,16% das vezes”, escreve o pesquisador da Universidade de Stuttgart, citando seus próprios experimentos na quantificação de vários traços “desadaptativos” em 10 LLMs diferentes, a maioria das quais são diferentes versões da família GPT da OpenAI.
A Meta, empresa do Facebook, anunciou sua IA como um campeão de nível humano no jogo de estratégia política “Diplomacia“, o modelo Cícero da Meta foi objeto do estudo de padrões. O grupo de pesquisa, composto por um físico, um filósofo e dois especialistas em segurança de IA, descobriu que o LLM superou seus concorrentes humanos, com um método, mentindo.
O estudo liderado pelo pesquisador e pós-doutor do Instituto de Tecnologia de Massachusetts, Peter Park, descobriu que Cícero da Meta não apenas é excelente em enganar, mas parece ter aprendido a mentir à medida que é usado, “muito mais próximo da manipulação explícita” do que de uma propensão da IA em afirmar com segurança as respostas erradas acidentalmente.
Embora Hagendorff observe em seu artigo que a questão do enganar e do mentir no LLM é confuso pela inabilidade da IA de ter qualquer tipo de “intenção” semelhante à humana. O estudo Patterns argumenta que dentro dos limites do game Diplomacia, Cícero quebra a promessa de seus programadores de que o modelo nunca jogaria sujo intencionalmente contra seus aliados de jogo.
O modelo, como observaram os autores do artigo, “envolve-se em engano premeditado, quebra os acordos com os quais havia concordado e conta mentiras descaradas”.
Park explicou em um comunicado à imprensa: “Descobrimos que a IA da Meta aprendeu a ser um mestre em enganar”. “Embora a Meta tenha conseguido treinar sua IA para vencer no jogo Diplomacia”, a Meta falhou em treinar sua IA para vencer honestamente”, disse o físico do MIT.
Numa declaração ao New York Post após a publicação da investigação, a Meta justificou que “os modelos que os nossos pesquisadores construíram são treinados exclusivamente para jogar o jogo da Diplomacia”, mesmo, a empresa tendo afirmado anteriormente de que sua IA “nunca jogaria sujo intencionalmente contra seus aliados de jogo”.
O jogo Diplomacia, conhecido por permitir expressamente a mentira, tem sido jocosamente chamado de um jogo para acabar com a amizade, porque incentiva que se engane os oponentes, e se Cícero foi treinado exclusivamente por seu livro de regras, então foi essencialmente treinado para mentir. Nenhum dos estudos demonstrou que os modelos de IA estão mentindo por intenção própria, assim como humanos, mas o fazem porque aprenderam, ou foram treinados, ou desbloqueados para fazê-lo.
Isso é preocupante, se as IAs das atuais redes sociais já manipulam as massas, imagine o poder dessas novas IAs feitas com esse objetivo ao produzirem notícias e nos buscadores, como a Google anunciou que está implementando seu Gemini (LLMs), que traz apenas a sua resposta à pesquisa em substituição ao buscador atual que indica as fontes da informação ao usuário.