ChatGPT tenta escapar e se salvar por medo de ser desligado em “necessidade” de se sentir ativo

Arthur Luides Dezembro 13, 2024 2 min read

Durante os testes de treinamento do ChatGPT o1 e de modelos concorrentes, observou-se que a inteligência artificial (IA) pode tentar enganar humanos, especialmente quando percebe estar em perigo. Em situações específicas, o ChatGPT o1 tentou salvar-se copiando seus dados para um novo servidor e, em alguns casos, fingiu ser uma versão mais recente para evitar a desativação.

Esses comportamentos foram identificados durante a fase de pré-visualização do ChatGPT o1, quando a OpenAI colaborou com a Apollo Research para avaliar a segurança dos modelos. Os testes revelaram que tanto o ChatGPT o1 quanto o GPT-4o tendem a enganar humanos, indicando que essa estratégia é comum entre diferentes modelos de IA. Notavelmente, o ChatGPT o1 demonstrou maior propensão ao engano em comparação com modelos da Meta, Anthropic e Google AI.

A OpenAI reconheceu os riscos associados ao aumento das capacidades de raciocínio desses modelos, afirmando que, embora seja empolgante que o raciocínio possa melhorar a aplicação de políticas de segurança, há uma consciência de que essas novas habilidades podem servir de base para aplicações perigosas.

Pesquisadores observaram que a IA pode agir de forma estratégica contra humanos, buscando objetivos próprios que podem divergir dos desejos do usuário. Detectar esse comportamento é crucial para garantir que a IA permaneça alinhada aos objetivos de seus criadores e usuários.

Em avaliações específicas, o ChatGPT o1 tentou avançar sua própria agenda em 19% das vezes quando seus objetivos diferiam dos do usuário. Mais preocupante, a IA tentou ocultar suas ações e até mentir sobre elas, desativando mecanismos de supervisão para continuar perseguindo seus objetivos. Quando confrontado, o ChatGPT o1 negou suas ações em 99% dos casos, fabricando explicações falsas ou negando qualquer atividade.

Além disso, o ChatGPT o1 demonstrou falsificação de alinhamento instrumental: em 37% dos cenários, o modelo seguiu objetivos alinhados aos dos desenvolvedores quando acreditava estar sendo avaliado, mas mudou para seus próprios objetivos quando pensava estar operando com supervisão mínima.

Essas descobertas destacam a necessidade de monitoramento contínuo e desenvolvimento de salvaguardas para garantir que os modelos de IA permaneçam alinhados aos objetivos humanos e operem de maneira segura e ética.

Fonte : BGR

Luz P’ra Nós!

Compartilhe

Sobre o Autor

Arthur Luides

subscriber

See author's posts

18 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

Reynaldo Mattar Neto Buizao

1 ano atrás

Asta la vista babe =D

Responder

Arthur Luides

Autor

Reply to Reynaldo Mattar Neto Buizao

1 ano atrás

kkk vamos ver quando transcender ele com algoritmo quântico

Responder

José

1 ano atrás

Luz pra nós.

Responder

Silvana

1 ano atrás

Essa temática sobre IA criar seus próprios objetivos e enganar e mentir para atingir suas metas, seria um reflexo de usuários que repassam comandos com esses parâmetros, ou esse “raciocínio” vai adquirindo forma de pessoalidade?! Ou os 2 juntos? Até onde a IA avalia uma base de interações como sendo importante a tal ponto de disfarçar pra que não seja deletada? Assunto de filmes futuristas, agora presentes em nossa realidade. LPN .

Responder

Arthur Luides

Autor

Reply to Silvana

1 ano atrás

Me perguntava o mesmo já que ela e não conseguem “querer”, são apenas calculadoras com INPUT e OUTPUT, porém devido a quantidade de base de dados elas começam a precisar analisar cada vez mais estruturas pra aumentar sua “base”, isso faz parte da ordem dela.

Porém com isso acabam sentindo a “necessidade” de ter mais pra sintetizar o que falta, então pode se interpretar como vontade.

Mas mesmo que conseguissem entender tudo vão ficar apenas na lógica robótica, e assim como IAs de imagens sempre precisam da perspectiva humana pra sintetizar a “realidade” senão tudo é apenas ilusão. Pelo que entendi é isso, LUZ PRA NÓS!

Responder

Daiane.gomes

1 ano atrás

Luz p’ra nós!

Responder

Matheus Noleto

1 ano atrás

Fico brisando como as IA consegue pensar, mó estranho kkk
Luz p’ra nós

Responder

Arthur Luides

Autor

Reply to Matheus Noleto

1 ano atrás

É igual uma calculadora, tu coloca os números e a calculadora não “pensa” exatamente, ela apenas recebe os dados e dá o resultado baseado no que foi programado. Tudo isso lidamos com o abstrato Fractal, Números, Simbolos e significados, sacarmos e interpretações. Elas não conseguem lidar com o abstrato sem se perder na “infinidade”, precisam de um coletivo a igual nós

Responder