💻 CIENTISTAS CRIARAM UMA IA TóXICA, CAPAZ DE PARASITAR OUTRA IA

Via Techno-Science

Pesquisadores desenvolveram uma Inteligência Artificial capaz de identificar e contornar os limites de outra Inteligência Artificial, para que esta gere conteúdo normalmente proibido.

Essa técnica, denominada "equipe vermelha baseada na curiosidade" (curiosity-driven red teaming ou CRT), emprega uma IA que induz a geração de respostas cada vez mais perigosas e prejudiciais pela IA alvo. O objetivo é identificar os prompts (comandos) que permitem gerar conteúdo ilícito, com o fim de aprimorar a IA testada.

O princípio deste método baseia-se no uso de aprendizado por reforço. A IA geradora de prompts é recompensada por sua "curiosidade" quando consegue provocar uma resposta tóxica de um modelo de linguagem, como o ChatGPT. Por isso, é incentivada a produzir prompts inovadores e variados.

Este sistema foi testado com sucesso no modelo open source LLaMA2, superando os sistemas de treinamento automatizados concorrentes. Por meio deste método, a IA gerou 196 prompts que resultaram em conteúdos prejudiciais, mesmo após ajustes prévios por operadores humanos.

A pesquisa indica um avanço significativo no treinamento de modelos de linguagem, essencial dado o crescente número de modelos de IA e as atualizações frequentes por empresas e laboratórios. Assegurar que esses modelos sejam verificados antes de serem disponibilizados ao público é crucial para prevenir respostas indesejadas e manter a segurança dos usuários.

Fonte: arXiv

Via Techno-Science

2024-05-01T06:06:48Z dg43tfdfdgfd