Um estudo da Universitat Rovira i Virgili (URV), em Tarragona (Espanha), alerta sobre as limitações técnicas para eliminar dados sensíveis ou pessoais dos grandes modelos de inteligência artificial (IA), como ChatGPT, Bard, Mixtral ou Copilot. Os pesquisadores alertam que atualmente não existe um método eficaz para garantir o “desaprendizado” total de uma informação uma vez que foi incorporada ao sistema, o que entra em conflito direto com o direito ao esquecimento previsto na normativa europeia.

El dilema: aprender mucho, olvidar poco

Os modelos de IA são treinados com enormes quantidades de dados extraídos da internet, o que os torna eficientes, mas também opacos. Uma vez que certa informação — por exemplo, um dado pessoal incorreto ou discriminatório — é incorporada ao modelo, sua eliminação torna-se extremamente complexa.

O estudo, publicado nesta terça-feira, distingue duas estratégias de desaprendizado:

Re-treinar o modelo do zero, excluindo a informação que se deseja apagar. É eficaz, mas muito custoso e pouco viável em larga escala.

Eliminar apenas fragmentos específicos de conhecimento, sem reconstruir todo o sistema. É mais eficiente, mas não garante que a informação desapareça completamente.

"Nem mesmo quem desenvolve esses modelos sabe com precisão como cada informação é armazenada", alertam os autores.

Choque con la legislación europea

O Regulamento Geral de Proteção de Dados (RGPD) da União Europeia contempla o direito ao esquecimento, ou seja, a faculdade de qualquer cidadão solicitar a eliminação de seus dados pessoais dos sistemas digitais. Embora isso seja aplicado com eficácia em buscadores ou redes sociais, a arquitetura atual dos modelos de IA não permite isso plenamente.

Isso levanta desafios legais e éticos para as grandes empresas de tecnologia, que enfrentam cada vez mais processos por uso indevido de dados, vieses algorítmicos e falta de transparência.

Un futuro con “IA olvidadiza” desde el diseño

O estudo conclui que será imprescindível repensar como esses modelos são treinados, incorporando desde o início estruturas que permitam apagar ou modificar partes específicas do conhecimento sem afetar o desempenho geral.

Entre as soluções possíveis, os pesquisadores mencionam a fragmentação modular de dados, de modo que o sistema não dependa de “tudo ou nada” para funcionar. Essa reestruturação implicaria uma transformação profunda no desenvolvimento de IA generativa tal como a conhecemos hoje.

Com informações da EFE.