PORTFÓLIO

A importância dos dados para o futuro da IA responsável
Luis Fernando Prado
É líder do Comitê da IA Responsável e Membro do conselho consultivo da Associação Brasileira de Inteligência Artificial (Abria). Também é sócio do Prado Vidigal Advogados
Em um mundo sem intenso processamento de dados, não haveria vacinas, curas para doenças, avanços científicos ou mesmo as tecnologias que possibilitam que você leia este texto agora. Com o avanço da Inteligência Artificial (IA), a importância dos dados atinge um novo patamar, especialmente porque não é possível assegurar ética e governança adequadas sem diversidade nos dados utilizados para criação e treinamento de modelos de IA.
Diversos frameworks internacionais, como os princípios de IA responsável da OCDE, UNESCO e Comissão Europeia, trazem princípios como transparência, responsabilidade, equidade e inclusão como fundamentais para o desenvolvimento, deixando claro que dados diversificados e representativos são indispensáveis para uma IA ética, segura e socialmente aceitável.
Nesse cenário, operadores do Direito têm o papel essencial de equilibrar o direito individual à proteção de dados pessoais e o interesse social (portanto, coletivo) no desenvolvimento responsável da IA. Esse equilíbrio é especialmente desafiador quando normas são interpretadas de forma excessivamente literal ou restritiva, o que pode inviabilizar práticas essenciais à construção de sistemas justos e confiáveis. Por exemplo, não se pode comandar um modelo de IA para não tratar dados de crianças sem antes ensiná-lo o que é uma criança e como deve se comportar diante dela. Tampouco se pode exigir que um sistema seja inclusivo e não reproduza vieses raciais ou de gênero sem expô-lo previamente a dados diversos que reflitam diferentes grupos sociais. Superar esse paradoxo exige uma leitura das normas de proteção de dados que esteja alinhada com os desafios e dinâmicas do presente, permitindo o tratamento responsável de dados em benefício do coletivo (com salvaguardas bem definidas).
Considerando esse contexto, são preocupantes interpretações que caminhem no sentido de sustentar a incompatibilidade entre o uso de dados pessoais para treinamento de IA e a Lei Geral de Proteção de Dados (LGPD), especialmente por alegado conflito com os princípios de finalidade específica e minimização de dados. Nesse ponto, o princípio da minimização não deve ser interpretado como sinônimo de mínimo absoluto, mas sim como um norte para se buscar proporcionalidade em relação aos objetivos legítimos do tratamento. Por exemplo, no desenvolvimento da IA generativa (aquela que gera conteúdos e vem rapidamente transformando o modo como vivemos), o objetivo legítimo é claro: construir modelos robustos, representativos e com o mínimo possível de vieses injustos, o que demanda uma significativa diversidade de dados. Um entendimento mais coerente com a realidade tecnológica é aquele que admite tratamentos proporcionais, embasados em análises e ponderações sólidas que demonstrem a relevância e a necessidade dos dados para os fins pretendidos.
Quando esse equilíbrio na interpretação das normas existentes não é adotado, os efeitos colaterais vão além do campo jurídico e se manifestam diretamente na qualidade e segurança dos sistemas que usam IA. Por exemplo, se restrições excessivas impedem o uso de dados de determinados grupos sociais no treinamento de modelos, o resultado pode ser um sistema que simplesmente ignora esses grupos, os trata com inferioridade ou gera respostas enviesadas e discriminatórias. É o caso de sistemas de reconhecimento facial que, em geral, funcionam com precisão para homens brancos, mas, em alguns casos, ainda falham gravemente ao identificar mulheres negras (consequência direta da falta de diversidade nos dados de treinamento). Parece evidente que a interpretação e aplicação da legislação de proteção de dados não devem se transformar em barreiras regulatórias que, além de limitar a inovação, contribuem para a reprodução de desigualdades e a ampliação de riscos sociais.
Da mesma forma, é preciso desmistificar a interpretação superficial e literal sobre bases legais enquanto condicionantes para a legitimidade do tratamento de dados. Nesse sentido, uma leitura restritiva que exija a indicação de uma hipótese legal específica para a realização do processo de anonimização é particularmente problemática e carece de respaldo técnico e jurídico consistente. A anonimização é, por definição, uma técnica de proteção destinada a remover ou mitigar significativamente os riscos à privacidade, ao dissociar os dados de uma pessoa identificada ou identificável. Quando tecnicamente aplicável e compatível com a finalidade do tratamento, seu uso deve ser estimulado — e não submetido a barreiras que desincentivem sua adoção. Exigir base legal para realizar esse processo inverte a lógica do sistema de proteção de dados, que deveria fomentar práticas que aumentam a segurança e reduzem riscos para os titulares.
Igualmente problemáticas são aquelas interpretações normativas que rejeitam de antemão o legítimo interesse como base legal adequada para fundamentar atividades essenciais ao desenvolvimento seguro e responsável da IA, como a coleta automatizada de dados disponíveis (web scraping ou raspagem de dados). Esse tipo de leitura desconsidera não apenas a prática consolidada em diversos contextos tecnológicos, mas também o equilíbrio que a própria LGPD buscou ao estabelecer, entre seus fundamentos, o desenvolvimento econômico, tecnológico e a inovação. Basta lembrar que a raspagem de dados foi crucial para o surgimento e evolução dos mecanismos de busca — ferramentas hoje indispensáveis à navegação na internet e à organização do conhecimento. Além disso, a própria arquitetura da web evoluiu para permitir que indivíduos e organizações sinalizem restrições à coleta automatizada, por exemplo, por meio do protocolo robots.txt. Negar em bloco a legitimidade dessa prática corre o risco de desvirtuar o propósito original da legislação, que é permitir a coexistência harmoniosa entre privacidade e progresso tecnológico.
Nesse sentido, autoridades internacionais já reconheceram expressamente o legítimo interesse como base legal válida para tais atividades, desde que acompanhadas das devidas salvaguardas. A francesa CNIL, por exemplo, admite claramente que o legítimo interesse pode ser apropriado para desenvolver sistemas de IA, ressaltando a necessidade de adotar garantias que assegurem equilíbrio entre inovação e proteção da privacidade. De maneira semelhante, a britânica ICO, em consulta pública sobre web scraping para treinamento de IA generativa, reforçou a legitimidade dessa prática com base no interesse legítimo, desde que sejam adotadas medidas para minimização dos riscos aos titulares de dados.
Em resumo, afastar o legítimo interesse para tratamentos de dados essenciais ao desenvolvimento responsável da IA ou exigir base legal específica para processos de anonimização são interpretações restritivas que desequilibram a relação harmoniosa pretendida pela legislação entre inovação tecnológica e proteção de dados pessoais, comprometendo, assim, a criação de modelos éticos, justos e livres de vieses prejudiciais.
Por outro lado, caso as interpretações normativas sejam equilibradas e não impeçam o desenvolvimento responsável da IA, será possível buscar esse objetivo em harmonia com a privacidade e a proteção de dados pessoais. Nesse sentido, técnicas avançadas conhecidas como Tecnologias de Aprimoramento da Privacidade (PETs, do inglês Privacy-Enhancing Technologies) têm papel fundamental. Exemplos dessas tecnologias incluem criptografia avançada, aprendizado federado, privacidade diferencial e geração de dados sintéticos, todas com grande potencial de proteger informações pessoais enquanto viabilizam seu uso responsável para treinamento de modelos de IA mais robustos, éticos e socialmente aceitáveis.
Portanto, reguladores – e, em uma perspectiva mais ampla, os formuladores de políticas públicas no Brasil, inclusive no âmbito de políticas de Estado – devem incentivar ativamente técnicas avançadas e responsáveis de tratamento de dados, reconhecendo sua importância para o avanço da IA ética e socialmente aceitável. Especialmente no atual momento regulatório do Brasil, que moldará entendimentos futuros, uma abordagem tecnicamente informada e pragmática é essencial para garantir a coexistência harmoniosa entre inovação responsável e privacidade. Somente assim será possível assegurar plenamente os benefícios sociais e econômicos da IA, preservando-se simultaneamente os direitos fundamentais. Ao enfrentarmos os desafios relacionados ao avanço da tecnologia com maturidade regulatória e interpretativa, construiremos uma sociedade mais justa, inovadora e preparada para o futuro, que proteja, ao mesmo tempo, direitos individuais e interesses coletivos.
https://www.cnnbrasil.com.br/forum-opiniao/a-importancia-dos-dados-para-o-futuro-da-ia-responsavel/





