Propriedade Intelectual e Treinamento de IA: Um Conflito Estrutural
Entre os desafios jurídicos mais complexos trazidos pela inteligência artificial generativa, a questão dos direitos autorais sobre os dados utilizados para treinamento de modelos ocupa posição de destaque. O conflito é, em essência, estrutural: os modelos de linguagem de grande porte (LLMs) e os sistemas de geração de código precisam de vastas quantidades de dados para aprender — e esses dados são, em sua maior parte, obras protegidas por direitos autorais, licenças de software livre ou outros instrumentos de proteção da propriedade intelectual.
A análise aprofundada desse conflito revela tensões que os marcos normativos tradicionais não estavam preparados para resolver. O direito autoral foi concebido para regular relações entre criadores humanos e usuários de obras; não contemplava a hipótese de que uma máquina poderia "ler" milhões de obras para aprender padrões e, a partir desse aprendizado, gerar novas criações. A resposta jurídica a esse cenário ainda está em construção, e os litígios em curso são, em larga medida, o laboratório em que essa construção acontece.
O Litígio GitHub Copilot: Fatos e Fundamentos
Em novembro de 2022, desenvolvedores de software representados pelo advogado Matthew Butterick, em conjunto com o escritório Joseph Saveri Law Firm, ajuizaram ação na Corte Distrital do Norte da Califórnia contra GitHub, Microsoft e OpenAI. A demanda alega violações às licenças de software livre e práticas de propriedade intelectual, buscando a responsabilização legal das empresas pelo suposto uso indevido de código protegido para treinar o GitHub Copilot.
O Copilot é uma ferramenta de inteligência artificial desenvolvida para sugerir trechos de código a programadores em tempo real. Trata-se de um sistema construído sobre um modelo de linguagem de grande porte treinado em vasta quantidade de projetos de código aberto hospedados no GitHub — plataforma de hospedagem de código adquirida pela Microsoft em 2018. A ação alega que o Copilot gera trechos de código que infringem direitos autorais e desrespeitam as exigências das licenças de software livre, como a GPL (General Public License) e a MIT (Massachusetts Institute of Technology License).
A GPL, cabe ressaltar, exige que softwares derivados — criados a partir de modificações ou adaptações de código existente — mantenham o mesmo tipo de licença e disponibilizem o código-fonte, garantindo liberdade e colaboração. A MIT é mais permissiva, permitindo uso, modificação e redistribuição, inclusive em softwares fechados, mas exige a manutenção de avisos de copyright e atribuição de autoria. Ambas as licenças possuem obrigações claras que o Copilot, segundo os autores da ação, sistematicamente ignora ao sugerir trechos de código sem incluir atribuições ou menções aos termos de licenciamento originais.
A Controvérsia Técnica: Como o Copilot Usa o Código Treinado
O coração técnico do litígio reside na questão de como o Copilot utiliza o código em que foi treinado. Segundo os autores da ação, o sistema foi "alimentado" com milhões de linhas de código aberto cuja utilização está vinculada a obrigações específicas, e ao sugerir trechos idênticos ou substancialmente similares ao código original sem incluir as atribuições exigidas pelas licenças, o Copilot violaria sistematicamente essas obrigações.
A pergunta central do debate é: seria possível que licenças como a GPL fossem juridicamente "anuladas" pelo uso do código como dado de treinamento de um modelo de IA? A resposta não é trivial. Uma interpretação sustenta que o treinamento não produz uma "obra derivada" no sentido do direito autoral — o modelo aprende padrões gerais do código, mas não incorpora literalmente o código protegido em seus parâmetros. Outra interpretação, adotada pelos autores da ação, defende que quando o modelo reproduz trechos substancialmente idênticos ao código original, ele está efetivamente copiando e distribuindo obra protegida sem a observância das condições de licenciamento exigidas.
Há poucos precedentes jurídicos sobre a legalidade de se utilizar material protegido por direitos autorais como dado de treinamento de IA sem permissão explícita. O caso GitHub Copilot é, portanto, um dos primeiros grandes testes da aplicação do direito autoral a sistemas de IA generativa — e seus desdobramentos terão implicações que vão muito além do setor de desenvolvimento de software.
Casos Análogos e a Expansão do Problema
O litígio envolvendo o GitHub Copilot não é isolado. Em março de 2024, a Nvidia enfrentou processo judicial nos Estados Unidos movido pelos escritores Brian Keene, Abdi Nazemian e Stewart O'Nan, que alegaram que suas obras literárias protegidas por direitos autorais foram utilizadas sem permissão para treinar a plataforma de IA da empresa, conhecida como NeMo. Os autores afirmaram que suas obras faziam parte de um conjunto de dados de aproximadamente 196.640 livros empregados no treinamento do modelo de linguagem da Nvidia.
Em julho de 2024, jornalistas veteranos Nicholas Basbanes e Nicholas Gage processaram a OpenAI e a Microsoft, alegando que suas criações foram indevidamente utilizadas para aprimorar as capacidades dos chatbots de IA sem autorização ou compensação. Esses casos se somam a uma série crescente de ações judiciais movidas por criadores de conteúdo — escritores, artistas visuais, músicos, fotógrafos — contra as principais empresas de IA generativa, configurando o que alguns especialistas já denominam "crise sistêmica de propriedade intelectual na era da IA".
Implicações para o Direito Autoral Brasileiro
No Brasil, a Lei n. 9.610/1998 (Lei de Direitos Autorais) protege obras intelectuais originais, incluindo programas de computador, que são adicionalmente regulados pela Lei n. 9.609/1998. O uso de obra protegida sem autorização do titular é, em princípio, ilícito — salvo nas hipóteses de limitação dos direitos autorais previstas nos arts. 46 e 47 da LDA, como a reprodução para uso privado ou a citação para fins de crítica e ensino.
A questão que se coloca é se o treinamento de um modelo de IA com código ou obras protegidas se enquadra em alguma dessas hipóteses de limitação. Parece-nos que a resposta depende, crucialmente, da escala e da finalidade do uso: um uso privado e não comercial poderia, em tese, ser tolerado; um uso massivo para o desenvolvimento de produto comercial lucrativo, como o GitHub Copilot, dificilmente se enquadra nas exceções tradicionais. A lacuna normativa é evidente, e o PL n. 2.338/2023 não a endereça de forma suficientemente específica.
O Debate sobre Fair Use e Exceções ao Direito Autoral
Nos Estados Unidos, as empresas réus nos litígios de propriedade intelectual de IA têm invocado, como principal defesa, a doutrina do fair use — a utilização equitativa, que permite o uso de obras protegidas sem autorização em determinadas circunstâncias, avaliadas caso a caso com base em quatro fatores: finalidade e natureza do uso, natureza da obra protegida, quantidade utilizada e efeito sobre o mercado potencial da obra.
A aplicação do fair use ao treinamento de IA é profundamente controversa. Argumenta-se, em favor das empresas, que o treinamento é um uso transformativo — o modelo não reproduz as obras, mas delas extrai padrões abstratos para criar algo novo. Argumenta-se, em sentido contrário, que o produto gerado pelo modelo compete diretamente com as obras originais no mercado, o que pesa contra o fair use. O resultado desses litígios definirá, em larga medida, se o modelo atual de desenvolvimento de IA generativa nos Estados Unidos é juridicamente sustentável.
No Brasil, não existe equivalente exato ao fair use americano. As limitações dos direitos autorais previstas na LDA são taxativas e interpretadas restritivamente, o que, em princípio, tornaria ainda mais difícil justificar o uso não autorizado de obras para treinamento de IA. Contudo, a ausência de jurisprudência específica sobre o tema deixa o campo em aberto — e é possível que os tribunais brasileiros, ao enfrentar casos concretos, se inspirem tanto na experiência americana quanto na europeia para construir soluções adaptadas ao contexto nacional.
A análise aprofundada desses litígios revela que a propriedade intelectual é um dos campos em que a tensão entre inovação tecnológica e proteção de direitos estabelecidos se manifesta de forma mais aguda. A resolução dessas tensões exigirá não apenas interpretações jurisprudenciais criativas, mas provavelmente reformas legislativas que reconheçam as especificidades do treinamento de IA como uma categoria sui generis de uso de obras protegidas.
Alessandro Casoretti Lavorante
Prof. Me. pela USP
Advogado especializado em Direito Digital, IA e Startups. Mestre em Direito Civil pela USP. Autor do livro "Responsabilidade Civil por Inteligência Artificial".