Entende-se que, no caso do GitHub Copilot, diversos elementos técnicos da IA estariam em jogo. O Copilot se baseia em redes neurais profundas do tipo transformer, as quais são responsáveis por gerar trechos de código a partir de entradas fornecidas pelos usuários. O treinamento desse tipo de ferramenta envolve tanto o aprendizado supervisionado quanto o autossupervisionado, uma vez que o modelo “aprende” relações entre diferentes trechos de código, bibliotecas e comentários, usando como fonte uma ampla gama de repositórios de código aberto. Como resultado, o Copilot apresentaria um comportamento de caixa-preta, dificultando o rastreio da origem exata de cada trecho de código sugerido, sobretudo em modelos de grande porte (Large Language Models, LLMs), tidos como “autocompletadores avançados172” que vão além da mera sugestão de palavras. Esse processo faz uso massivo de dados (Big Data), abarcando milhões de repositórios no GitHub escritos em diferentes linguagens e regidos por licenças diversas (MIT, GPL, Apache etc.). Em alguns sistemas análogos, também se aplica o Aprendizado por Reforço “com Feedback Humano” (RLHF), em que avaliadores atribuem notas às respostas do modelo, orientando-o a refinar suas sugestões. Embora o propósito geral seja o de generalizar conhecimento e evitar repetições literais, há indícios de overfitting, em que o sistema aprende excessivamente os padrões do conjunto de dados de treinamento, e acaba por fazer a reprodução integral de trechos de código sob proteção de copyright ou de licenças específicas.
escritores-processam-nvidia-por-violar-direitos-autorais-de-obras-para-treinar-sua-ia. ghtml?utm_source=chatgpt.com. Acesso em: dezembro 2024. Em julho do mesmo ano, jornalistas veteranos nos EUA processaram a OpenAI e a Microsoft, alegando que suas obras publicadas foram usadas sem permissão para treinar modelos de IA. Os jornalistas Nicholas Basbanes e Nicholas Gage afirmaram que suas criações foram indevidamente utilizadas para aprimorar as capacidades dos chatbots de IA, sem autorização ou compensação adequada. Disponível em: https://plox.com.br/noticia/15/07/2024/jornalistas-processam-openai-e-microsoft-por-uso-indevidode-obras-em-inteligencia-artificial?utm_source=chatgpt.com. Acesso em: dezembro 2024. 172 A expressão “autocompletadores avançados” é usada para descrever Large Language Models (LLMs) – cuja explicação mais ampla foi feita no subcapítulo referente a IA Preditiva e Generativa (1.3.5) –, como o GPT, porque eles funcionam prevendo a próxima palavra ou sequência de palavras com base no texto anterior. Eles utilizam grandes volumes de dados e aprendizado profundo para gerar respostas contextualizadas e coerentes, expandindo o conceito básico de autocompletar (como em mecanismos de busca) para criar textos completos, responder perguntas ou até gerar código.
Alessandro Casoretti Lavorante
Prof. Me. pela USP
Advogado especializado em Direito Digital, IA e Startups. Mestre em Direito Civil pela USP. Autor do livro "Responsabilidade Civil por Inteligência Artificial".