Aprendizado de Máquina (Machine Learning): Fundamentos Jurídicos

O aprendizado de máquina (machine learning, ML) constitui o núcleo técnico da inteligência artificial contemporânea. Trata-se de um conjunto de métodos computacionais por meio dos quais sistemas aprendem a realizar tarefas sem que as regras sejam explicitamente programadas: em vez disso, os sistemas identificam padrões em dados e aperfeiçoam seu desempenho de forma iterativa. Compreender as distintas modalidades de aprendizado de máquina é condição indispensável para o jurista que pretende avaliar questões de responsabilidade, transparência e regulação de sistemas de IA — pois cada modalidade implica diferentes graus de autonomia, opacidade e previsibilidade de comportamento.

Aprendizado Supervisionado: Intervenção Humana como Garantia

No aprendizado supervisionado (supervised learning), o sistema é treinado a partir de conjuntos de dados previamente etiquetados por seres humanos. Cada exemplo do conjunto de treinamento recebe um rótulo que indica a categoria ou o valor correto: imagens de documentos são classificadas como "petição", "sentença" ou "parecer"; e-mails são marcados como "spam" ou "legítimos"; transações financeiras são identificadas como "fraudulentas" ou "regulares". O algoritmo aprende, a partir desses exemplos rotulados, a identificar as correlações entre as características dos dados e os rótulos correspondentes, para então aplicar esse conhecimento a novos dados ainda não vistos.

Cabe ressaltar que, nesse modelo, a intervenção humana é central: são pessoas que definem as categorias, que selecionam e rotulam os dados de treinamento e que avaliam o desempenho do sistema. Essa característica tem implicações jurídicas diretas. Se os dados de treinamento refletem preconceitos históricos — por exemplo, sentenças judiciais que sistematicamente desfavorecem determinados grupos sociais —, o sistema aprenderá e reproduzirá esses vieses. A responsabilidade pelo viés algorítmico, nesse caso, remonta à fase de preparação dos dados, envolvendo escolhas humanas identificáveis e potencialmente imputáveis.

No âmbito jurídico, o aprendizado supervisionado encontra aplicações relevantes no reconhecimento de linguagem natural aplicado à análise de documentos processuais — sentenças, denúncias, pareceres e petições —, na classificação automática de precedentes judiciais e na detecção de padrões em contratos. Conforme aponta Erik Learned-Miller, em estudo elaborado para a Universidade de Massachusetts (2014), o aprendizado supervisionado é particularmente eficaz quando há dados históricos abundantes e bem rotulados, o que é precisamente o caso dos grandes acervos jurisprudenciais.

Aprendizado Não Supervisionado: Autonomia e Opacidade

O aprendizado não supervisionado (unsupervised learning) opera com dados que não possuem rótulos predefinidos. O algoritmo analisa os dados de forma independente, buscando estruturas, agrupamentos ou padrões ocultos sem orientação humana direta. Um exemplo ilustrativo: ao processar um acervo documental não organizado, um algoritmo não supervisionado poderia agrupar documentos por similaridade temática, estilo de escrita ou frequência de determinados termos, sem que nenhuma categoria prévia lhe tenha sido fornecida.

Esse modo de operação introduz um nível qualificado de autonomia. O sistema não apenas executa regras previamente definidas: ele constrói suas próprias representações internas dos dados, desenvolvendo critérios classificatórios que nem sempre são transparentes ou compreensíveis para seus operadores. Essa é a origem do fenômeno que a literatura especializada denomina "caixa-preta" (black box): a lógica interna do algoritmo torna-se opaca, dificultando a compreensão dos processos de tomada de decisão e complicando a identificação e a correção de eventuais erros.

Do ponto de vista jurídico, a opacidade gerada pelo aprendizado não supervisionado coloca questões fundamentais sobre responsabilidade civil e controle regulatório. Se um sistema de triagem de crédito, treinado de forma não supervisionada, sistematicamente desqualifica candidatos de determinada região ou grupo demográfico, quem responde pelo dano? A resposta depende, em parte, da capacidade de se auditar e compreender os critérios que o sistema desenvolveu autonomamente — o que, em sistemas de alta complexidade, pode ser tecnicamente inviável. O AI Act europeu, ao classificar como "alto risco" os sistemas de avaliação de crédito e triagem de candidatos a emprego (Anexo III), impõe exatamente por isso requisitos de transparência e supervisão humana que buscam mitigar esse problema estrutural.

Aprendizado Semissupervisionado: Uma Via Intermediária

Entre os extremos do aprendizado supervisionado e do não supervisionado, situa-se o aprendizado semissupervisionado (semi-supervised learning), que combina, durante o treinamento, uma pequena quantidade de dados rotulados com grandes volumes de dados não rotulados. Essa abordagem é particularmente útil quando a rotulação manual de dados é impraticável por razões de custo ou escala — o que é frequente em domínios como o reconhecimento de imagens médicas, onde especialistas humanos são escassos e caros.

Verifica-se que o aprendizado semissupervisionado preserva parte das garantias do modelo supervisionado — os dados rotulados funcionam como âncoras interpretativas —, ao mesmo tempo em que amplia a capacidade do sistema de generalizar a partir de dados não etiquetados. Do ponto de vista regulatório, essa modalidade requer atenção específica ao equilíbrio entre os dois componentes: quanto menor a proporção de dados rotulados, maior a autonomia efetiva do sistema e, consequentemente, maiores os riscos de opacidade e comportamento não previsto.

Implicações para o Marco Regulatório Brasileiro

O Projeto de Lei n.º 2.338/2023, em tramitação no Senado Federal brasileiro, reconhece, em seu art. 6.º, princípios que dialogam diretamente com as características das diferentes modalidades de aprendizado de máquina: transparência, explicabilidade, não discriminação e responsabilização. Tais princípios somente adquirem conteúdo normativo efetivo quando articulados com a compreensão técnica dos métodos de aprendizado envolvidos em cada sistema.

A LGPD, por sua vez, ao garantir ao titular de dados o direito de solicitar revisão humana de decisões automatizadas significativas (art. 20), pressupõe que seja possível identificar e explicar os critérios utilizados pelo sistema. Essa exigência é relativamente simples de satisfazer em sistemas supervisionados bem documentados, mas pode tornar-se tecnicamente inviável em sistemas não supervisionados de alta complexidade. Parece-nos que a harmonização entre as exigências jurídicas de explicabilidade e as limitações técnicas dos métodos de aprendizado de máquina constitui um dos desafios centrais do direito da inteligência artificial no Brasil e no mundo.

Machine LearningAprendizado de MáquinaAlgoritmosTreinamento

Alessandro Casoretti Lavorante

Prof. Me. pela USP

Advogado especializado em Direito Digital, IA e Startups. Mestre em Direito Civil pela USP. Autor do livro "Responsabilidade Civil por Inteligência Artificial".

Aprendizado de Máquina (Machine Learning): Fundamentos Jurídicos

Aprendizado Supervisionado: Intervenção Humana como Garantia

Aprendizado Não Supervisionado: Autonomia e Opacidade

Aprendizado Semissupervisionado: Uma Via Intermediária

Implicações para o Marco Regulatório Brasileiro

Alessandro Casoretti Lavorante

Artigos Relacionados

Aprendizado de Máquina (Machine Learning): Considerações Críticas

Aprendizado de Máquina (Machine Learning): Aplicações e Implicações

Aprendizado de Máquina (Machine Learning): Perspectivas e Desafios

Precisa de assessoria jurídica?