Voltar ao Blog
Inteligência ArtificialCapítulo 1

Os Pilares da IA: Dados e Algoritmos: Considerações Críticas

Dados e algoritmos como fundamentos da IA: como a qualidade dos datasets e a lógica dos algoritmos determinam os resultados — e os riscos jurídicos — dos sistemas inteligentes.

Alessandro Lavorante 29 de março de 2024 5 min de leitura

Observa-se, assim, que a característica basilar de qualquer algoritmo é que este deve resolver um problema determinado. E, conforme enfatiza Caitlin Mulholland, "quanto mais dados forem inseridos, absorvidos ou tratados pela IA, maior é a capacidade de 'racionalização' e processamento desses dados". Por consequência, melhores serão — em tese — os resultados obtidos, beneficiando os usuários da tecnologia. Esse pressuposto, contudo, encerra uma simplificação que merece exame crítico: a quantidade de dados é condição necessária, mas não suficiente, para a qualidade dos resultados. Dados abundantes, porém enviesados ou não representativos da população a que se destinam, produzem sistemas que erram com grande eficiência e escala.

Para que os resultados sejam satisfatórios, os algoritmos precisam de enormes quantidades de informações que lhes permitam estabelecer modos de relação e identificar padrões previsíveis. Ao serem implementados e executados na prática, os algoritmos consomem dois recursos computacionais bastante críticos: tempo de processamento e espaço de armazenamento. O tempo de processamento refere-se à quantidade de ciclos de CPU necessários para completar a execução do algoritmo, impactando diretamente o desempenho e a eficiência do sistema. Já o espaço de armazenamento diz respeito à memória ocupada durante a execução — fator que, com o advento do armazenamento em nuvem e dos data centers de larga escala, tornou-se progressivamente menos restritivo, embora ainda relevante do ponto de vista energético e ambiental.

Para resolver um problema por meio do desenvolvimento de ferramentas informáticas, os programadores começam pensando no processo de solução, que se materializa em um algoritmo a partir do qual escrevem seu programa — o "código-fonte" — em uma linguagem de programação de alto nível. Em seguida, outros programas, como compiladores ou intérpretes, traduzem esse código para linguagem de máquina ou linguagem binária, inteligível ao hardware. Assim, o caminho que vai dos dados brutos até os algoritmos mostra uma progressão natural que começa com informações fragmentadas e progride para níveis mais elevados de estruturação, informação e conhecimento operacional.

Os algoritmos são, portanto, os mecanismos de processamento que não apenas transformam elementos estáticos em novos produtos de informação, mas que também, no caso dos sistemas de aprendizado de máquina, alteram sua própria estrutura interna a partir da experiência acumulada. Essa característica — a capacidade de auto-modificação com base em dados — é precisamente o que distingue os sistemas modernos de IA dos programas computacionais tradicionais e o que cria os maiores desafios jurídicos de imputação de responsabilidade. Um desenvolvedor que entrega um produto de software tradicional pode, em princípio, prever com relativa precisão o comportamento desse produto em qualquer situação coberta pelo escopo de sua programação. Um desenvolvedor de sistema de aprendizado de máquina, por contraste, entrega um sistema cujo comportamento futuro depende de dados que ainda não existem no momento da entrega.

Cabe ressaltar que a qualidade dos dados de treinamento constitui, portanto, um ponto crítico de risco jurídico. Identificam-se, na literatura especializada, ao menos três categorias principais de problemas relacionados a dados: o viés de seleção, que ocorre quando os dados de treinamento não são representativos da população sobre a qual o sistema será aplicado; o viés histórico, que se manifesta quando os dados refletem padrões discriminatórios preexistentes na sociedade, que o sistema aprende e perpetua; e o problema da privacidade, que surge quando os dados de treinamento contêm informações pessoais coletadas sem o consentimento adequado ou em violação às normas da Lei Geral de Proteção de Dados (Lei n. 13.709/2018, LGPD).

Em relação ao viés histórico, o caso COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) nos Estados Unidos é frequentemente citado como exemplo paradigmático. O sistema, utilizado por tribunais americanos para avaliar o risco de reincidência criminal de réus, foi analisado pelo jornalismo investigativo da ProPublica em 2016 e revelou que classificava réus negros como de alto risco de reincidência com o dobro da frequência de réus brancos em situação comparável — erro que, transposto para o contexto jurídico brasileiro, poderia configurar discriminação ilícita nos termos do art. 5º, inciso XLI, da Constituição Federal e das normas antidiscriminatórias do Código Civil.

No Brasil, a LGPD estabelece, em seu art. 20, o direito do titular dos dados de solicitar a revisão de decisões tomadas unicamente com base no tratamento automatizado de dados pessoais que afetem seus interesses. Trata-se de uma norma de enorme relevância para o campo da IA, pois reconhece implicitamente que decisões automatizadas podem ser equivocadas ou discriminatórias e que o ser humano tem direito a um processo de revisão com intervenção humana. A implementação efetiva desse direito, porém, esbarra em dificuldades práticas: como o titular pode exercer seu direito de revisão se o funcionamento do sistema é opaco, seja por razões técnicas — a chamada caixa-preta dos modelos de aprendizado profundo — seja por razões comerciais, já que os algoritmos proprietários são frequentemente protegidos como segredo industrial?

Essa tensão entre transparência algorítmica e proteção da propriedade intelectual é um dos nós górdios do debate regulatório atual. O AI Act europeu tentou equacioná-la ao exigir, para sistemas de alto risco, a disponibilização de documentação técnica suficiente para permitir a avaliação de conformidade por autoridades regulatórias, sem necessariamente tornar públicos todos os detalhes do código-fonte. O PL 2.338/2023 brasileiro segue linha similar, ao estabelecer obrigações de transparência graduadas conforme o nível de risco do sistema. Parece-nos que essa abordagem diferenciada — maior transparência onde o risco é maior — representa um equilíbrio razoável, embora sua eficácia dependa, em última análise, da capacidade técnica das autoridades regulatórias de avaliar os documentos que lhes forem submetidos, o que coloca desafios adicionais de formação e capacitação institucional que não podem ser subestimados.

DadosAlgoritmosBig DataIA

Alessandro Casoretti Lavorante

Prof. Me. pela USP

Advogado especializado em Direito Digital, IA e Startups. Mestre em Direito Civil pela USP. Autor do livro "Responsabilidade Civil por Inteligência Artificial".

Precisa de assessoria jurídica?

Entre em contato para uma consulta especializada em Direito e Tecnologia.

Fale Conosco
Assistente Virtual
Online agora

Olá! 👋 Sou o assistente virtual do escritório Alessandro Lavorante. Como posso ajudá-lo hoje? Posso responder dúvidas sobre Direito Digital, Inteligência Artificial, LGPD, ECA Digital, Startups e outras áreas.