Apesar de vir sendo extensamente estudada há algumas décadas, como foi visto, a inteligência artificial não era aplicável no passado – não apenas pela falta de capacidade de processamento e memória, mas também devido à falta de dados disponíveis. Hoje, essa realidade mudou: bilhões de usuários fornecem dados diariamente – de forma consciente ou não – por meio de redes sociais e buscadores como Google, Facebook, Instagram, Ali Baba e Baidu. Em apenas três anos, gerou-se um volume de dados equivalente a tudo o que a humanidade produziu ao longo de sua história48. O novo petróleo, segundo a metáfora do The Economist, de 2017, é o recurso da nova economia digital49. Quando há mais de um dado, geralmente se faz referência a um conjunto de dados (ou dataset). Ao considerar os dados em conjunto, surgem propriedades interessantes a partir das relações que existem ou não entre eles. Considerando que os dados representam o ativo básico da inteligência artificial, uma das condições necessárias para a implementação de ferramentas inteligentes deverá ser o manejo adequado dos dados50. Sob tal ótica, uma das propriedades mais importantes para um conjunto de dados é a consistência. Ela se refere à conformidade dos dados com restrições e regras previamente estabelecidas, garantindo que o conjunto de dados seja coerente e confiável. Essa consistência é fundamental para que os conjuntos de dados possam ser considerados “saudáveis”, ou seja, adequados para o treinamento e aplicação de modelos de IA51. Além da consistência, outra propriedade essencial é a completude dos dados. A completude refere-se à presença de todas as informações necessárias para que o modelo de IA funcione de maneira eficaz e produza resultados confiáveis. Conjuntos de dados “completos” são aqueles que abrangem todas
Notas
51. A sanidade dos dados é obtida, por exemplo, pela especificação e cumprimento de restrições de integridade. Essas restrições podem incluir, por exemplo, a ausência de valores inválidos, como idades negativas ou dados que conflitem entre si, bem como a garantia de que os formatos, tipos e relações entre os dados estejam corretos. 52. Por exemplo, um conjunto de dados destinado a prever padrões climáticos deve conter informações abrangentes sobre a temperatura, a umidade, a pressão atmosférica e outros fatores relevantes, sem ausências significativas. 53. Cervini e Heleg, 2023, p. 679. 54. Por exemplo, em uma tabela de cadastro, a consistência garante que a entrada de datas esteja no formato correto (DD/MM/AAAA) e que os valores sejam válidos, enquanto a completude verifica se campos obrigatórios, como “nome” ou “endereço”, estão preenchidos.Alessandro Casoretti Lavorante
Prof. Me. pela USP
Advogado especializado em Direito Digital, IA e Startups. Mestre em Direito Civil pela USP. Autor do livro "Responsabilidade Civil por Inteligência Artificial".