as variáveis e categorias relevantes para o problema que se deseja resolver. Isso significa que não devem existir lacunas ou omissões que comprometam a análise ou o aprendizado do modelo52. Sem essas duas características, os conjuntos de dados podem introduzir erros, vieses ou limitações que comprometem o desempenho e a confiabilidade dos sistemas. As características de consistência e completude possuem uma relação direta com a questão de dados estruturados e não estruturados. Dados estruturados e não estruturados podem apresentar grandes variações em função de padrões nacionais ou regionais, dos requisitos específicos de alguns setores, bem como dos tipos de procedimentos adotados em um contexto específico para organizar e executar tarefas e processos. Esses fatores contribuem para a heterogeneidade dos dados, tornando necessário adaptar os sistemas de IA para lidar com diferentes definições, formatos e métodos de armazenamento53. No caso de dados estruturados, que são organizados em formatos fixos, como tabelas com linhas e colunas, a consistência é geralmente mais fácil de garantir, porque seus valores podem ser verificados com base em regras pré-estabelecidas, que garantem que os números estejam dentro de certos limites ou que os dados, como datas ou textos, sejam apropriados. Também avaliar a completude nesses dados é mais simples, já que é fácil identificar quando informações importantes estão faltando em campos obrigatórios, permitindo ajustes rápidos e eficientes54. Por outro lado, dados não estruturados, como textos, imagens, áudios ou vídeos, apresentam maior complexidade para garantir consistência e completude. Por exemplo, em um contexto regional, o vocabulário utilizado em textos pode variar amplamente, introduzindo inconsistências que precisam ser tratadas por meio de um pré-processamento, como a limpeza dos dados ou uma padronização. Além disso, a completude em dados não estruturados pode ser mais difícil de definir porque depende do contexto
Notas
55. Para uma aprofundada discussão sobre as questões éticas envolvidas nos dados e seus desafios, veja-se Cervini e Heleg, 2023, pp. 659-679. 56. Broussard, Meredith. Artificial Unintelligence: How Computers Misunderstand the World. Cambridge: MIT Press, 2018, p. 18. Grifo nosso. 57. Veja-se aprofundamento em Corvalán, Dávila e Simari, 2023, pp. 20-23. 58. O processamento e a interpretação correta dos dados permitirão a detecção de padrões nos mesmos, transformando meros dados em informações úteis, permitindo aos sistemas de realizarem conexões e extraírem “insights” significativos.Alessandro Casoretti Lavorante
Prof. Me. pela USP
Advogado especializado em Direito Digital, IA e Startups. Mestre em Direito Civil pela USP. Autor do livro "Responsabilidade Civil por Inteligência Artificial".