Este artigo foi atualizado pela última vez em agosto 15, 2024
Table of Contents
Stichting Brein leva uma grande quantidade de dados ilegais para treinamento de IA offline
Stichting Brein leva uma grande quantidade de dados ilegais para treinamento de IA offline
A organização de direitos autorais Stichting Brein retirou do ar um conjunto de dados holandês, uma coleção de dados, destinado ao treinamento de inteligência artificial (IA). Segundo a organização, esta é a primeira vez que isso acontece na Holanda.
O próprio Brein fala de um “grande conjunto de dados” que, segundo a organização, consiste em cópias ilegais de dezenas de milhares de livros, milhões de linhas de artigos de notícias de sites como Nu.nl e legendas de inúmeros filmes e séries de TV de fontes ilegais. fontes. O diretor Bastiaan van Ramshorst também diz saber quem é o criador, mas não pode dizer por questões de privacidade.
Usar conjunto de dados
O conjunto de dados destina-se a treinar um chamado modelo de linguagem; no jargão, são chamados de grandes modelos de linguagem. O criador do conjunto de dados prometeu a Brein por escrito não usá-lo mais e também forneceu informações sobre quem o recebeu. A fundação está agora verificando se os dados foram realmente usados por modelos de IA. Se for esse o caso, as partes serão responsabilizadas.
O material que viola direitos autorais é um grande problema no treinamento de IA. Recentemente, pesquisas mostram que trabalhos de criadores de imagens holandeses foram usados sem sua permissão para treinar geradores de imagens de IA bem conhecidos, incluindo DALL-E e Midjourney.
Nos EUA, existe atualmente um processo judicial entre o The New York Times e a OpenAI, criadora do ChatGPT. O jornal acusa a empresa de usar grandes quantidades de artigos de jornal para treinar IA sem permissão. A OpenAI acredita que o uso dos dados é permitido.
Costura Brein
Seja o primeiro a comentar