Prof.AMR
NEWS
Monografia sobre Ação Penal. Material Relevante
Voltar ao Blog

AI WatchDog: IAGen com Livros Pirateados

Prof. AMR
16 de outubro de 2025
3 min de leitura

Por Prof. AMR. Em, 16/10/2025.

Dataset "Books3": A Investigação da The Atlantic Sobre o Treinamento de IA Generativa com Livros sem Permissão

A crescente indústria de inteligência artificial generativa tem levantado sérias preocupações éticas e legais, especialmente no que diz respeito ao uso de material protegido por direitos autorais. Em resposta, a The Atlantic lançou a série investigativa "AI Watchdog", que se aprofunda em questões sobre o modo como são construídos os modelos de LLM.

Escopo da Investigação

O cerne desta investigação reside no dataset "Books3", uma vasta coleção contendo mais de 191000 livros. O conjunto de dados foi formado a partir de e-books pirateados, predominantemente publicados na última década e meia, utilizados sem o consentimento dos titulares de direitos autorais para treinar sistemas de IA generativa por empresas denominadas Big techs. O dataset está atualmente no centro de vários processos judiciais movidos contra empresas por escritores que alegam violação de direitos autorais.

Objetivos da Iniciativa

A série "AI Watchdog" e a análise do dataset Books3 buscam alcançar múltiplos objetivos. Em primeiro lugar, pretende-se fornecer uma análise detalhada e transparente sobre a composição do Books3, revelando suas origens e o conteúdo que ele abarca. Um objetivo primordial é expor a prática de empresas de IA que utilizam material protegido por direitos autorais sem permissão, afetando o trabalho de anos de autores que frequentemente não têm conhecimento de tal uso. Paralelamente, a investigação almeja acompanhar os desdobramentos legais e entender o que os desenvolvedores dessas tecnologias têm a ganhar.

Entregas e Impacto

As entregas desta investigação incluem não apenas a disponibilização de um banco de dados pesquisável do Books3, mas também análises aprofundadas publicadas pela The Atlantic. O acompanhamento dos litígios em andamento contra grandes players da tecnologia de IA e a disseminação de informações sobre as práticas da indústria compõem o impacto desta série. Em última análise, o trabalho visa promover uma maior conscientização sobre as complexidades éticas, legais e criativas que cercam a IA generativa e a propriedade intelectual na era digital.

É possível consultar o dataset "Books3", que é um banco de dados pesquisável, contendo mais de 191.000 livros que compõe a parte da série "Books3" da The Atlantic, que investiga o uso desses materiais no treinamento de sistemas de IA generativa. A investigação inclui uma análise aprofundada do conteúdo presente no conjunto de dados. Vale conferir o tamanho da desfaçatez das Big Techs e do problema associado.


Confira a Fonte: https://www.theatlantic.com/technology/archive/2023/09/books3-database-generative-ai-training-copyright-infringement/675363


Sources:


Compartilhar:
Escrito por

Prof. AMR

Advogado e Professor de Direito