Adobe em meio a polêmica por uso de obras em treinamento de IA
Nos últimos anos, o setor de tecnologia tem se aprofundado rapidamente em inteligência artificial (IA), e a Adobe, gigante do software, não foi exceção. Desde 2023, a empresa lançou diversas soluções impulsionadas por IA, com destaque para o Firefly, uma suíte de geração de mídia. No entanto, a recente aceitação plena da tecnologia pela empresa pode ter gerado complicações legais significativas.
Uma ação coletiva proposta por Elizabeth Lyon, autora do Oregon, acusa a Adobe de utilizar versões piratas de vários livros, incluindo o de sua própria autoria, para treinar seu modelo de IA denominado SlimLM. Segundo a Adobe, o SlimLM é uma série de modelos de linguagem pequenos que podem ser "otimizados para tarefas de assistência documental em dispositivos móveis". A empresa informou que o modelo foi pré-treinado utilizando o SlimPajama-627B, um conjunto de dados open-source lançado pela Cerebras em junho de 2023.
A ação judicial, que foi inicialmente reportada pela Reuters, afirma que a obra de Lyon estava incluída em um subconjunto processado de um conjunto de dados manipulado que serviu como base para o programa da Adobe: "O conjunto de dados SlimPajama foi criado ao copiar e manipular o conjunto de dados RedPajama (incluindo a cópia do Books3)," afirma a acusação. "Assim, por ser uma cópia derivativa do conjunto de dados RedPajama, o SlimPajama contém o conjunto de dados Books3, incluindo as obras protegidas por direitos autorais da autora e dos membros da classe."
O "Books3" é uma coleção extensa de 191 mil livros que tem sido uma fonte constante de controvérsias legais para o setor tecnológico. O RedPajama também já foi mencionado em diversos processos judiciais devido a alegações semelhantes.
Além disso, a situação da Adobe não é isolada. Em setembro, um processo contra a Apple alegou que a empresa havia utilizado materiais protegidos por direitos autorais para treinar seu modelo de inteligência artificial, Apple Intelligence. Assim como no caso da Adobe, a Apple foi acusada de copiar obras protegidas "sem consentimento e sem crédito ou compensação".
Em outubro, a Salesforce enfrentou uma ação semelhante, também sob a alegação de uso do RedPajama para fins de treinamento. Infelizmente para a indústria da tecnologia, tais processos se tornaram um fenômeno comum. Os algoritmos de IA dependem de grandes conjuntos de dados e, em muitos casos, esses conjuntos podem incluir materiais piratas.
Recentemente, a Anthropic concordou em pagar 1,5 bilhão de dólares a um grupo de autores que a processaram, acusando a empresa de ter utilizado versões piratas de suas obras para treinar seu chatbot, Claude. Este caso foi considerado um ponto de inflexão nas batalhas jurídicas em curso sobre direitos autorais em dados de treinamento de IA, sendo este um tema crescente de relevância.