Início Tecnologia Como a lei de direitos autorais dos EUA se aplica ao treinamento...

Como a lei de direitos autorais dos EUA se aplica ao treinamento de LLM

14
0

 

Andrea Bartz, Charles Graeber e Kirk Wallace Johnson v. PBC antropal, recuperado em 25 de junho de 2025, faz parte de Série PDF legal de Hackernoon. Você pode pular para qualquer parte neste arquivamento aqui. Esta é a parte 4 de 10.

ANÁLISE

A Seção 107 da Lei de Direitos Autorais identifica quatro fatores para determinar se um dado uso de um trabalho protegido por direitos autorais é um uso justo:

[T]ele é o uso justo de um trabalho protegido por direitos autorais. . . Para fins como críticas, comentários, reportagens, ensino (incluindo várias cópias para uso em sala de aula), bolsa de estudos ou pesquisa, não é uma violação de direitos autorais. Ao determinar se o uso feito de um trabalho em qualquer caso em particular é um uso justo, os fatores a serem considerados devem incluir –

(1) o objetivo e o caráter do uso, incluindo se esse uso é de natureza comercial ou é para fins educacionais sem fins lucrativos;

(2) a natureza do trabalho protegido por direitos autorais;

(3) a quantidade e a substancial da parte usada em relação ao trabalho protegido por direitos autorais como um todo; e

(4) O efeito do uso no mercado potencial para ou valor do trabalho protegido por direitos autorais.

Esses fatores pressupõem um “uso”. Então, no limiar, um tribunal deve decidir se um “direitos autorais [work] foi usado de várias maneiras ”, avaliar cada.[id] com o trabalho original. ” Id. e incorporou os diretamente em seu mecanismo de pesquisa – o único uso das miniaturas como “ponteiro[s]” to the images themselves. 508 F.3d 1146, 1157, 1160, 1165 (9th Cir. 2007). Sometimes, the copying involves many uses: In the Google Books cases, Google borrowed books from libraries, made both full-image and text-only copies, and incorporated different copies into different tools — one use being to reveal information “about those books,” another use being to provide the books to print-disabled patrons, and still another being para fazer backup dos livros de impressão se Lost.

Nossas partes debatem uma decisão instrutiva. Na União Geofísica Americana v. Texaco Inc., os funcionários da Texaco usaram artigos científicos em uma biblioteca central, usaram cópias deles em bibliotecas de mesa pessoais e usaram cópias selecionadas novamente no laboratório científico – o primeiro uso pago, a segunda infração e a terceira plausivelmente justa, mas de fato, uma ocorrência rara. 802 F. Sup. 1, 4-5, 14 (SDNY 1992) (Juiz Pierre Leval), Aff’d, 60 F.3d 913, 918-19, 926 (2d Cir. 1994).

Aqui, nossas partes contestam o que o uso ou os usos estão em questão. Anthrópica afirma que copiou os livros dos autores apenas para um uso: apenas para treinar LLMs. Por outro lado, os autores afirmam que o fizeram por pelo menos dois usos: primeiro a construir uma vasta biblioteca central de conteúdo potencialmente útil e o segundo para treinar LLMs específicos usando conjuntos de mudanças e subconjuntos desse conteúdo-ao longo do tempo, selecionando os trabalhos mais bem organizados e bem expressos para o treinamento. Os autores também reclamam que a mudança de formato de impressão para digital foi uma infração não abreviada como um uso justo (Opp. 15, 25). Os autores não alegam, no entanto, que quaisquer saídas de LLM que vindam seus trabalhos já chegaram aos usuários do serviço Claude, voltado para o público. Este pedido aborda cada um dos quatro fatores, apontando como cada um se aplica às cópias de treinamento e às cópias de biblioteca adquiridas e piratas. Conclui com uma análise integrada.

1. O objetivo e o caráter do uso.

Para um determinado uso em questão, o primeiro fator aborda “o objetivo e o caráter de[at] Use, incluindo se [it] é de natureza comercial ou é para fins educacionais sem fins lucrativos. ” 17 USC § 107 (1).

A. As cópias usadas para treinar LLMs específicos.

Todos concordam que um uso em questão foi a Treination LLMS para receber entradas de texto e retornar saídas de texto. Mais especificamente, cópias antrópicas usadas dos trabalhos protegidos por direitos autorais dos autores para mapear iterativamente as relações estatísticas entre todos os fragmentos de texto e todas as seqüências de fragmentos de texto, para que um LLM concluído pudesse receber novas entradas de texto e retornar novos resultados de texto como se fosse uma leitura humana e escreva respostas. Os autores argumentam ainda – e essa ordem considera certa – que esse treinamento implicava “Memoriz[ing]”Funciona por“ Compresso[ing]Cópias desses trabalhos no LLM (Opp. 16–17; ver Opp. Especialista Zhao ¶ 74). O LLMS “Memorize[d] Muito, como muito ”(Opp. Exh. 35 em -029109). Independentemente disso, o“ propósito e caráter ”do uso de obras para treinar LLMs foi transformador -espetacularmente. Nenhuma saída infrator chegou aos usuários. Mas esse não é esse caso.

Em vez disso, os autores desafiam apenas as entradas, não as saídas, desses LLMs. Eles apontam para o LLMS totalmente treinado e o serviço de Claude apenas para esclarecer como o treinamento em si usa cópias de seus trabalhos e a maneira como o serviço de Claude poderia ser usado para produzir outros trabalhos que competiriam com seus trabalhos. Este pedido faz o mesmo. Os argumentos dos autores que o uso do treinamento não é transformador são inúteis.

Primeiro, os autores argumentam que o uso de obras para treinar os LLMs subjacentes de Claude era como usar obras para treinar qualquer pessoa para ler e escrever, de modo que os autores devem ser capazes de excluir antropia desse uso (Opp. 16). Mas os autores não podem excluir corretamente ninguém de usar seus trabalhos para treinar ou aprender como tal. Todo mundo também lê textos, depois escreve novos textos. Eles podem precisar pagar por colocar as mãos em um texto em primeira instância. Mas para fazer com que alguém pague especificamente pelo uso de um livro cada vez que o li, cada vez que o lembra da memória, cada vez que mais tarde o atrai ao escrever coisas novas de novas maneiras, seria impensável. Durante séculos, lemos e releitamos livros. Admiramos, memorizamos e internalizamos seus temas abrangentes, seus pontos substantivos e suas soluções estilísticas para problemas de escrita recorrentes.

Segundo, para esse último ponto, os autores argumentam ainda que o treinamento pretendia memorizar os elementos criativos de seus trabalhos-não apenas os trabalhos não protegíveis (Opp. 17). Mas este é o mesmo argumento. Novamente, os LLMs da Anthropic não se reproduziram ao público, elementos criativos de um determinado trabalho, nem mesmo o estilo expressivo identificável de um autor (assumindo o argumento de que estes são mesmo direitos autorais). Sim, Claude produziu gramática, composição e estilo que o LLM subjacente destilou de milhares de obras. Mas se alguém lesse todos os clássicos modernos por causa de sua expressão excepcional, memorizasse-os e depois imitasse uma mistura de sua melhor escrita, isso violaria o ato de direitos autorais? Claro que não. Os direitos autorais não se estendem ao “método[s] de operação, conceito[s]Assim, [or] princípio[s]”“ Ilustrado[ ] ou incorporado em [a] trabalhar.” 17 USC § 102 (b); elementos);

Terceiro, os autores argumentam que os computadores, no entanto, não devem fazer o que as pessoas fazem.

Os autores citam uma decisão que parece dizer tanto (Opp. 16–17). Mas o juiz enfatizou duas vezes ao discutir “propósito e caráter” do uso que o que foi treinado foi “não é generativa IA (AI que escreve novo conteúdo)”. Em vez disso, o que foi treinado – usando um sistema proprietário para encontrar opiniões judiciais em resposta a um determinado tópico legal – foi uma ferramenta de IA concorrente para encontrar opiniões judiciais em resposta a um determinado tópico legal. Isso não foi transformador. Thomson Reuters entra. Center GmbH v. Ross Intell. Inc., 765 F. Sup. 3d 382, ​​398 (D. Del. 2025) (juiz Stephanos Bibas), apelo, nº 25-8018 (3d Cir. 14 de abril de 2025).

Um análogo melhor aos nossos fatos seria uma ferramenta de IA treinada – usando opiniões judiciais e cuecas, artigos de revisão da lei e similares – para receber instruções legais e responder com novas redações legais. E, em fatos como esses, um tribunal diferente saiu de outra maneira. Encontrou uso justo. White v. W. Pub. Corp., 29 F. Sup. 3d 396, 400 (SDNY 2014) (juiz Jed Rakoff).

O último uso permaneceu suficientemente “ortogonal” para qualquer coisa que qualquer proprietário de direitos autorais poderia esperar controlar. Veja Warhol, 598 EUA em 538-40. Assim, poderia ser libertado para o copista usar, “promover[ing] O progresso da ciência e das artes, sem diminuir o incentivo para criar. ” Id.

Em suma, o objetivo e o caráter do uso de obras protegidas por direitos autorais para treinar LLMs para gerar novo texto foi transformador por excelência. Como qualquer leitor que aspira a ser escritor, os LLMs da Anthrópica treinaram as obras para não correr à frente e replicá -los ou substituí -los – mas para virar um canto duro e criar algo diferente. Se esse processo de treinamento exigiu razoavelmente fazer cópias dentro do LLM ou não, essas cópias foram envolvidas em um uso transformador.

O primeiro fator favorece o uso justo para as cópias de treinamento. Mas esse não é o único uso em questão.



Sobre a série PDF legal de Hackernoon: trazemos a você os mais importantes e perspicazes registros de casos de domínio público.

Este processo judicial recuperado em 25 de junho de 2025, do storage.courtlistener.com, faz parte do domínio público. Os documentos criados pelo tribunal são obras do governo federal e, nos termos da lei de direitos autorais, são automaticamente colocados em domínio público e podem ser compartilhados sem restrição legal.

fonte