Jump to content

Wikilegal/Direitos Autorais do ChatGPT

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Wikilegal/Copyright Analysis of ChatGPT and the translation is 100% complete.

Introdução

A partir do início de 2023, a natureza criativa das novas ferramentas de IA está gerando discussões sobre as leis atuais dos EUA que podem se aplicar a elas, principalmente no que diz respeito às limitações que concedem proteção por direitos autorais somente a obras criadas por humanos. O ChatGPT é uma parte central dessa discussão. Como um programa de aprendizado de máquina, o ChatGPT foi treinado com diversos textos de diferentes fontes, muitos dos quais são textos abertos licenciados sob Creative Commons , incluindo a Wikipédia. Este artigo tem como objetivo analisar como o ChatGPT e outras ferramentas semelhantes interagem com as leis atuais de direitos autorais dos EUA. No entanto, como este é um tema em constante evolução e diversos casos ainda estavam em andamento na data de publicação, se este artigo for lido muito tempo após ter sido escrito, estará provavelmente desatualizado.

Algumas outras jurisdições, como o Reino Unido, têm uma visão completamente diferente sobre o assunto.

O que é o ChatGPT?

ChatGPT é um modelo de linguagem de IA desenvolvido pela OpenAI e lançado em novembro de 2022. Consiste em um programa de aprendizado de máquina que interage com os usuários de forma conversacional, permitindo que façam perguntas em linguagem natural sobre praticamente qualquer assunto. Ele produz respostas escritas em uma linguagem que aparenta ser natural, utilizando um modelo estatístico baseado em seus dados de treinamento. Como modelo de linguagem de IA, o ChatGPT pode ser usado para diversos fins, incluindo responder perguntas, gerar textos, traduzir idiomas e muito mais. No entanto, devido à natureza estatística de seu modelo, às vezes fornecerá uma resposta incorreta a uma pergunta ou “alucinar” informações que não existem.

Como o ChatGPT funciona?

O ChatGPT utiliza algoritmos de aprendizado de máquina para aprender a partir de grandes quantidades de dados textuais e gerar respostas aos inputs dos usuários que geralmente são adequadas ao contexto. Durante seu treinamento, o ChatGPT foi exposto a uma vasta quantidade de textos de diferentes fontes, incluindo livros, artigos e sites. Por meio desse processo, o modelo de linguagem foi programado para reconhecer padrões textuais e produzir possíveis continuações apropriadas para um determinado contexto de entrada. Esse processo é conhecido como “aprendizado não supervisionado”, pois o algoritmo aprendeu padrões a partir de dados não rotulados, ou seja, dados aos quais foi exposto sem ser explicitamente instruído sobre o que fazer. Como resultado, quando um usuário insere uma pergunta, o modelo gera uma resposta com base na linguagem e no contexto da entrada.

O ChatGPT processa texto dividindo-o em tokens que têm aproximadamente o tamanho de um morfema e, a partir deles, tenta prever as continuações mais prováveis do texto de entrada, um token por vez, o que equivale, aproximadamente, a um morfema de cada vez. Ele é capaz de responder a entradas em muitas línguas naturais e construídas, incluindo linguagens de programação.

Leis de direitos autorais aplicáveis a sistemas de IA

Segundo a lei de direitos autorais dos EUA, não há proteção para obras criadas exclusivamente por programas de aprendizado de máquina, pois esses programas não possuem personalidade jurídica sendo considerados sem direitos no atual arcabouço legal. No entanto, pode haver circunstâncias em que os criadores consigam demonstrar uma contribuição humana substancial e, portanto, argumentar que sua obra é passível de proteção por direitos autorais. Outros casos envolvem o uso de dados protegidos por direitos autorais no treinamento desses modelos. As perguntas a seguir exploram esses cenários com mais detalhes.

É possível usar obras protegidas por direitos autorais para treinar modelos de IA?

A primeira série de questões envolvendo inteligência artificial e direitos autorais diz respeito aos dados utilizados para treinar esses modelos. A maioria desses sistemas utiliza conteúdo disponível na internet, incluindo blogs pessoais, plataformas de arte, enciclopédias online e outros. O argumento por trás do uso de uma quantidade tão grande de conteúdo sem licença é que se acredita que o uso dessas imagens se enquadre na doutrina do uso justo (fair use) nos Estados Unidos [1]. Para fins desta análise, é importante esclarecer que a doutrina do uso justo se aplica somente nos Estados Unidos e em algumas poucas outras jurisdições que a reconhecem, e sua aplicabilidade pode variar em outros sistemas jurídicos. De acordo com essa doutrina legal, o uso de material protegido por direitos autorais é permitido sem autorização em circunstâncias limitadas, quando promover uma atividade socialmente benéfica, como crítica, reportagens, pesquisa e educação acadêmica.

A equipe jurídica da Fundação já publicou anteriormente uma introdução ao uso justo. No que é relevante para esta discussão, ao determinar se algo se enquadra como uso justo, diversos fatores são considerados, incluindo o propósito e o caráter do uso, a natureza da obra protegida por direitos autorais, a quantidade e a substancialidade da parte utilizada em relação à obra na totalidade, e o impacto sobre o mercado potencial ou o valor da obra protegida [2]. Em outras palavras, esses fatores avaliam se o uso promove uma atividade socialmente benéfica, se a obra é publicada ou inédita e quão criativa ela é, qual porcentagem da obra original foi utilizada e se o uso justo substitui ou compete com a obra protegida por direitos autorais.

No passado, cópias em larga escala já foram consideradas uso justo. Isso inclui a reprodução massiva de imagens para resultados de busca por imagens e a recuperação de trechos de livros para preservação digital. No entanto, existem algumas distinções importantes entre o treinamento de um programa como o ChatGPT e esses precedentes anteriores. Em especial, o uso justo considera o impacto comercial e a substituição das obras originais, um tema que continua sendo explorado no caso das ferramentas de IA. Se for determinado que o ChatGPT ou programas semelhantes substituem as obras utilizadas em seu treinamento, em prejuízo do uso comercial dessas obras, é possível que esse uso não seja considerado justo.

Com isso em mente, é importante notar que as licenças Creative Commons permitem a reprodução e reutilização livre de conteúdo, de modo que programas de IA como o ChatGPT podem copiar textos de um artigo da Wikipédia ou uma imagem do Wikimedia Commons. No entanto, ainda não está claro se a cópia massiva de conteúdo dessas fontes pode resultar em violação da licença Creative Commons caso não haja atribuição adequada. De modo geral, é provável que, se os precedentes atuais forem mantidos, o treinamento de sistemas com dados protegidos por direitos autorais seja considerado uso justo nos Estados Unidos, mas há uma incerteza significativa no momento em que este texto foi escrito.

É possível proteger com direitos autorais conteúdos gerados por IA e, em caso afirmativo, quem é o proprietário?

Uma segunda questão diz respeito ao que pode ser feito com os conteúdos gerados por programas de IA. Em setembro de 2022, o Escritório de Direitos Autorais dos EUA (US Copyright Office) concedeu o primeiro direito autoral para uma obra criada por uma IA de difusão latente.[3] No entanto, em 22 de fevereiro de 2023, o USCO reconsiderou a proteção concedida para uma obra criada com o Midjourney, um gerador de imagens por IA que produz imagens a partir de entradas textuais.[4] Em sua decisão, o USCO determinou que as imagens “não são produto de autoria humana”. A decisão foi baseada principalmente no fato de que o resultado era aleatório e não podia ser previsto com antecedência. Para o USCO, isso significava que não se tratava de uma obra de autoria humana, mas sim de um processo mecânico aleatório. Segundo o USCO, a concessão de direitos autorais, conforme a legislação dos EUA, exige criatividade humana suficiente e, portanto, decidiu cancelar o registro. Poucas semanas depois, o Escritório de Direitos Autorais dos EUA publicou orientações detalhadas esclarecendo suas práticas para examinar e registrar obras que contenham material gerado com o uso de tecnologia de inteligência artificial.[5]

Assumindo, no entanto, que alguma obra possa ser resultado de uma autoria humana original e criativa, vários elementos precisam ser considerados ao decidir quem é o titular dos direitos autorais sobre a obra:

A lei de direitos autorais não exclui explicitamente obras produzidas por inteligência artificial. No entanto, segundo a Lei de Direitos Autorais dos EUA, qualquer obra deve atender aos seguintes critérios:[6]

  • Obras originais de autoria.
  • Fixadas em um meio tangível.
  • Um grau mínimo de criatividade.

Se uma obra de arte não atender a todos esses três requisitos, ela não se qualifica para proteção por direitos autorais, mesmo que tenha sido criada por um ser humano.

O direito autoral é concedido ao criador, que passa a ter direitos exclusivos para decidir sobre o uso futuro de sua obra.

Com base no exposto, existem algumas preocupações em relação à titularidade das obras geradas por IA. Em especial, pode haver alegações de infração com base em obras protegidas por direitos autorais usadas como entrada na IA, o que pode violar os direitos dos detentores desses direitos. Nesse sentido, algumas considerações precisam ser feitas, especialmente quando o resultado gerado pela IA infringe os direitos autorais de uma obra existente. Por essa razão, a aplicação do padrão de semelhança substancial torna-se relevante, ao ajudar a determinar se um autor reproduziu uma obra protegida por direitos autorais já existente, mesmo que a criação do autor não seja idêntica à obra original protegida.

Não existe uma regra padronizada para determinar se há uma semelhança substancial; em vez disso, os tribunais analisam geralmente os fatos do caso e o grau de criatividade envolvido no processo. No entanto, nem toda cópia é passível de ação judicial. Por exemplo, copiar somente pequenos elementos de uma obra, quando as partes copiadas pertencem ao domínio público, é legal.[7] De modo geral, o objetivo do teste é proibir a cópia substancial de uma obra protegida.

Outra consideração importante é que a IA frequentemente incorpora reproduções de obras protegidas por direitos autorais na criação de novas obras de arte. Tal nova obra pode ser considerada uma derivação não autorizada e, portanto, constituir infração. Além disso, armazenar cópias de obras protegidas por direitos autorais sem justificativa também configura uma infração.

Em alguns casos, o proprietário da IA pode ser responsabilizado por infração se parecer ser o responsável por causar a violação dos direitos autorais.

Isso cria uma situação jurídica um tanto incomum: como as obras geradas por IA não são protegidas por direitos autorais segundo as leis atuais, é provável que nem a pessoa que forneceu o prompt, nem a empresa responsável pela IA tenham direitos sobre a obra. No entanto, se o resultado infringir os direitos autorais de uma obra existente, é possível que o usuário ou a empresa de IA possam ser responsabilizados pela infração.

Preocupações com direitos autorais em imagens geradas por IA e posteriormente modificadas

Se um modelo de IA for treinado com milhões de imagens e usado para gerar novas imagens, isso pode não constituir infração de direitos autorais nos Estados Unidos, caso o método de treinamento se enquadre no uso justo. No entanto, considerando a decisão mais recente do USCO, se um ser humano modificar uma obra gerada por IA, é possível que ele detenha os direitos autorais sobre sua modificação de uma obra de IA pertencente ao domínio público. Isso seguiria as regras padrão para obras derivadas, sendo a principal questão se as modificações humanas são suficientemente criativas para se qualificarem para proteção por direitos autorais própria.

Conclusão

For further information, see substantial similarity.

Dada a discussão atual de que o ChatGPT e outras plataformas de IA podem ser treinadas com conteúdo dos projetos Wikimedia, incluindo artigos da Wikipédia e imagens de cultura livre, e podem ser utilizados para gerar obras, torna-se fundamental compreender as diversas possíveis implicações jurídicas. Até o momento, todas as possibilidades permanecem em aberto, já que casos importantes envolvendo IA e direitos autorais ainda não foram resolvidos. No entanto, separar e compreender tanto as questões relativas à entrada quanto à saída de dados é talvez o primeiro passo para definir o futuro das obras geradas por IA. Em outras palavras, é crucial definir se é possível proteger por direitos autorais o que um modelo de IA cria e se é possível utilizar dados protegidos por direitos autorais para treinar modelos de IA. Encorajamos as comunidades Wikimedia a considerar esses temas ao revisar obras produzidas com IA nos projetos e ao refletir sobre novas políticas para o uso dessas ferramentas.

Referências

  1. “17 U.S. Code § 107 - Limitations on Exclusive Rights: Fair Use.” Legal Information Institute. Accessed March 22, 2023. https://www.law.cornell.edu/uscode/text/17/107
  2. “Copyright and Fair Use: A Guide for the Harvard Community,” Office of the General Counsel, February 16, 2023, https://ogc.harvard.edu/pages/copyright-and-fair-use#:~:text=Fair%20use%20is%20the%20right,law%20is%20designed%20to%20foster.
  3. Adam Schrader, “NYC Artist Granted First Known Registered Copyright for AI Art,” United Press International, September 24, 2022, https://www.upi.com/Top_News/US/2022/09/24/nyc-artist-granted-first-known-registered-copyright-ai-art/4081664063008/.
  4. “Zarya of the Dawn.” Reuters. United States Copyright Office, February 21, 2023. https://fingfx.thomsonreuters.com/.
  5. Copyright Registration Guidance: Works Containing Material Generated by Artificial Intelligence, U.S. Copyright Office. Federal Register. 88 FR 16190. 2023-05321. March 16, 2023. https://www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence
  6. U.S. Congress. United States Code: Copyright Office, 17 U.S.C. §§ 201-216. 1958. Periodical. https://www.loc.gov/item/uscode1958-004017003/.
  7. Balganesh, Shyamkrishna and Manta, Irina D. and Wilkinson-Ryan, Tess, Judging Similarity (2014). 100 Iowa Law Review 267 (2014), U of Penn Law School, Public Law Research Paper No. 14-15, Hofstra Univ. Legal Studies Research Paper No. 2014-09, Available at SSRN: https://ssrn.com/abstract=2409811