저자들은 최근 제기된 확대된 집단 소송에서 NVIDIA가 AI 훈련을 위해 Anna's Archive에서 수백만 권의 불법 복제 도서를 입수했다고 주장하면서 저작권 침해 혐의로 NVIDIA를 비난했습니다. 불만 사항에는 NVIDIA가 섀도우 라이브러리의 데이터에 대한 고속 액세스를 모색했음을 나타내는 내부 문서가 인용되어 있습니다. 칩 제조업체인 NVIDIA는 AI 학습 칩 및 데이터 센터 서비스에 대한 수요로 인해 인공 지능 부문에서 수익이 증가했습니다. 이 회사는 하드웨어와 광범위한 텍스트 라이브러리를 사용하여 훈련된 NeMo, Retro-48B, InstructRetro 및 Megatron과 같은 AI 모델을 개발합니다. 이번 법적 문제는 저자들이 기술 회사들이 불법 복제 도서로 AI 모델을 훈련시켰다고 비난한 이전 소송에 이은 것입니다. 2024년 초, 저자들은 NVIDIA의 AI 모델이 허가 없이 Bibliotik 사이트의 저작물을 포함하는 Books3 데이터세트에서 훈련되었다고 주장하며 NVIDIA를 고소했습니다. NVIDIA는 책이 AI 모델에 대한 통계적 상관 관계로 기능한다고 말하면서 자신의 행동을 공정 사용으로 옹호했습니다. 발견 과정에서 원고는 추가 증거를 발견했습니다. 금요일에 저자들은 소송 범위를 확대하는 수정된 고소장을 제출했습니다. 이 업데이트에는 새로운 “그림자 라이브러리” 주장과 함께 더 많은 책, 작가 및 AI 모델이 포함되었습니다. Abdi Nazemian을 포함한 저자들은 NVIDIA 내부 이메일과 문서를 인용하여 회사가 저작권이 있는 수백만 권의 도서를 기꺼이 다운로드했다고 주장했습니다. 불만 사항은 Anna's Archive와의 협력으로 설명되는 내용을 포함하여 “경쟁적 압력이 NVIDIA를 불법 복제로 몰아갔다”고 주장합니다. 수정된 불만사항에 따르면 NVIDIA 데이터 전략 팀원이 데이터 제공을 평가하기 위해 Anna's Archive에 연락했습니다. 불만 사항에는 상호 작용에 대해 자세히 설명되어 있습니다. “책이 절실한 NVIDIA는 수백만 개의 불법 복제 자료를 획득하고 '우리 LLM을 위한 사전 교육 데이터에 Anna's Archive를 포함'하는 것에 대해 남아 있는 섀도우 라이브러리 중 가장 크고 뻔뻔스러운 Anna's Archive에 연락했습니다.” Anna's Archive는 불법 복제된 컬렉션에 대한 “고속 액세스”에 대해 수만 달러를 청구했습니다. NVIDIA는 이 액세스의 세부 사항을 조사했습니다. 불만 사항에 따르면 Anna's Archive는 NVIDIA에 해당 라이브러리의 불법적 성격을 알렸습니다. 그런 다음 해적 도서관은 NVIDIA 경영진에게 내부 진행 허가가 부여되었는지 물었습니다. 허가는 일주일 이내에 부여된 것으로 알려졌으며 그 후 Anna의 아카이브는 불법 복제 도서에 대한 액세스를 제공했습니다. 고소장에는 “Anna의 아카이브에 연락한 지 일주일 이내에, 그리고 Anna의 아카이브로부터 컬렉션의 불법적 성격에 대한 경고를 받은 지 며칠 만에 NVIDIA 경영진은 불법 복제를 진행하라는 '청신호'를 보냈습니다. Anna의 아카이브는 NVIDIA에 수백만 권의 불법 복제 저작권 도서를 제공했습니다.”라고 고소장에 명시되어 있습니다. Anna's Archive는 법적 조사를 받고 있는 Internet Archive의 디지털 대출 시스템을 통해 일반적으로 사용할 수 있는 수백만 권의 도서가 포함된 약 500테라바이트의 데이터에 대한 NVIDIA 액세스를 약속했습니다. 불만사항에는 NVIDIA가 이 액세스에 대해 Anna's Archive에 비용을 지불했는지 여부가 명시되어 있지 않습니다. 불만사항에는 Books3 데이터베이스 외에도 NVIDIA가 LibGen, Sci-Hub 및 Z-Library에서 다운로드한 도서도 포함되어 있다고 주장합니다. 저자는 또한 기업 고객이 Books3 불법 복제 데이터 세트가 포함된 “The Pile”을 자동으로 다운로드할 수 있도록 하는 NVIDIA 배포 스크립트 및 도구를 주장합니다. 이러한 주장에는 NVIDIA가 이러한 데이터 세트에 대한 액세스를 촉진하여 고객으로부터 수익을 창출했다고 주장하는 대리 및 기여 침해 혐의가 포함됩니다. 저자는 집단 소송에서 명명된 저자와 잠재적으로 수백 명의 다른 사람들에게 적용하여 손해 배상을 요구합니다. 이는 미국의 주요 기술 회사와 Anna's Archive 간의 서신이 처음으로 공개된 것이며, 최근 도메인 이름 손실로 인해 해적 도서관의 가시성이 잠재적으로 높아질 수 있습니다. 캘리포니아 북부 지역 미국 지방 법원에 제출된 첫 번째 통합 및 수정 소장 사본은 PDF 형식으로 제공됩니다. 명명된 저자로는 Abdi Nazemian, Brian Keene, Stewart O'Nan, Andre Dubus III 및 Susan Orlean이 있습니다.