OpenAI는 저작권 침해 소송으로 진행 중인 소송 과정에서 뉴욕타임스와의 저작권 소송과 관련된 중요한 데이터를 실수로 삭제했습니다. 이 사건에는 원고에게 제공된 전용 가상 머신의 데이터가 포함되었으며, OpenAI는 최근 제출한 서류에서 이를 법원에 인정했습니다. 그 결과 타임즈의 변호사들은 사건과 관련된 일주일 분량의 업무를 상실했다고 밝혔습니다.
OpenAI는 New York Times와의 소송으로 데이터 손실에 직면
Times 법무팀이 보낸 서한에 따르면, 이번 데이터 손실은 “전문가와 변호사의 작업 전체 일주일치”와 관련되어 있으며 “회복 불가능하게 손실되었습니다.” 원고는 OpenAI의 모델이 승인되지 않은 콘텐츠에 대해 훈련을 받았다는 주장을 조사하고 있었습니다. 이 프로세스의 일환으로 OpenAI의 교육 데이터 세트에 대한 150시간 이상의 집중적인 연구, 특히 저작권 침해 사례를 찾는 데이터를 축적했습니다. TechCrunch의 보고서에 따르면 “전용 가상 머신 중 하나에 저장된 프로그램 및 검색 결과 데이터가 OpenAI 엔지니어에 의해 삭제된” 11월 14일에 삭제가 발생했다고 합니다.
소송의 핵심은 OpenAI와 Microsoft(Bing AI 챗봇에 OpenAI 기술을 사용하는 파트너)가 허가 없이 페이월 콘텐츠를 활용하여 The New York Times의 저작권을 침해했다는 것입니다. The Times는 OpenAI의 모델이 해당 기사의 “거의 그대로” 복제물을 생성하여 손해 배상 주장을 펼치고 있다고 주장합니다. OpenAI는 자신의 훈련이 공개적으로 이용 가능한 데이터를 기반으로 했으며 저작권법에 따라 공정 사용에 해당한다고 주장하면서 이러한 주장을 일관되게 반박해 왔습니다.
OpenAI 대변인은 이번 사건이 “결함”이었다고 논평했습니다. 동시에 삭제된 데이터의 대부분을 성공적으로 복구했으며 “폴더 구조 및 파일 이름”을 포함한 중요한 요소는 손실되어 결과적으로 사용할 수 없습니다. 그 결과, 이제 Times의 변호사들은 증거 수집을 처음부터 다시 시작해야 하는 과제에 직면하게 되었습니다. 상황에도 불구하고 그들은 “믿을 이유가 없다”고 보고했다. [the erasure] 의도적이었습니다.”라고 말하며 OpenAI가 데이터세트를 검색하는 데 가장 적합한 위치에 있다고 강조했습니다. 그러나 그들은 또한 회사가 교육 데이터에 대한 세부 정보 공개를 꺼린다는 점도 지적했습니다.

더욱 복잡한 문제는 OpenAI에 대한 유사한 저작권 주장이 등장했다는 것입니다. 최근 Raw Story와 AlterNet이 회사를 상대로 제기한 소송은 원고가 자신의 주장과 관련된 피해에 대한 충분한 증거를 제공할 수 없다는 이유로 기각되었습니다. 반면 뉴욕타임스는 OpenAI에 대한 소송을 진행하기 위해 법적 비용으로 100만 달러 이상을 투자한 것으로 알려졌습니다. 이러한 재정적인 약속은 대규모 기술 기업과 경쟁할 때 소규모 출판사가 직면하는 뚜렷한 어려움을 보여줍니다.
반면, OpenAI는 최근 여러 주요 미디어 회사와 라이선스 계약을 체결하여 해당 콘텐츠를 사용하여 AI 모델을 교육하고 보상과 크레딧을 제공할 수 있도록 허용했습니다. 보고서에 따르면 OpenAI는 현재 진행 중인 소송보다는 공식적인 파트너십을 추구하는 전략을 반영하여 거대 출판사인 Dotdash Meredith에게 라이선스 권리 대가로 연간 최소 1,600만 달러를 지불하고 있는 것으로 나타났습니다.
이미지 크레딧: 푸르칸 데미르카야/표의문자
OpenAI가 실수로 중요한 데이터를 삭제하면서 NewYork Times의 법적 문제가 심화되는 게시물이 TechBriefly에 처음 등장했습니다.
Source: OpenAI가 실수로 중요한 데이터를 삭제함에 따라 NewYork Times 법적 문제가 심화됩니다.







