TechBriefly KR
  • Tech
  • Business
  • Geek
  • How to
  • FAQ
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us
No Result
View All Result
TechBriefly KR
No Result
View All Result
Home Tech
OpenAI는 GPT-4 개발에 YouTube 데이터를 사용한 것으로 알려졌습니다.

OpenAI는 GPT-4 개발에 YouTube 데이터를 사용한 것으로 알려졌습니다.

byEmre Çıtak
08/04/2024
in Tech
Reading Time: 1 min read
Share on FacebookShare on Twitter

OpenAI는 고급 언어 모델인 GPT-4를 개발하기 위해 막대한 양의 YouTube 동영상 데이터를 활용한 것으로 알려졌습니다.

이 회사는 백만 시간이 넘는 비디오 콘텐츠를 복사했다고 합니다.

이 소식은 거대 기술 기업들이 AI 모델이 갈망하는 연료인 데이터를 수집하기 위해 점점 더 창의적인(때로는 논란의 여지가 있는) 방법을 찾고 있는 인공 지능(AI) 업계의 광범위한 추세와 함께 나왔습니다.

YouTube가 AI에 중요한 이유

그만큼 뉴욕 타임즈 최근 YouTube에서 며칠 전 플랫폼의 동영상이 SORA의 교육 데이터 소스로 사용되는지 여부를 물으면서 개발과 관련된 이 사실을 밝혔습니다.

그렇다면 교육 데이터를 얻기 위해 YouTube를 찾는 이유는 무엇일까요? 정말 간단합니다. YouTube는 사실상 무한한 음성 언어의 보고를 제공합니다. 모든 동영상 블로그, 언박싱 동영상, 장황한 튜토리얼에는 다양하고 지저분한 인간의 음성이 모두 포함되어 있습니다. GPT-4와 같은 대규모 언어 모델은 엄청난 양의 텍스트를 ‘섭취’하고 분석하여 학습하므로 비디오에서 복사된 오디오는 귀중한 자료가 됩니다.

그러나 YouTube의 오디오를 유용한 교육 데이터로 전환하는 것은 복잡한 질문을 제기합니다. OpenAI의 음성 인식 도구인 ‘Whisper’는 방대한 양의 영상 자료를 복사하는 데 중요한 역할을 했습니다. 이러한 전사 과정은 필요하기는 하지만 저작권 및 공정 사용 고려 사항에 초점을 맞춥니다.

  Ubisoft가 XDefiant를 중단하면서 277개의 일자리가 사라졌습니다.

데이터, 데이터는 어디에나… 하지만 OpenAI가 낚아채도 괜찮을까요?

AI를 강화하기 위한 강력한 데이터 세트를 찾는 것은 결코 OpenAI에만 국한된 것이 아닙니다. 전반적으로 거대 기술 기업들도 동일한 과제에 직면해 있습니다. 결국, AI 모델은 데이터를 많이 사용하는 것으로 악명 높습니다. 입력 데이터가 다양하고 품질이 높을수록 실제 복잡성을 처리할 수 있는 모델이 더 잘 갖추어져 있습니다.

창의적인 데이터 소스를 찾아야 한다는 압박감은 이해할 만합니다. OpenAI의 경우 회사는 2021년에 보다 전통적인 교육 자료가 부족해진 후 팟캐스트 및 오디오북과 같은 옵션을 모색한 것으로 알려졌습니다. 그러나 이러한 데이터 탐색은 법적, 윤리적으로 허용되는 것으로 간주되는 범위를 넓히는 잠재적인 단점이 있습니다.

openai는 YouTube 데이터를 사용한 것으로 알려졌습니다.
OpenAI는 고급 언어 모델인 GPT-4를 개발하기 위해 백만 시간이 넘는 YouTube 비디오 데이터를 활용한 것으로 알려졌습니다. (이미지 제공)

AI 데이터와 저작권이 충돌하는 회색지대

YouTube에는 일반적으로 콘텐츠 사용 방법을 제한하는 명확한 서비스 약관이 있습니다. 저작권법에 ‘공정한 사용’ 조항이 존재하지만(국가마다 다양한 해석이 있음) 광범위한 데이터 스크랩을 정당화하기 위해 해당 조항에 의존하는 것은 법적 도박이 될 수 있습니다.

문제는 간단하지 않습니다. 기술 회사가 기존 콘텐츠를 사용하여 AI 시스템을 교육할 때 다음과 같은 질문이 생깁니다.

  • 이로 인해 원본 콘텐츠 제작자가 자신의 작업에서 이익을 얻을 수 있는 능력이 잠재적으로 제한됩니까?
  • 자신의 자료가 상용 AI 도구 개발을 촉진한다면 제작자는 충분한 보상을 받나요?
  • 대규모 훈련 데이터 수집에 대해 보다 명확한 지침이나 규정이 있어야 합니까?
  ZTE Blade 20 Pro: 5G 연결을 지원하는 슬림하고 곡선형 화면

AI의 큰 식욕은 더 큰 질문을 제기합니다

OpenAI 사례는 현대 AI 산업에서 데이터에 대한 끝없는 필요성이라는 더 광범위한 추세를 강조합니다. AI 기술이 더욱 정교해짐에 따라 훈련 데이터의 출처를 둘러싼 윤리적, 법적 문제가 주목을 받게 될 것입니다.

YouTube 동영상, 코드 저장소, 기타 유형의 사용자 생성 콘텐츠 등 빠르게 발전하는 기술에 대한 대중의 신뢰를 유지하려면 데이터의 공정하고 책임감 있는 사용을 보장하는 것이 중요합니다.


주요 이미지 크레딧: 잭 울프/Unsplash

Source: OpenAI는 GPT-4 개발에 YouTube 데이터를 사용한 것으로 알려졌습니다.

Related Posts

최신 Android 패치를 설치하는 간단한 단계

최신 Android 패치를 설치하는 간단한 단계

Zedge에서 무료 벨소리를 다운로드하는 방법

Zedge에서 무료 벨소리를 다운로드하는 방법

Android에서 앱 및 서비스를 강제 종료하는 방법

Android에서 앱 및 서비스를 강제 종료하는 방법

Amazon, 배송된 장치의 97%가 Alexa+를 지원한다고 밝혔습니다.

Amazon, 배송된 장치의 97%가 Alexa+를 지원한다고 밝혔습니다.

최신 Android 패치를 설치하는 간단한 단계
Tech

최신 Android 패치를 설치하는 간단한 단계

Zedge에서 무료 벨소리를 다운로드하는 방법
Tech

Zedge에서 무료 벨소리를 다운로드하는 방법

Android에서 앱 및 서비스를 강제 종료하는 방법
Tech

Android에서 앱 및 서비스를 강제 종료하는 방법

Amazon, 배송된 장치의 97%가 Alexa+를 지원한다고 밝혔습니다.
Tech

Amazon, 배송된 장치의 97%가 Alexa+를 지원한다고 밝혔습니다.

Apple은 App Store 출시 이후 개발자에게 5,500억 달러를 지급했습니다.
Tech

Apple은 App Store 출시 이후 개발자에게 5,500억 달러를 지급했습니다.

TechBriefly KR

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • About Tech Briefly
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Privacy Policy
  • TechBriefly
  • Terms and Conditions

Follow Us

No Result
View All Result
  • Tech
  • Business
  • Geek
  • How to
  • FAQ
  • about
    • About Tech Briefly
    • Terms and Conditions
    • Privacy Policy
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.