Wikipedia는 자동화 된 AI 봇으로 인한 서버의 스크래핑 및 긴장을 줄이기 위해 기계 학습에 최적화 된 데이터 세트를 공개하여 AI 개발자가 데이터에보다 액세스 할 수 있도록합니다.

Wikimedia Foundation은 Google 소유 데이터 과학 커뮤니티 플랫폼 인 Kaggle과 제휴하여 구조화 된 Wikipedia 컨텐츠의 베타 데이터 세트를 영어 및 프랑스어로 게시했습니다. 이 데이터 세트는 “머신 러닝 워크 플로우를 염두에두고 설계”되어 개발자가 모델링, 미세 조정, 벤치마킹, 정렬 및 분석을 포함한 다양한 AI 애플리케이션에 대한 기계식 기사 데이터에 쉽게 액세스 할 수 있습니다.

데이터 세트에는 연구 요약, 짧은 설명, 이미지 링크, Infobox 데이터 및 기사 섹션과 같은 다양한 컨텐츠가 포함됩니다. 그러나 오디오 파일과 같은 참조 및 작성되지 않은 요소는 제외됩니다. 4 월 15 일 현재 데이터는 “잘 구조화 된 JSON 표현”으로 표시되며, 이는 원시 기사 텍스트를 긁어 내거나 구문 분석하는 것보다 개발자에게 더 매력적이어야합니다. 이러한 움직임은 현재 자동화 된 AI BOT 활동에 의해 크게 소비되는 Wikipedia의 서버의 긴장을 완화시킬 것으로 예상됩니다.

Wikimedia Foundation은 이미 Google 및 인터넷 아카이브와 콘텐츠 공유 계약을 체결했습니다. 그러나 Kaggle과의 이러한 파트너십은 소규모 기업 및 독립 데이터 과학자에게 데이터에 더 액세스 할 수 있도록하는 것을 목표로합니다. Kaggle은 데이터 세트를 호스팅함으로써 데이터에 액세스 할 수 있고 사용 가능하며 머신 러닝 커뮤니티에 유용하게 유지하는 데 중요한 역할을하고 있습니다.

  GPT-4를 시도하고 가장 발전된 챗봇의 기능을 활용하는 방법은 무엇입니까?

Kaggle Partnerships Lead 인 Brenda Flynn은“머신 러닝 커뮤니티가 도구와 테스트를 위해 오는 곳으로 인해 Kaggle은 Wikimedia Foundation의 데이터의 호스트가되어 매우 기쁩니다. “Kaggle 은이 데이터에 액세스 할 수 있고 사용 가능한 유용성을 유지하는 데 역할을하게되어 기쁩니다.”

데이터 세트의 출시는 2025 년 4 월 17 일에 발표되어 AI 개발자와의 관계를 맺고 AI 중심 트래픽이 플랫폼에 미치는 영향을 관리하려는 Wikipedia의 노력의 중요한 단계를 나타냅니다.

Source: Wikipedia는 AI-Ready 데이터를 제공하여 스크래핑을 억제합니다