Wikipedia는 AI-Ready 데이터를 제공하여 스크래핑을 억제합니다

Wikipedia는 자동화 된 AI 봇으로 인한 서버의 스크래핑 및 긴장을 줄이기 위해 기계 학습에 최적화 된 데이터 세트를 공개하여 AI 개발자가 데이터에보다 액세스 할 수 있도록합니다.

Wikimedia Foundation은 Google 소유 데이터 과학 커뮤니티 플랫폼 인 Kaggle과 제휴하여 구조화 된 Wikipedia 컨텐츠의 베타 데이터 세트를 영어 및 프랑스어로 게시했습니다. 이 데이터 세트는 “머신 러닝 워크 플로우를 염두에두고 설계”되어 개발자가 모델링, 미세 조정, 벤치마킹, 정렬 및 분석을 포함한 다양한 AI 애플리케이션에 대한 기계식 기사 데이터에 쉽게 액세스 할 수 있습니다.

데이터 세트에는 연구 요약, 짧은 설명, 이미지 링크, Infobox 데이터 및 기사 섹션과 같은 다양한 컨텐츠가 포함됩니다. 그러나 오디오 파일과 같은 참조 및 작성되지 않은 요소는 제외됩니다. 4 월 15 일 현재 데이터는 “잘 구조화 된 JSON 표현”으로 표시되며, 이는 원시 기사 텍스트를 긁어 내거나 구문 분석하는 것보다 개발자에게 더 매력적이어야합니다. 이러한 움직임은 현재 자동화 된 AI BOT 활동에 의해 크게 소비되는 Wikipedia의 서버의 긴장을 완화시킬 것으로 예상됩니다.

Wikimedia Foundation은 이미 Google 및 인터넷 아카이브와 콘텐츠 공유 계약을 체결했습니다. 그러나 Kaggle과의 이러한 파트너십은 소규모 기업 및 독립 데이터 과학자에게 데이터에 더 액세스 할 수 있도록하는 것을 목표로합니다. Kaggle은 데이터 세트를 호스팅함으로써 데이터에 액세스 할 수 있고 사용 가능하며 머신 러닝 커뮤니티에 유용하게 유지하는 데 중요한 역할을하고 있습니다.

App Store에서 국가를 변경하는 방법은 무엇입니까?

Kaggle Partnerships Lead 인 Brenda Flynn은“머신 러닝 커뮤니티가 도구와 테스트를 위해 오는 곳으로 인해 Kaggle은 Wikimedia Foundation의 데이터의 호스트가되어 매우 기쁩니다. “Kaggle 은이 데이터에 액세스 할 수 있고 사용 가능한 유용성을 유지하는 데 역할을하게되어 기쁩니다.”

데이터 세트의 출시는 2025 년 4 월 17 일에 발표되어 AI 개발자와의 관계를 맺고 AI 중심 트래픽이 플랫폼에 미치는 영향을 관리하려는 Wikipedia의 노력의 중요한 단계를 나타냅니다.

Source: Wikipedia는 AI-Ready 데이터를 제공하여 스크래핑을 억제합니다

Wikipedia는 AI-Ready 데이터를 제공하여 스크래핑을 억제합니다

Related Stories

Apple, watchOS 27 베타 3의 Apple Watch에서 Siri AI 활성화

애플, 2026년 폴더블 아이폰 울트라 출시 루머

Google, Android 휴대전화 백업 저장 규칙 변경

삼성, 갤럭시 S26용 네 번째 One UI 9 베타 예정