인터넷 인프라 제공 업체 Cloudflare는 AI 스타트 업이 웹 사이트 블록을 적극적으로 우회하고 AI 스크래핑에서 명시 적으로 선택한 사이트에서 컨텐츠를 긁어 내기 위해 정체성을 가리는 것으로 비난했습니다. Cloudflare는 월요일에 대한 연구를 발표했다.이 연구는 불쾌감이 어떻게 확립 된 규칙을 무시하고 그 크롤링 및 스크래핑 활동을 위장했는지에 대해 자세히 설명했다.
CloudFlare의 연구원들에 따르면, 당황은 웹 사이트 방문자의 장치 및 버전 유형을 식별하는 신호 인 봇의 “사용자 에이전트”를 변경하여 인터넷에서 대형 네트워크를 식별하는 숫자 인 자율 시스템 네트워크 (ASN)를 변경하여 신원을 모호하게하려고 시도했습니다. 이 주장 된 활동은“하루에 수만 건의 도메인과 수백만 건의 요청”에서 관찰되었으며, Cloudflare는“기계 학습과 네트워크 신호의 조합을 사용 하여이 크롤러를 지문 할 수있다”고 진술했다.
이 문제는 고객이 robots.txt 파일, 검색 엔진 및 AI 회사를 지시 할 수있는 AI 회사 및 알려진 당연 성 봇에 대한 특정 블록을 지시하는 데 사용되는 웹 표준 인 웹 표준에도 불구하고 당황 스티가 계속 크롤링하고 긁어 냈다고보고 한 후 CloudFlare의 관심을 끌었습니다. CloudFlare는 테스트를 수행하고 당황 스러움이 실제로 이러한 블록을 우회하고 있음을 확인했습니다. Cloudflare는“우리는 선언 된 크롤러가 차단되었을 때 선언 된 사용자 에이전트뿐만 아니라 MacOS에서 Google Chrome을 가장하려는 일반 브라우저를 사용한다는 것을 관찰했습니다.
이에 따라 CloudFlare는 검증 된 목록에서 나온 Perplexity의 봇을 가지고 있으며 새로운 차단 기술을 구현했습니다. 당황스런 대변인 인 Jesse Dwyer는 Cloudflare의 블로그 게시물을“판매 피치”로 기각했으며, TechCrunch는 게시물의 스크린 샷에“컨텐츠에 액세스되지 않았다는 것을 보여주고 Cloudflare가 명명 한 봇이“우리의 것이 아니다”라고 주장했다.
이 사건은 당황한 스크래핑이나 콘텐츠 사용에 대한 비난에 직면 한 것은 이번이 처음이 아닙니다. 작년에 유선을 포함한 뉴스 매체는 당황 스러움이 자신의 내용을 표절하고 있다고 주장했다. 몇 주 후, Disrupt 2024 Conference에서 인터뷰를하는 동안 Perplexity CEO 인 Aravind Srinivas는 직접 요청할 때 회사의 표절에 대한 정의를 제공하기 위해 고군분투했다고 전했다.
CloudFlare는 인터넷의 비즈니스 모델, 특히 게시자에게 미치는 영향에 대한 우려를 언급하면서 AI 크롤러에 대한 공개 입장을 점점 더 많이 사용하고 있습니다. 지난 달, CloudFlare는 웹 사이트 소유자와 게시자가 사이트에 액세스하기 위해 AI 스크레이퍼를 청구 할 수있는 시장을 시작했습니다. Cloudflare의 CEO 인 Matthew Prince는 이전에 AI가 인터넷의 기본 경제 구조를 방해하고 있다고 경고했습니다. 작년 에이 회사는 또한 봇이 AI 교육 목적으로 웹 사이트를 긁지 않도록 설계된 무료 도구를 도입했습니다.
Source: CloudFlare : Perplexity Spoofed Chrome을 우회하여 규칙을 우회했습니다





