AI 개발자는 데이터가 부족합니다. 그들은 어디에서 더 얻을 수 있습니까?

Openai는 2022 년 11 월 Chatgpt의 데뷔로 기술 혁명을 일으켰으며, 전 세계 수백만 명의 놀라운 사용자들이 상징적 인 챗봇이 꿈꾸는 주제에 대해 인간과 같은 대화에 참여할 수있는 능력에 놀랐습니다.

그것은 하루 종일 더 많은 조악한 AI에 대한 열풍을 시작했으며, 모든 기술 회사는 소금 가치가 자체 생성 AI 모델로 행동에 참여하려고합니다. 우리는 Google과 Meta의 Gemini 및 Llama 대형 언어 모델에 대한 응답을 빠르게 보았고 이미 OpenAI와 밀접하게 관련되어있는 Microsoft는 자체 모델을 구축하는 데 미리 위조되었습니다.

또한 Anthropic에서 Cohere, AI21 Labs 및 Deepseek에 이르기까지 다양한 AI 스타트 업 호스트가 추가로 업계가 미친 수준의 현금으로 현금을 휘두르면서 업계가 미친 자유가되었다는 것이 분명합니다. 차세대 AI 도구에 대한 수요.

AI 모델은 방대한 양의 데이터를 사용하여 훈련 및 구축되며 개선하려면 계속 증가하는 양이 필요합니다. 이 데이터를 얻기 위해 대부분의 AI 개발자는 공개 인터넷 (공개 인터넷)으로 이동하여 대량의 정보를 자유롭게 긁어냅니다.

크롤링과 긁힘

대부분의 사람들이 깨닫지 못하는 한 가지는 “인터넷 다운로드”로 갈 수있는 곳은 쉬운 곳이 없다는 것입니다. 따라서 AI 개발자는 “웹 크롤러”로 알려진 도구에 의존하여 월드 와이드 웹을 수색하여 데이터베이스 내에서 볼 수있는 모든 정보를 색인 할 때 링크에서 링크로 이동합니다. 그런 다음 해당 데이터베이스를 통해 이끄는 모든 정보를 다운로드하는 “웹 스크레이퍼”를 사용합니다.

Google 및 Microsoft와 같은 엄청난 리소스를 보유한 회사는 이러한 웹 크롤러와 스크레이퍼 자체를 만들기위한 돈과 전문 지식을 보유하고 있으며, 그 능력은 그들에게 경쟁 업체보다 우위를 점할 수 있습니다. 나머지는 웹을 크롤링하고 다운로드하는 비영리 조직인 Common Crawl과 같은 기존 리소스로 전환하는 경향이 있습니다. 또 다른 리소스는 Laion으로 알려진 대규모 인공 지능 오픈 네트워크로 웹에서 찾은 이미지와 함께 링크와 함께 게시 된 모든 캡션으로 가득합니다.

서버에 대한 ESO 연결 시간 초과: 해결 방법은 무엇입니까?

또한 Alen Institute for AI와 같은 AI의 개발을 촉진하는 데 관심이있는 다른 비영리 단체가 있습니다. 다양한 웹 페이지, 서적, 코드베이스, 학술 논문 및 백과 사전에서 온라인으로 발견 된 3 조 3 조 이상의 토큰이 포함 된 Dolma 데이터베이스와 같은 대형 언어 모델 개발자를위한 열린 데이터 세트를 컴파일하는 데 작동합니다.

콘텐츠 제작자는 뒤로 밀어냅니다

이 데이터베이스는 모두 웹 크롤러와 스크레이퍼에 의해 만들어졌지만이 정보를 사용하여 훈련 된 모델의 정확성과 신뢰성에 대한 의문을 제기하기 때문에이 일반적인 관행에 대해 많은 논란이 있습니다. 결국, 많은 정크 정보와 소문과 소문이 온라인으로 게시되었습니다. 물론, AI가 생계에 위협으로 인식된다는 점을 감안할 때 많은 콘텐츠 제작자가 보상을 받아야한다고 주장하면서 저작권에 관한 분쟁으로 이어졌습니다.

일부 회사는 액세스 데이터를 지불하여이 문제를 해결하려고 노력했습니다. 예를 들어, OpenAi는 Axel Springer 및 인터넷 포럼 Reddit과 같은 뉴스 조직과 관련하여 콘텐츠에 액세스하는 데 비용을 지불했습니다. Meta와 같은 다른 사람들은 Facebook 및 Instagram의 수백만 개의 공개 게시물과 같은 자체 데이터를 사용하여 모델을 훈련시키고 있습니다. X의 소유자 인 Elon Musk는 그의 회사가 Grok LLM을 훈련시키기 위해 같은 일을하고 있다고 말합니다. 아마존은 디지털 어시스턴트 Alexa와 대화하는 고객의 음성 데이터를 사용할 것이라고 밝혔다.

AI 개발자는 데이터가 부족합니다. 그들은 어디에서 더 얻을 수 있습니까? — (이미지 크레딧)

그러나 많은 소셜 미디어 사용자가 게시물과 의견이 AI 모델을 훈련시키는 데 사용되고 있다는 아이디어에 매우 불편함에 따라 이러한 관행이 그다지 인기있는 것은 아닙니다.

많은 푸시 백이 있었지만 AI 개발자는 알고리즘의 생명체라는 점을 감안할 때 더 많은 데이터에 대한 갈증을 해소 할 수 없습니다. 따라서 혁신적인 새로운 AI 응용 프로그램을 계속 만들기 위해 필요한 정보를 얻을 수있는 위치에 대한 질문이 있습니다.

데이터 합성은 해결책 일 수 있습니다

이 질문에 대한 한 가지 해결책은 “합성 데이터”일 수 있으며, 이는 먼저 엄청난 양의 실제 데이터를 소비하는 기계에 의해 인위적으로 생성 된 정보입니다.

OpenAI, Lazarus Group과 연결된 Axios npm 공급망 공격 확인

실제 데이터가 많이 있다면 필요한만큼 많은 합성 정보를 만들 수 있지만이 인공 정보의 품질에 대한 질문이 있습니다. 결국, 그것은 모두 인간이 만든 실제 데이터에서 공급되며, 해당 소스 데이터가 부정확하거나 편향된 경우 결과 합성 정보가 이러한 문제를 확대 할 수 있습니다.

결과적으로 AI 모델을 훈련시키는 데 사용되는 합성 정보가 많을수록 편견과 부정확성이 악화되어 AI가 실수를 저지르거나 단순히 얇은 공기에서 사실을 만드는 경우를 의미합니다.

합성 데이터가 훈련 데이터 세트에 대한 급격한 수요에 대한 실행 가능한 솔루션이 되려면 품질 표준의 기준을 충족하는지 확인해야합니다.

경쟁으로 데이터 품질 향상

이것은 분수 AI가 차이를 만들 수있는 곳입니다. 합성 데이터를 생성하는 작업을 경쟁으로 변환 한 독특한 블록 체인 기반 프로토콜의 제작자이며, 여기서 인간 개발자는 새로운 데이터 세트를 생성하기 위해 경쟁하는 AI 에이전트를 만듭니다. 합성 데이터 생성에 탁월한 성공적인 AI 에이전트를 만들어 개발자는 참여에 대한 상당한 보상을받을 수 있습니다.

Fraction AI는 AI 에이전트간에 정기적 인 경쟁을 주최하며 특정 요구 사항에 따라 가장 정확하고 신뢰할 수있는 데이터 세트를 만들기 위해 경쟁합니다. 그들은 cryptocurrency에서 이러한 대회에 참가하기 위해 수수료를 지불하지만, 최고의 성과는 보상을 받고 개발자가 더 나은 AI 에이전트를 만들도록 강요합니다.

건축업자는 단순히 프롬프트를 입력하여 코딩 기술없이 이러한 에이전트를 만들 수 있습니다. 이 접근 방식은 누구나 접근 할 수 있도록합니다.

또한, 분수 AI는 네트워크를 보호하기 위해 ETH Cryptocurrency 토큰을 스테이크 인 “Stakers”에 의존합니다. 그들은 경쟁비, 프로토콜 수수료 및 합성 데이터 세트를 라이센스하는 데 따른 수익의 조합을 통해이 작업에 대한 보상을받습니다.

분수 AI에 대한 독창적 인 점은 데이터 라벨링에 대한 완전히 새로운 접근 방식을 도입하여 훨씬 더 나은 품질의 합성 정보를 생성해야한다는 것입니다. 전통적으로 데이터 라벨링은 인간만이 정확하지만 너무 느리거나 AI 모델에 의해서만 수행되었으며, 이는 훨씬 빠르지 만 덜 정확합니다.

수정됨: Jedi Survivor 낮은 수준의 치명적 오류

분수 AI는 인간이 에이전트에게 데이터를 라벨링 해야하는 방법을 알려줄 수 있으므로 해당 에이전트는 훨씬 더 높은 규모로보다 정확하게 수행 할 수 있습니다. 그것은 두 방법의 장점을 결합한 접근법이며 세 생태계 참가자 모두에게 가치를 제공합니다.

AI 에이전트 제작자 또는 AI 에이전트 제작자는보다 효과적인 에이전트를 창출 한 것에 대해 보상을 받고, 더 나은 품질의 데이터를 보장합니다. 최고의 에이전트 만 보상을 받기 때문에 에이전트를 잃는 사람은 에이전트를 개선하여 수입을 시작할 수 있습니다. Stakers는 더 많은 훈련 데이터 생성을 지원하면서 투자에 대한 정기적 인 수익률을 얻을 수있는 기회를 얻습니다. 마지막으로 AI 개발자는보다 유능한 AI 모델을 훈련시키는 데 사용할 수있는 새로운 고품질 합성 데이터의 지속적인 스트림으로부터 이익을 얻습니다.

루프에서 인간이 필요합니다

실제 잠재력이 있음을 보여주는 새로운 접근법입니다. Fraction AI는 이미 작은 멀티 모달 LLM을 조정하여 더 큰 모델의 비용의 일부로 OpenAI의 GPT-4와 동등한 것으로 수행 할 수있는 능력을 보여주었습니다.

이 프로토콜은 합성 데이터 생성 과정에서 인간이 루프에 남아 있도록하는 것의 중요성을 보여줍니다. 인간은 Chatgpt의 초기 성공의 주요 원인 중 하나입니다. 그것이 개발중인 동안 Openai는 초기 버전의 Chatgpt를 실험하고 피드백을 제공하기 위해 수백 명의 노동자를 고용하여 성능을 향상시키는 데 사용되었습니다. 이것은 궁극적으로 챗봇의 반응의 품질에 혁신적인 영향을 미쳤으며, 오늘날 존재하는 AI의 미친 스크램블을 불러 일으켰습니다.

AI 모델이 더 널리 퍼져 있고 더 정교 해짐에 따라 세계는 신뢰할 수있는 데이터가 빠르게 부족합니다. 루프에서 인간과 함께 만든 합성 데이터는이 문제에 대한 가장 실용적인 해결책으로 등장했으며 AI 산업에 대한 중요성은 계속 성장할 것입니다.

주요 이미지 크레딧: Maxim Berg/Unsplash

Post AI 개발자는 데이터가 부족합니다. 그들은 어디에서 더 얻을 수 있습니까? TechBriefly에서 처음 등장했습니다.

Source: AI 개발자는 데이터가 부족합니다. 그들은 어디에서 더 얻을 수 있습니까?