OpenAI 평가를 만나보세요. OpenAI는 GPT-4 출시와 함께 AI 모델의 효능을 테스트하기 위한 오픈 소스 소프트웨어 프레임워크도 출시했습니다.

OpenAI 팀은 누구나 회사 모델의 문제를 보고하고 변경을 주도할 수 있도록 하는 Evals라고 하는 새로운 도구 세트를 발표했습니다.

OpenAI 평가란 무엇입니까?

블로그 게시물에서 OpenAI는 이 방법론을 모델 검증을 위한 “크라우드소싱 접근 방식”이라고 설명합니다.

“우리는 Evals를 사용하여 모델 개발(단점 식별 및 회귀 방지 모두)을 안내하고 사용자는 모델 버전 및 진화하는 제품 통합에서 성능을 추적하는 데 이를 적용할 수 있습니다.”라고 OpenAI는 말합니다. “우리는 Evals가 벤치마크를 공유하고 크라우드소싱하는 수단이 되어 최대한 광범위한 고장 모드와 어려운 작업을 나타내는 수단이 되기를 바랍니다.”

-OpenAI

OpenAI의 Evals 프로젝트의 목표는 신중한 성능 분석을 통해 GPT-4와 같은 모델의 효능을 평가하는 데 사용할 수 있는 벤치마크를 구성하고 실행하는 것입니다. Evals를 통해 프로그래머는 데이터 세트를 사용하여 질문을 생성하고, OpenAI 모델 응답의 정확성을 평가하고, 다양한 데이터 세트 및 모델의 효능을 평가할 수 있습니다.

  iPhone에서 화면을 녹화하는 방법은 무엇입니까? [iOS 14]

OpenAI Evals로 GPT-4를 개선할 수 있습니다.Evals는 잘 알려진 여러 AI 벤치마크와 역호환될 뿐만 아니라 자체 평가 논리를 사용하는 새 클래스를 생성할 수도 있습니다. 벤치마크 역할을 하기 위해 OpenAI는 GPT-4가 어려움을 겪고 있는 문제의 10가지 예를 사용하여 논리 퍼즐 평가를 설계했습니다.

그것은 모두 자원 봉사 활동이며 이는 큰 충격입니다. 그럼에도 불구하고 OpenAI는 Evals 사용을 장려하기 위해 “고품질” 벤치마크를 제공하는 개인에게 GPT-4 액세스를 제공할 계획입니다.

“우리는 Evals가 우리 모델을 사용하고 구축하기 위한 프로세스의 필수적인 부분이 될 것이라고 믿으며 직접적인 기여, 질문 및 피드백을 환영합니다.”

-OpenAI

기본적으로 모델 교육에 소비자 데이터 활용을 중단하겠다고 발표한 OpenAI는 Evals를 사용하여 AI 모델을 강화하기 위해 크라우드소싱으로 전환한 대열에 합류했습니다.

당신은 GPT-4에 관심이 있습니까? 다음을 확인하십시오.

  • ChatGPT 프롬프트 비교
  • GPT-4 대 ​​ChatGPT

Source: OpenAI Evals로 GPT-4를 개선할 수 있습니다.