OpenAI Evals로 GPT-4를 개선할 수 있습니다.

OpenAI 평가를 만나보세요. OpenAI는 GPT-4 출시와 함께 AI 모델의 효능을 테스트하기 위한 오픈 소스 소프트웨어 프레임워크도 출시했습니다.

OpenAI 팀은 누구나 회사 모델의 문제를 보고하고 변경을 주도할 수 있도록 하는 Evals라고 하는 새로운 도구 세트를 발표했습니다.

우리는 누구나 우리 모델을 개선하는 데 도움을 줄 수 있도록 AI 모델 성능의 자동 평가를 위한 프레임워크인 OpenAI Evals를 오픈 소싱하고 있습니다.
You Might Also Like
프로필 사진을 향상시키는 5가지 매우 간단한 방법
30/01/2023
Recon by Fire MW2 버그: MW2 캠페인 오류를 수정하는 방법?
21/10/2022
Oculus Quest 2 및 Quest Pro에서 Roblox를 플레이하는 방법은 무엇입니까?
28/07/2023
— 샘 알트만(@sama) 2023년 3월 14일

OpenAI 평가란 무엇입니까?

블로그 게시물에서 OpenAI는 이 방법론을 모델 검증을 위한 “크라우드소싱 접근 방식”이라고 설명합니다.

“우리는 Evals를 사용하여 모델 개발(단점 식별 및 회귀 방지 모두)을 안내하고 사용자는 모델 버전 및 진화하는 제품 통합에서 성능을 추적하는 데 이를 적용할 수 있습니다.”라고 OpenAI는 말합니다. “우리는 Evals가 벤치마크를 공유하고 크라우드소싱하는 수단이 되어 최대한 광범위한 고장 모드와 어려운 작업을 나타내는 수단이 되기를 바랍니다.”
-OpenAI

OpenAI의 Evals 프로젝트의 목표는 신중한 성능 분석을 통해 GPT-4와 같은 모델의 효능을 평가하는 데 사용할 수 있는 벤치마크를 구성하고 실행하는 것입니다. Evals를 통해 프로그래머는 데이터 세트를 사용하여 질문을 생성하고, OpenAI 모델 응답의 정확성을 평가하고, 다양한 데이터 세트 및 모델의 효능을 평가할 수 있습니다.

Apple iOS 26, iPados 26, Macos Tahoe 런칭 2025 년

Evals는 잘 알려진 여러 AI 벤치마크와 역호환될 뿐만 아니라 자체 평가 논리를 사용하는 새 클래스를 생성할 수도 있습니다. 벤치마크 역할을 하기 위해 OpenAI는 GPT-4가 어려움을 겪고 있는 문제의 10가지 예를 사용하여 논리 퍼즐 평가를 설계했습니다.