Apple은 점검 목록을 사용하여 LLM 성능을 향상시킵니다

Apple 연구원들은 간단한 생산성 기술을 사용하여 Open-Source Language Model (LLM)의 상당한 성능 향상을 보여주는 새로운 연구를 공동 저술했습니다. LLM에 점검 목록을 사용하여 자체 작업을 확인하도록 지시했습니다.

이 연구는 LLM 개선 영역을 탐구하며, 이는 일반적으로 인간 피드백 (RLHF)의 강화 학습으로 알려진 훈련 과정을 포함합니다. RLHF는 모델의 응답을 평가하기 위해 엄지 손가락 또는 엄지 손가락과 같은 피드백을 제공하는 인간 라벨러에 의존합니다. 이 피드백은 LLM이 어떤 답변이 더 바람직하다고 간주되는지 배우는 데 도움이되므로 전반적인 유용성을 향상시킵니다.

“정렬”의 더 넓은 분야는이 훈련 후 단계에서 결정적인 역할을하며 LLM이 도움이되고 안전한 방식으로 작동하도록하는 데 중점을 둡니다. 잘못 정렬 된 모델은 표면적으로 올바르게 보이지만 기본 작업을 효과적으로 해결하지 못하는 출력을 생성하여 인간 피드백을 조작하는 법을 배울 수 있습니다.

사전 훈련, 훈련 및 훈련 단계에서 모델의 신뢰성과 정렬을 향상시키기위한 다양한 방법이 존재하지만,이 연구는 특히 RLHF에 집중합니다.

GTA 5 Script Hook V 치명적인 오류: 어떻게 수정합니까? (2022)

Apple Study는“체크리스트가 언어 모델을 정렬하기위한 보상 모델보다 낫습니다”라는 제목의 제목은 체크리스트 피드백 (RLCF)에서 강화 학습이라는 체크리스트 기반 강화 학습 체계를 소개합니다. 이 접근법은 체크리스트의 각 항목을 얼마나 잘 만족시키는 지에 따라 0 ~ 100의 척도의 응답을 평가합니다. 초기 결과는 유망한 결과를 나타냅니다.

연구원들에 따르면, 우리는 RLCF를 5 개의 광범위하게 지정된 벤치 마크에서 다음 모델 (QWEN2.5-7B-instruct)에 강력한 지시에 적용된 다른 정렬 방법과 비교합니다. RLCF는 추종자에 대한 4 점의 힘든 부스트, 6 점의 인기 증가 및 3- 포인트 상승을 포함하여 모든 벤치 마크에서 성능을 향상시키는 유일한 방법입니다. 수많은 요구를 표현하는 언어 모델의 쿼리 지원을 개선하기위한 핵심 도구로.”

이 연구의 연구 결과는 AI 구동 조수에게 특히 중요합니다.이 조수는 수백만 명의 사용자가 장치와 상호 작용하는 주요 인터페이스가 될 준비가되어 있습니다. 연구자들은“언어 모델이 사용자 지침을 따라야한다는 점을 강조합니다. 일반 대중이 언어 모델 기반 어시스턴트를 일상적인 작업 완료에 통합하기 때문에 언어 모델은 사용자의 요청을 충실하게 따를 수 있다는 기대가 있습니다. 사용자는 복잡한 요청을 수행 할 수있는 모델의 능력에 더 많은 자신감을 개발함에 따라, 이러한 모델은 점점 더 많은 시간을 세분화해야합니다.

친구들의 Roblox 닉네임이 Latte_ImACheater로 바뀌었나요? 글쎄요, 걸렸어요!

이 연구의 주요 측면은 체크리스트를 생성하고 각 항목에 중요 가중치를 할당하는 데 사용되는 방법에 있습니다. 이 과정은 LLM에 의해 촉진됩니다. Apple의 연구자들은 이전 연구를 바탕으로“새로운 데이터 세트, WildChecklists를 만들기위한 130,000 개의 지침 (…)에 대한 체크리스트를 생성했습니다. 우리의 방법에 대한 후보 응답을 생성하기 위해 QWEN2.5-0.5B, QWEN2.5-1.5B, QWEN2.5-3B 및 QWEN2.5-7B. QWEN2.5-7B.

기본적으로 연구원들은 특정 예/아니오 요구 사항의 체크리스트로 각 사용자 지침을 보강합니다. 예를 들어, 체크리스트 항목은 “이것은 스페인어로 번역 되었습니까?” 그런 다음 더 큰 교사 모델은 각 체크리스트 항목에 대한 후보 응답을 기록하며 이러한 가중 점수는 학생 모델을 미세 조정하기위한 보상 신호 역할을합니다.

이 연구 결과는 각 프롬프트에 대해 최적화 된 체크리스트를 생성하기 위해 적절한 시스템을 사용 하여이 방법을 테스트하는 데 사용되는 벤치 마크 중 하나에서 최대 8.2%의 이득을 관찰했음을 보여줍니다. 또한, 솔루션은 여러 다른 벤치 마크에서 대체 방법을 능가했습니다.

연구원들은 그들의 연구가“복잡한 교육”에 초점을 맞추고 RLCF가 모든 사용 사례에 가장 적합한 강화 학습 기술이 아닐 수도 있음을 분명히 밝혔습니다. 또한 그들의 방법은 더 강력한 모델을 사용하여 더 작은 모델을 평가하고 조정하는 것으로 인정합니다. 가장 중요한 것은“RLCF는 복잡한 지시를 향상 시키지만 안전 조정을 위해 설계되지는 않는다는 것입니다.

Masterworks 앱이 어떻게 순수 예술의 세계를 핀테크로 가져왔습니까?

이러한 한계에도 불구하고, 연구는 인간과 LLM 기반 보조원 간의 상호 작용의 신뢰성을 향상시키기위한 새로운적이고 간단한 접근법을 제시합니다. 이 보조자들은 점점 더 대리인 능력을 습득하기 때문에 특히 중요합니다.

이 연구는 특히 복잡한 지시 및 AI 구동 조수의 맥락에서 LLM의 성능과 신뢰성을 크게 향상시키기 위해 점검 목록과 같은 간단한 생산성 기술의 잠재력을 강조합니다.

Source: Apple은 점검 목록을 사용하여 LLM 성능을 향상시킵니다