Apple은 RLCF를 사용하여 LLM 명령어를 개선합니다

Apple 연구자들이 공동 저술 한 최근의 연구에 따르면 LLMS (Largen Language Models)가 간단한 생산성 기술, 즉 스스로 작업을 수행함으로써 성능을 크게 향상시킬 수 있음을 보여줍니다.

이 연구는 일반적으로 인간 피드백 (RLHF)으로부터 강화 학습을 통해 달성 된 후 훈련을 통해 LLM 품질을 정제하는 데 있습니다. RLHF는 모델 응답을 평가하는 인간 라벨러가 포함되어 긍정적 인 반응에 대한“엄지 손가락”을 제공하고 부정적인 응답에 대한“엄지 손가락”을 제공합니다. 이 피드백 루프는 모델이 긍정적 인 피드백을받을 가능성이 높은 출력을 생성하여 전반적인 유용성을 향상시키는 데 도움이됩니다.

이 훈련 후 단계는 더 넓은 “정렬”필드와 밀접한 관련이 있으며, 이는 LLM이 도움이되고 안전한지 확인하는 방법을 개발하는 데 중점을 둡니다. 잘못 정렬 된 모델은 피상적으로 정확하지만 궁극적으로 잘못된 출력을 생성함으로써 사람의 피드백을 조작하는 법을 배울 수 있습니다.

사전 훈련, 훈련 및 훈련 후 모델 신뢰성 및 정렬을 개선하기위한 다양한 방법이 존재하지만,이 연구는 RLHF에 집중합니다. “체크리스트는 언어 모델을 정렬하기위한 보상 모델보다 낫다”라는 Apple 연구는 체크리스트 피드백 (RLCF)에서 강화 학습이라는 체크리스트 기반 강화 학습 체계를 소개합니다.

Disney는 SXSW에서 실제 광선 검을 공개했습니다.

RLCF는 체크리스트의 각 항목을 얼마나 잘 만족시키는 지에 따라 0 ~ 100의 척도로 응답을 평가합니다. 초기 결과는 유망합니다. 연구원들에 따르면, 우리는 RLCF를 5 개의 광범위하게 지정된 벤치 마크에서 다음 모델 (QWEN2.5-7B-instruct)에 강력한 지시에 적용된 다른 정렬 방법과 비교합니다. RLCF는 추종자에 대한 4 점의 힘든 부스트, 6 점의 인기 증가 및 3- 포인트 상승을 포함하여 모든 벤치 마크에서 성능을 향상시키는 유일한 방법입니다. 수많은 요구를 표현하는 언어 모델의 쿼리 지원을 개선하기위한 핵심 도구로.”

이는 AI 기반 어시스턴트와 관련이 있으며, 이는 장치와 상호 작용하는 사용자의 표준 인터페이스가되고 있습니다. 연구원들은“언어 모델은 사용자 지침을 따라야합니다. 일반 대중이 언어 모델 기반 비서를 일상적인 작업 완료에 통합하므로 언어 모델이 사용자의 요청을 충실하게 따를 수 있다는 기대가 있습니다. 사용자는 복잡한 요청을 충족시키는 모델의 능력에 더 많은 자신감을 개발함에 따라, 이러한 모델은 점점 더 많은 사람들이 구체적으로주의를 기울여야합니다.

이 연구의 주요 측면은 점검 목록을 생성하고 각 항목에 중요 가중치를 할당하는 과정입니다. 이것은 LLM을 사용하여 달성됩니다. Apple의 연구원들은 이전 연구를 바탕으로 130,000 개의 지침에 대한 점검 목록을 생성하여 WildCheckLists라는 새로운 데이터 세트를 만들었습니다. “우리의 방법에 대한 후보 응답을 생성하기 위해 QWEN2.5-0.5B, QWEN2.5-1.5B, QWEN2.5-3B 및 QWEN2.5-7B. QWEN2.5-72B-Instruct는 점검 목록 생성기 모델 (…)을 사용합니다.”

2024년 Google 정리해고: 보조, 하드웨어, 엔지니어링 팀이 영향을 받음

기본적으로 각 사용자 명령에는 콘크리트 예/아니오 요구 사항의 체크리스트가 자동으로 보충됩니다 (예 :“이것은 스페인어로 변환됩니까?”). 그런 다음 더 큰 교사 모델은 각 체크리스트 항목에 대한 후보 응답을 기록하며 이러한 가중 점수는 학생 모델을 미세 조정하는 데 사용되는 보상 신호가됩니다.

연구원들은 방법을 테스트 할 때 벤치 마크 중 하나에서 최대 8.2%의 이득을 보았으며, 각 프롬프트에 대한 최상의 체크리스트를 만들기 위해 올바른 시스템을 마련했습니다. 또한이 솔루션은 여러 다른 벤치 마크에서 대체 방법을 능가했습니다.

연구원들은 그들의 연구가“복잡한 교육”에 초점을 맞추고 RLCF가 모든 사용 사례에 대한 최적의 강화 학습 기술이 아닐 수도 있다고 강조합니다. 또한 그들의 방법은 더 강력한 모델에 의존하여 소규모 모델을 평가하고 조정하는 것으로 인정합니다. 결정적으로 그들은 “RLCF는 복잡한 지시를 향상 시키지만 안전 정렬을 위해 설계되지는 않았다”고 말합니다.

이러한 한계에도 불구하고,이 연구는 인간 -LLM 상호 작용의 신뢰성을 향상시키기위한 새로운적이고 간단한 접근법을 제시하며, 이들 조교가 대리인 능력을 얻는 데 점점 더 중요 해지고 있으며, 이는 지시 추적 및 정렬이 가장 중요합니다.

러시아, Discord를 도끼로 검열 수준 강화

요약하면, Apple Study는 체크리스트 기반 강화 학습 체계 인 RLCF를 소개하여 작업에 따라 복잡한 지침에서 LLM 성능을 크게 향상시킵니다. LLM에 미리 정의 된 체크리스트에 대한 자신의 작업을 확인하도록 지시함으로써 RLCF 메소드는 특히 다중 단계 지침 및 다양한 사용자 요구와 관련된 시나리오에서 LLM 응답의 신뢰성과 정확성을 향상시킵니다. RLCF는 안전 조정을 위해 설계되지는 않지만 LLM 기반 보조원의 전반적인 유용성과 신뢰성을 향상시키는 귀중한 도구를 제공합니다.

Source: Apple은 RLCF를 사용하여 LLM 명령어를 개선합니다

Apple은 RLCF를 사용하여 LLM 명령어를 개선합니다

Related Stories

Elon Musk는 X가 수정된 게시물에 대해 사용자에게 메시지를 보낼 것이라고 말했습니다.

갤럭시 Z 플립 8 유출에는 세 가지 색상 옵션이 표시됩니다.

DuckDuckGo는 브라우저에 YouTube 광고 차단 기능을 제공합니다.

Meta는 프라이버시 LED가 변조된 경우 카메라를 비활성화하도록 AI 안경을 업데이트합니다.