MIT CSAIL의 연구원들은 LLMS (Lange Language Models)의 다단계 계획 기능을 개선하도록 설계된 교육 조정 프레임 워크 인 PDDL-Instruct를 개발했습니다. 이 방법은 논리적으로 생각한 추론을 외부 계획 유효성 검사기와 결합하여 그럴듯하지만 잘못된 출력에 대한 논리적으로 유효한 계획의 생성을 증가시킵니다. 프레임 워크는 모델이 후보 계획이 실패한 이유를 인식하고 설명하도록 훈련합니다. 이러한 실패에는 만족하지 않은 전제 조건, 잘못된 효과, 프레임 위반 또는 충족되지 않은 목표가 포함될 수 있습니다. 이 프로세스는 LLM이 상태 및 행동 전환에 대한 단계별 추론을 수행하도록 안내하는 논리적 인 생각 프롬프트와 짝을 이룹니다. 이것은 ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩으로 작성된 추적 가능한 상태 → 액션 → 상태를 생성합니다. 외부 검증을 위해 PDDL-Instruct는 VAL Plan Validator를 통합하여 생성 된 계획의 각 단계를 확인합니다. Validator는 이진 (유효/유효하지 않은) 또는 상세한 피드백을 제공하며 상세한 피드백을 제공하여 우수한 성능을 제공합니다. 이 시스템은 2 단계 최적화 프로세스를 사용합니다. 첫 번째 단계는 추론 체인의 오류를 불이익시키고 두 번째 단계는 최종 계획 정확도에 최적화됩니다. 이 시스템은 Blocksworld, Mystery Blocksworld 및 물류와 같은 LLM에 도전하는 것으로 알려진 계획 도메인을 포함하여 Planbench 벤치 마크를 사용하여 평가되었습니다. Blocksworld 도메인에서 조정 된 LLAMA-3-8B 모델은 유효한 계획을 생성하는 94%의 비율을 달성했습니다. 이전 모델은 미스터리 블록 월드에 거의 유효하지 않았으며, 이는 술어 이름이 패턴 일치를 방지하기 위해 황홀한 도메인입니다. PDDL-instruct는이 도메인에서 최대 64 배 개선을 달성했습니다. 물류 영역에서도 상당한 성능 이득이 기록되었습니다. 모든 테스트 도메인에서 프레임 워크는 교육되지 않은 기준 모델에 비해 최대 66% 절대 개선을 제공했습니다. 연구원들은 또한 더 긴 피드백 예산과 유효성 검사기의 더 자세한 출력으로 성능이 향상되었다고 언급했다. PDDL- 비 구역의 현재 구현은 고전적인 PDDL 도메인에 적용되며 외부 Oracle로서 Val Validator에 따라 다릅니다. 결과는 계획 중에 검증자를 포함 할 수있는 에이전트 시스템에서 사용하기위한 공식 의미론에서 LLM 추론을 접지하는 방법을 보여줍니다. 장거리, 시간적, 숫자 및 비용에 민감한 계획 작업을 처리하기 위해 프레임 워크를 확장하는 것은 추가 작업을위한 영역으로 남아 있습니다.

  OpenAI, AI 생성 텍스트 감지를 위한 AI 텍스트 분류기 출시

Source: MIT CSAIL은 LLM 계획을위한 PDDL-Instruct를 공개합니다