- Google Research와 Alphabet 소유의 Everyday Robots는 ‘SayCan'(사전 훈련된 능력의 실제 기반 언어 모델)이라고 하는 것을 PaLM 또는 Pathways 언어 모델과 결합합니다.
- Google 연구원은 인간의 높은 수준의 지시에 따라 로봇의 ‘기술’ 중 하나를 선택하기 위해 로봇의 계획 기능을 구성하는 방법을 설명하고 가능한 각 기술이 지시를 완료하는 데 얼마나 가능성이 있는지 분석합니다. , 내가 말하는 대로가 아닙니다.’
Google Research와 Alphabet이 소유한 Everyday Robots는 SayCan(사전 훈련된 기술에 대한 실제 기반이 있는 언어 모델)과 최대 언어 모델인 PaLM(Pathways Language Model)을 통합합니다. Everyday Robots의 연구원들은 부적절하거나 위험한 행동을 초래할 수 있는 인간 커뮤니케이션의 잘못된 해석을 피하도록 로봇을 지원하기 위해 대규모 언어 모델을 활용하고 있습니다.
PaLM-SayCan으로 알려진 이 조합은 인간-로봇 통신을 단순화하고 로봇 작업 성능을 향상시키는 방법을 보여줍니다.
Google Research의 저명한 과학자이자 로봇 공학 책임자인 Vincent Vanhoucke는 “PaLM은 로봇 시스템이 보다 복잡하고 개방적인 프롬프트를 처리하고 합리적이고 합리적인 방식으로 응답하도록 도울 수 있습니다.”라고 설명합니다.
OpenAI의 GPT-3과 같은 대규모 언어 모델은 인간이 언어를 사용하는 방식을 시뮬레이션하고 GitHub의 Copilot과 같은 자동 코드 완성 제안으로 프로그래머를 지원할 수 있지만 로봇이 언젠가 국내 환경에서 작동할 수 있는 물리적 세계로 번역되지는 않습니다.
로봇 측면에서 오늘날 공장 로봇은 엄격하게 프로그래밍되어 있습니다. Google의 연구는 인간이 언젠가 자연어를 사용하여 로봇이 질문의 맥락을 이해하고 주어진 환경에서 적절한 조치를 취하도록 요구하는 질문을 로봇에게 할 수 있다는 것을 보여줍니다.
예를 들어, “음료수를 엎질렀습니다. 도와주시겠습니까?”에 대한 현재 GPT-3 응답입니다. “진공 청소기를 사용해 볼 수 있습니다.” 그것은 잠재적으로 위험한 행동입니다. Google의 대화형 또는 대화형 AI인 LaMDA는 “청소기를 찾아드릴까요?”라고 응답합니다. 반면 FLAN은 “죄송합니다. 쏟을 생각은 없었습니다.”라고 답합니다.
Google Research와 Everyday Robots의 팀은 로봇을 사용하여 주방 환경에서 PALM-SayCan 방법을 테스트했습니다.
그들의 전략에는 로봇이 해당 환경에서 어떤 작업이 유용하고 무엇을 할 수 있는지 결정해야 하는 인간의 높은 수준의 명령을 받는 로봇의 맥락에서 PaLM을 ‘접지’하는 것이 포함되었습니다.
이제 Google 연구원이 “음료수를 엎질렀습니다. 도와주시겠습니까?”라고 말할 때 로봇은 스펀지로 반응하고 빈 캔을 올바른 재활용 쓰레기통에 넣으려고 시도합니다. 추가 교육에는 유출물을 청소하는 방법을 배우는 것이 포함될 수 있습니다.
Vanhoucke는 PaLM-SayCan에서 언어 모델을 접지하는 작업을 설명합니다.
“PaLM은 언어 이해를 기반으로 작업에 대한 가능한 접근 방식을 제안하고 로봇 모델은 기술적으로 가능한 기술 집합을 기반으로 동일한 작업을 수행합니다. 그런 다음 결합된 시스템은 두 가지를 상호 참조하여 보다 효과적이고 실현 가능한 로봇 전략을 식별합니다.”
인간-로봇 통신을 용이하게 하는 것 외에도 이 전략은 작업을 계획하고 실행하는 로봇의 성능과 능력을 향상시킵니다.
Google 연구원은 ‘내가 말하는 대로가 아니라 할 수 있는 대로’라는 제목의 논문에서 인간의 높은 수준의 지시를 기반으로 로봇의 ‘기술’ 중 하나를 식별하고 그 가능성을 평가하기 위해 로봇의 계획 기능을 구성하는 방법을 설명합니다. 지시를 이행하기 위해 가능한 각 기술의.
“실제로 우리는 계획을 사용자와 로봇 간의 대화로 구성합니다. 여기서 사용자는 ‘콜라 캔을 어떻게 가져올까요?’와 같은 고급 지침을 제공합니다. 그리고 언어 모델은 ‘I will: 1. 콜라 캔 찾기, 2. 콜라 캔 집기, 3. 가져오기, 4. 완료’와 같은 명시적 시퀀스로 응답합니다.”
“SayCan은 고급 명령이 주어지면 언어 모델의 확률(스킬이 해당 명령에 유용할 확률을 나타냄)과 가치 함수의 확률(해당 기술을 성공적으로 실행할 확률을 나타냄)을 결합하여 수행할 기술을 선택합니다. ). 이것은 실현 가능하고 유용한 능력을 방출합니다. 선택한 기술을 로봇의 응답에 추가하고 출력 단계가 완료될 때까지 모델을 쿼리하여 프로세스를 반복합니다.”
Source: 구글, 가사도우미 로봇 제작에 AI 언어 모델 사용








