언어 모델링은 AI 기술에서 점점 더 많은 공간을 차지하지만 Chinchilla AI가 무엇이며 어떻게 사용하는지 소중한 독자들에게 설명하는 것이 우리의 의무라고 생각합니다.
DeepMind의 연구원들은 700억 개의 매개변수와 Gopher보다 4배 많은 데이터를 가지고 있지만 컴퓨팅 예산은 동일한 Chinchilla 모델을 만들었습니다. Chinchilla의 성능은 개선의 크기뿐만 아니라 SOTA 성능을 입증한 지난 2년 동안 만들어진 다른 주요 언어 모델보다 작기 때문에 주목할 만합니다.

Chinchilla는 다양한 다운스트림 평가 작업(530B)에서 Gopher(280B), GPT-3(175B), Jurassic-1(178B) 및 Megatron-Turing NLG를 지속적으로 훨씬 능가합니다. 추론 및 미세 조정에 훨씬 적은 컴퓨팅을 사용하므로 다운스트림 사용이 크게 증가합니다. Chinchilla AI가 무엇인지 궁금하십니까? 이 기사에서 조사해 봅시다.
친칠라 AI란?
Chinchilla AI 사용법을 배우기 전에 Chinchilla AI가 무엇인지 이해하는 것부터 시작하겠습니다. 최근의 언어 모델링 문제는 학습 토큰의 수를 늘리지 않고 모델 복잡성을 증가시키는 경향이 있습니다(훈련 전반에 걸쳐 약 3000억 개). 현재 가장 큰 트랜스포머 모델은 OpenAI의 GPT-3보다 3배 이상 큰 메가트론-튜링 NLG다. DeepMind는 Chinchilla라는 새로운 언어 모델을 발표했습니다.

Megatron-Turing NLG(530B 매개변수), Jurassic-1(178B 매개변수), GPT-3(175B 매개변수), Gopher(280B 매개변수) 및 GPT-Turing NLG(530B 매개변수)와 같은 대규모 언어 모델과 유사하게 수행되지만 한 가지 중요한 차이점이 있습니다. 3: 700억 개의 매개변수와 Gopher보다 4배 많은 데이터로 MMLU 벤치마크에서 평균 67.5%의 정확도를 달성하여 Gopher보다 7% 향상되었습니다.
친칠라 AI를 사용하는 방법?
이제 Chinchilla AI가 무엇인지 설명했으므로 Chinchilla AI 사용 방법에 대한 질문에 대한 답변으로 넘어가겠습니다. 하지만 나쁜 소식이 있습니다. 안타깝게도 현재 일반 대중은 액세스할 수 없습니다. Chinchilla AI는 궁극적으로 앞으로 몇 달 안에 액세스할 수 있게 될 것이며, 이 시점에서 Chinchilla AI를 사용하여 챗봇, 가상 비서, 예측 모델 및 기타 AI 애플리케이션을 개발할 수 있습니다.
Chinchilla는 MMLU 벤치마크에서 67.5%의 최첨단 평균 정확도를 달성하여 Gopher를 7% 능가했습니다. 큰 언어 모델 훈련의 일반적인 전략은 훈련 토큰의 공급을 늘리지 않고 모델을 구축하는 것이었습니다. 가장 큰 고밀도 변압기인 MT-NLG 530B는 이제 GPT-3의 1700억 특성보다 3배 이상 커졌습니다.
Chinchilla AI는 언어 모델링에서 지배적인 힘이 될 것입니다.
Chinchilla AI란 무엇이며 어떻게 사용하는지 질문에 답했으므로 이제 일반적인 AI 기술에 대해 이야기해 봅시다.
훈련 토큰의 수를 늘리지 않고 모델을 키우는 것은 대규모 언어 모델 훈련에서 널리 퍼진 접근 방식이었습니다. GPT-3의 1700억 특성과 비교하여 가장 큰 고밀도 변압기인 MT-NLG 530B는 이제 3배 이상 커졌습니다.

DeepMind의 Chinchilla를 포함하여 현재 사용 중인 대부분의 대형 모델은 모두 3000억 개가 넘는 토큰에 대해 훈련되었습니다. 연구원에 따르면 점점 더 큰 모델을 교육하기 위한 경쟁은 동일한 컴퓨팅 예산으로 달성할 수 있는 것과 비교할 때 성능이 크게 저하되는 모델을 생성하고 있습니다. 이러한 메가 모델을 훈련시키려는 욕구가 공학을 상당히 발전시켰음에도 불구하고 이것은 사실입니다.
컴퓨팅 예산을 뛰어넘는 Chinchilla AI 기능
AI 기술의 제한 요소는 일반적으로 독립적이고 미리 알려진 컴퓨팅 예산입니다. 기업이 더 나은 하드웨어에 지출할 수 있는 금액은 궁극적으로 모델의 크기와 훈련 토큰의 수를 정의합니다. 이 문제를 극복하기 위해 Chinchilla AI 기능:
- 고정 모델 크기: DeepMind 프로그래머는 고정 모델 크기(70M-16B) 제품군을 만들고 각 모델(4가지 변형)에 대한 교육 토큰 수를 조정했습니다. 그런 다음 각 컴퓨팅 예산에 대한 최상의 조합을 식별했습니다. 이 방법에 따르면 Gopher와 같은 양의 컴퓨팅 성능으로 훈련된 모델은 1.5T 토큰과 67B 매개변수를 갖게 됩니다.
- isoFLOP용 곡선: DeepMind의 엔지니어는 모델 크기와 고정 컴퓨팅 예산을 실험했습니다. 이 방법은 630억 개의 매개변수와 1조 4천억 개의 토큰이 있는 컴퓨팅 최적 모델을 생성하며 Gopher와 동일한 양의 컴퓨팅으로 훈련됩니다.
- 파라메트릭 손실 함수 생성: DeepMind 엔지니어는 방법 1과 2의 결과를 사용하여 모델 크기와 토큰 수의 파라메트릭 함수로 손실을 모델링했습니다. 이 방법을 사용하여 훈련된 컴퓨팅 최적화 모델은 40B 매개변수와 Gopher와 동일한 계산량을 가집니다.
궁금하다면 그들이 출판한 논문에서 주제에 대한 DeepMind의 접근 방식을 검토할 수 있습니다.
Chinchilla AI란 무엇이며 최선을 다해 사용하는 방법에 대한 질문에 답변한 기사의 끝 부분에 도달했습니다. 언어 모델링 기술은 2022년에 가장 눈에 띄는 AI 하위 범주가 되었지만 2023년에는 무엇이 우리를 기다리고 있는지 궁금합니다.
Source: Chinchilla AI란 무엇이며 어떻게 사용하나요?







