프롬프트 품질은 AI 성능 향상의 절반을 차지합니다

MIT Sloan Affiliates의 새로운 연구에 따르면 생성 인공 지능 (AI) 성능의 개선은 대규모 언어 모델 (LLM)의 발전에 기인 한 것이 아닙니다. 대규모 실험에 따르면보다 진보 된 AI 모델로의 전환 후 성능 이득의 절반만이 모델 자체에서 비롯된 것으로 나타났습니다. 나머지 절반은 사용자가 새로운 시스템을 효과적으로 활용하기 위해 프롬프트 (AI에 제공된 서면 지침)에 적응하기 때문입니다.

이 결과는 비즈니스에 중요한 현실을 강조합니다. 새로운 AI 도구에 투자하면 직원이 사용을 개선하지 않으면 예상 가치를 산출하지 않습니다. 이 연구는 프롬프트가 공식적인 교육 없이도 개인이 빠르게 향상시킬 수있는 학습 가능한 기술이라고 제안합니다.

David Holtz, SM ’18, PhD ’21, Columbia University의 조교수이자 디지털 경제에 관한 MIT 이니셔티브의 연구 계열사와 연구의 공동 저자는“사람들은 종종 더 나은 결과가 더 나은 모델에서 나온다고 가정합니다. 거의 절반의 개선이 실제로 사용자 행동에서 온다는 사실은 실제로 신념에 도전한다는 사실”이라고 말했습니다.

이 실험에는 OpenAI의 Dall-E 이미지 생성 시스템의 세 가지 버전 중 하나에 무작위로 할당 된 거의 1,900 명의 참가자가 포함되었습니다. 참가자들은 AI에 지침을 입력하여 사진, 그래픽 디자인 또는 예술 작품과 같은 참조 이미지를 재현하는 임무를 맡았습니다. 그들은 최소 10 개의 프롬프트를 제출하는 데 25 분이 걸렸으며 공연자의 상위 20%에 대한 보너스 지불로 인센티브를 받았으며, 지침을 테스트하고 개선하도록 장려했습니다.

Valorant에 연결 오류가 발생했습니다. 클라이언트 오류를 다시 시작하십시오.

연구원들은 몇 가지 주요 결과를보고했습니다.

Dall-E 3의 기준선 버전을 사용하는 참가자는 Dall-E 2 사용자가 생성 한 것과 비교하여 대상 이미지와 더 유사한 이미지를 생성했습니다.
기준선 Dall-E 3을 사용하는 참가자는 Dall-E 2 사용자보다 24% 더 긴 프롬프트를 썼습니다. 이 프롬프트는 또한 서로 더 큰 유사성을 보였으며 더 높은 비율의 설명 단어를 포함했습니다.
이미지 유사성 개선의 약 절반은 향상된 모델에 기인 한 반면, 나머지 절반은 사용자가 개선 된 모델의 기능을 활용하기 위해 프롬프트를 조정하여 결과적으로 발생했습니다.

이 연구는 이미지 생성에 중점을 두었지만 연구자들은 같은 패턴이 작문 및 코딩을 포함한 다른 작업에 적용될 가능성이 있다고 생각합니다.

이 연구는 시간이 지남에 따라 프롬프트를 조정하는 능력이 기술에 정통한 사용자에게만 적합하지 않다는 것을 보여 주었다. Holtz는 다음과 같이 말했습니다 :“사람들은 종종 당신이 잘 프롬프트하고 AI의 혜택을 받기 위해 소프트웨어 엔지니어가되어야한다고 생각합니다. 그러나 우리의 참가자들은 광범위한 직업, 교육 수준 및 연령 그룹에서 나 왔으며, 기술적 배경이없는 사람들조차도 새로운 모델의 기능을 최대한 활용할 수있었습니다.”라고 말했습니다.

데이터는 효과적인 프롬프트가 코딩보다 명확한 의사 소통에 관한 것임을 시사합니다. Holtz는“최고의 프롬프트는 소프트웨어 엔지니어가 아니 었습니다. 그들은 코드가 아니라 일상 언어로 아이디어를 명확하게 표현하는 방법을 아는 사람들이었습니다.”

이 접근성은 또한 다양한 기술 수준과 경험을 가진 사용자들 사이의 성능 불균형을 줄이는 데 기여할 수 있습니다. 메릴랜드 대학교의 조교수이자 디지털 경제에 관한 MIT 이니셔티브의 디지털 동료 인 Eaman Jahani, PhD ’22 와이 연구의 공동 저자는 생성 AI가 사용자 간의 성과 격차를 좁힐 가능성이 있음을 관찰했습니다. “ [performance] Jahani는 스케일이 가장 큰 혜택을 얻었으므로 결과의 차이가 작아 졌음을 의미합니다. “라고 Jahani는 말했습니다.

Apple ID용 보안 키는 무엇이며 어떻게 사용합니까?

Jahani는 팀의 결과가 명확하고 측정 가능한 결과와 좋은 결과를 얻을 수있는 상한을 가진 작업에 적용 할 수 있다고 밝혔다. 그는 동일한 패턴이 단일 정답이없고 혁신적인 새로운 아이디어를 생성하는 것과 같은 잠재적으로 상당한 보상없이 더 개방형 작업에 동일한 패턴을 유지할 것인지는 아직 명확하지 않다고 지적했다.

가장 예상치 못한 결과 중 하나는 생성 AI를 사용하여 재 작성 프롬프트가 성능이 크게 감소한다는 것입니다. 생성 AI와 함께 Dall-E 3을 사용한 그룹은 프롬프트를 자동으로 재 작성하는 그룹은 기준선 Dall-E 3 그룹에 비해 성능이 58% 저하되었습니다. 연구원들은 자동 재 작성이 자주 외부 세부 사항을 도입하거나 사용자 입력의 의도 된 의미를 변경하여 AI가 잘못된 이미지를 생성한다는 것을 발견했습니다.

Holtz는 다음과 같이 설명했습니다.[Automatic prompt rewriting] 목표는 대상 이미지와 가능한 한 가깝게 일치하는 것입니다. 더 중요한 것은 디자이너가 사람들을 어떻게 사용할 것인지에 대한 가정을 할 때 AI 시스템이 어떻게 고장날 수 있는지 보여줍니다. 도구에 숨겨진 지침을 하드 코딩하면 사용자가 실제로하려고하는 것과 쉽게 충돌 할 수 있습니다.”

Altman은 Chatgpt의 에너지 및 물 사용을 다룹니다

비즈니스에 대한 연구의 의미는 분명합니다. “올바른”AI 모델을 선택하는 것 외에도 리더는 효과적인 사용자 학습 및 실험을 가능하게하는 데 우선 순위를 정해야합니다. Jahani는 프롬프트가 플러그 앤 플레이 기술이 아니라고 강조했다. “회사는 인적 자원에 지속적으로 투자해야합니다.” “사람들은 이러한 기술을 따라 잡아서 잘 사용하는 방법을 알아야합니다.”

생성 AI의 이점을 극대화하기 위해 연구원들은 실제 환경에서 AI 시스템 효율성을 향상시키기위한 비즈니스 리더에게 몇 가지 주요 우선 순위를 제공합니다.

훈련 및 실험에 투자 : 기술 업그레이드만으로는 충분하지 않습니다. 직원들에게 AI 시스템과의 상호 작용을 개선하기위한 시간과 지원을 제공하는 것은 전체 성과 이익을 실현하는 데 중요합니다.
반복 설계 : 테스트, 개정 및 학습을 장려하고 결과를 명확하게 표시하는 사용자 인터페이스는 시간이 지남에 따라 더 나은 결과에 기여합니다.
자동화에주의하십시오. 자동화 된 프롬프트 재 작성은 편리한 것처럼 보일 수 있지만 사용자 의도를 가리거나 무시하는 경우 성능을 향상시키기보다는 성능을 방해 할 수 있습니다.

이 논문은 MIT Sloan PhD 학생들에 의해 공동 저술되었다. Benjamin S. Manning, SM ’24; Hong-Yi Tuye, SM ’23; 및 Mohammed Alsobay, ’16, Sm ’24; Stanford University PhD 학생 인 Joe Zhang, Microsoft Computational Social Social Siciatist Siddharth Suri 및 Cyprus 대학교 조교수 Christos Nicolaides, SM ’11, PhD ’14.

Source: 프롬프트 품질은 AI 성능 향상의 절반을 차지합니다

프롬프트 품질은 AI 성능 향상의 절반을 차지합니다

Related Stories

Google, 미국 내 타사 Android 스토어에 Play 카탈로그 공개

Spotify, 무료 어린이 관리 계정을 6개 주요 시장으로 확대

OpenAI, 230달러짜리 Codex Micro 키보드 공개

EU, 웨어러블 기기에 대한 배터리 규정 면제 제안