OpenAI의 ChatGPT 4.0은 임상 신경학 시험에서 질문의 85%에 정확하게 답하여 평균 인간 점수인 73.8%를 능가했습니다. 개념 증명 연구에서의 이러한 성과는 임상 신경학에서 AI의 잠재력을 나타냅니다. 하이델베르그 대학 병원과 독일 암 연구 센터의 연구원들이 실시한 이 연구에는 ChatGPT 3.5와 ChatGPT 4.0이 모두 포함되어 있습니다.
이전 버전과 인간의 성능 비교
ChatGPT 4.0은 85%의 성공률을 달성한 반면 ChatGPT 3.5는 66.8%를 기록했습니다. ChatGPT의 두 버전 모두 정확하지 않은 경우에도 일관되게 자신감 있는 언어를 사용했습니다. 연구 결과에 따르면 ChatGPT는 객관식 질문에 정확하게 답할 수 있지만 임상 의학을 실천하거나 임상 결정을 내리는 능력과 동일하지는 않습니다.
고차원적 사고에는 여전히 약함
이 연구에는 미국 정신의학 및 신경과 위원회(ABPN)와 유럽 신경과 위원회의 질문 은행이 포함되었습니다. ChatGPT의 성능은 행동, 인지, 심리적 범주에서 강점을 부각시켰지만, 고차원적 사고가 필요한 작업에서는 저차원적 사고 작업에 비해 약한 성능을 보였습니다. 이 연구에서는 기본적인 이해와 정보를 적용, 분석 또는 평가하는 능력을 모두 평가하는 질문을 사용했습니다.
연구자: 주의하세요
결과는 ChatGPT와 같은 대규모 언어 모델이 추가 개선을 통해 임상 신경학에 중요한 응용 프로그램을 가질 수 있음을 시사합니다. 그러나 연구자들은 고차원 인지 작업에 대해 이러한 모델에 지나치게 의존하지 말라고 경고합니다. 모델이 광범위한 텍스트 데이터에 대해 훈련되었지만 인터넷 검색 기능이 없다는 점에 유의하는 것도 중요합니다. 전문가들은 임상 또는 교육 환경에서 변압기 기술을 적용하려면 신중한 인간 검증과 사실 확인이 필요하다고 강조합니다.
Source: ChatGPT는 신경학 시험의 숙련도를 입증합니다.








