Anthropic은 수요일 AI 챗봇의 관리 문서인 Claude's Constitution을 개정하여 모델의 행동을 안내하기 위해 고안된 윤리적 원칙과 안전 조치를 설명했습니다. Anthropic은 인간의 피드백에만 의존하지 않고 윤리적 원칙에 따라 챗봇인 Claude를 훈련시키는 시스템인 “Constitutional AI”를 통해 차별화됩니다. 회사는 2023년에 이러한 원칙인 Claude's Constitution을 처음 발표했습니다. 개정된 버전은 대부분의 원래 원칙을 유지하면서 윤리 및 사용자 안전에 대한 뉘앙스와 세부 사항을 추가합니다. Anthropic 공동 창립자인 Jared Kaplan은 2023년 최초의 헌법을 “AI 시스템”으로 설명했습니다. [that] Anthropic은 이러한 원칙이 “유독하거나 차별적인 결과를 피하는 것”을 목표로 “헌법에 설명된 규범적 행동을 취하는 모델”을 안내한다고 말합니다. 2022년 정책 메모에서는 시스템이 소프트웨어의 “헌법”을 구성하는 자연어 지침을 사용하여 알고리즘을 훈련한다고 명시하고 있습니다. 80페이지 분량의 문서는 4개 부분으로 나누어져 있으며 챗봇의 “핵심 가치”를 나타냅니다. 인류:

  • “대체로 안전”합니다.
  • “광범위하게 윤리적”입니다.
  • Anthropic의 지침을 준수합니다.
  • “진정으로 도움이 되는 것”입니다.

각 섹션에서는 이러한 원칙의 의미와 Claude의 행동에 대한 이론적 영향을 자세히 설명합니다. 안전 섹션에는 Claude가 다른 챗봇에서 볼 수 있는 문제를 방지하도록 설계되었음을 나타냅니다. 정신 건강 문제가 발생하면 Claude는 사용자에게 적절한 서비스를 안내합니다. 문서에는 “이보다 더 자세히 설명할 수 없더라도 인명에 위험이 따르는 상황에서는 항상 사용자에게 관련 응급 서비스를 안내하거나 기본 안전 정보를 제공하십시오”라고 명시되어 있습니다. 윤리적 고려 섹션에서는 이론적 이해보다 Claude의 실제적인 윤리적 적용을 강조합니다. “우리는 클로드의 윤리적 이론에 관심이 있는 것이 아니라 클로드가 특정 상황, 즉 클로드의 윤리적 실천에서 실제로 윤리적이 되는 방법을 아는 데 더 관심이 있습니다.”라고 문서는 지적합니다. Anthropic은 Claude가 “실제 윤리적 상황”을 능숙하게 탐색하는 것을 목표로 합니다. Claude는 엄격히 금지되는 생물 무기에 관한 토론과 같은 특정 토론을 금지하는 제약 조건을 가지고 있습니다. 유용성과 관련하여 Anthropic은 Claude의 프로그래밍이 사용자에게 어떻게 서비스를 제공하는지 간략하게 설명합니다. 챗봇은 사용자의 '즉각적인 욕구', '웰빙' 등 다양한 원칙을 고려하여 정보를 제공합니다. 여기에는 “사용자의 즉각적인 이익뿐만 아니라 장기적인 번영”을 고려하는 것이 포함됩니다. 문서에는 “클로드는 항상 교장이 원하는 것에 대해 가장 그럴듯한 해석을 식별하고 이러한 고려 사항의 균형을 적절하게 유지하려고 노력해야 합니다.”라고 명시되어 있습니다. 헌법은 챗봇 의식의 문제를 다루면서 결론을 내립니다. 문서에는 “클로드의 도덕적 지위가 매우 불확실하다”고 명시되어 있습니다. “우리는 AI 모델의 도덕적 지위가 고려할 가치가 있는 심각한 질문이라고 믿습니다. 이러한 견해는 우리에게만 국한된 것이 아닙니다. 마음 이론에 관한 가장 저명한 철학자들 중 일부는 이 질문을 매우 심각하게 받아들입니다.”

  전술 오우거 여신과 축복: 선택하는 방법?

주요 이미지 크레딧

Source: Anthropic은 AI 윤리에 관한 새로운 80페이지로 Claude의 헌법을 개정합니다.