OpenAI는 무료 ChatGPT 상태 오류가 71% 감소했다고 밝혔습니다.

OpenAI는 무료 ChatGPT 사용자를 위한 기본 모델로 GPT-5.5 Instant를 출시했으며, 이제 내부 평가를 기반으로 한 건강 쿼리에 대한 선구적인 사고 모델의 성능과 일치한다고 주장합니다. 특히 Guardian 조사에서 Google AI 개요의 부정확성을 언급하여 Google이 특정 건강 관련 질문에 대해 해당 기능을 철회한 이후 건강 정보에 대한 조사가 강화되었습니다.

OpenAI는 업데이트를 통해 건강 정보 정확성이 향상되었다고 밝혔습니다. 이러한 변화를 통해 많은 청중이 외부 소스로 리디렉션하지 않고도 ChatGPT의 의료 응답에 액세스할 수 있으며, 이는 건강 부문의 게시자와 SEO에 영향을 미칠 수 있습니다.

회사는 GPT-5.5 Instant가 이전 제품인 GPT-5.3 Instant보다 성능이 뛰어나다는 점을 언급하면서 HealthBench 및 HealthBench Professional 벤치마크의 발전을 강조했습니다. OpenAI는 또한 실시간 교통 모니터링 시스템을 참조하여 2개월 동안 잠재적 사실성 문제로 표시된 건강 응답이 71% 감소했다고 보고했습니다.

별도의 평가에는 GPT-5.5 Instant에서 생성된 응답과 3,500개의 대표적인 건강 대화에 대해 의사가 작성한 응답을 비교하는 작업이 포함되었습니다. 평가에서 의사 패널은 정확성, 의사소통 및 완전성 측면에서 인간 의사가 작성한 응답보다 AI 모델의 응답을 더 높게 평가했습니다.

World, AI 쇼핑 에이전트 뒤에 있는 인간을 확인하기 위해 AgentKit 출시

OpenAI는 GPT-5.5 Instant가 이전 버전 및 인간 응답보다 실패 모드가 적다고 주장하여 놓친 위험 신호가 적고 사용자로부터 추가 컨텍스트를 찾지 못할 가능성이 낮다는 점을 지적했습니다. HealthBench는 회사 의사 네트워크의 의견을 바탕으로 개발되었으며 평가를 위해 의사가 만든 기준표를 사용합니다.

OpenAI는 60개국에 걸쳐 260명 이상의 의사와 협력하고 있으며 이들은 700,000개 이상의 예시 응답을 종합적으로 검토했습니다. 이 수치는 지난 1월 ChatGPT Health 출시 이후 지속적으로 인용되었지만 독립적인 검토 결과는 발표되지 않았습니다.

OpenAI에 따르면 건강 및 웰빙 문의는 ChatGPT 상호 작용의 상당 부분을 차지하며 매주 2억 3천만 명이 넘는 사용자가 건강 관련 질문을 하고 있습니다. 또한 건강 관련 토론은 건강, 정신 건강 또는 정치에 관한 대화 중 광고를 금지하는 엄격한 정책에 따라 분류됩니다.

ChatGPT의 무료 계층을 통한 건강 정보에 대한 시장 수요는 AI 생성 응답이 Google의 AI 개요에서 분석된 카테고리 중 가장 높은 것으로 알려지면서 참여도가 높아짐에 따라 게시자에 대한 제로 클릭 압력을 증가시킬 수 있습니다. 건강 대응의 정확성에 관한 OpenAI의 주장은 현재 제3자 검증이 부족하여 평가의 신뢰성에 대한 우려를 불러일으킵니다.

아마존, 모바일 쇼핑 앱에 AI 생성 제품 이미지 추가

발표에서는 이러한 업데이트가 인용 프로토콜에 어떤 영향을 미칠 수 있는지 명확히 밝히지 않았으며, 답변을 확인하고 트래픽 손실을 해결하는 책임이 의료 종사자에게 넘어갈 수 있음을 시사했습니다.

<시간 />

추천 이미지 크레딧