NewsGuard의 최근 연구에 따르면 OpenAI 및 Meta의 챗봇을 포함한 AI 챗봇은 세 가지 응답 중 약 1 개에 허위 정보를 제공하고 있습니다. 이 보고서는 추세에 관한 것을 강조합니다. 챗봇은 정보 부족을 인정하기보다는 답변을 제조 할 가능성이 높아져 2024 년에 비해 허위 비율이 높아졌습니다. 미국 기반 뉴스 등급 회사 인 뉴스 가드 (Newsguard)는 가장 인기있는 AI 챗봇의 반응의 정확성을 평가하여 점점 더 예전적인 도구의 신뢰성을 유지하는 데 중요한 과제를 강조했습니다.

챗봇 정확도 : 플랫폼 순위

뉴스 가드 보고서는 다양한 수준의 정확도를 가진 특정 챗봇을 식별합니다. 변곡 AI의 PI 챗봇은 부정확 한 정보를 포함하는 답변의 57%가있는 가장 높은 허위 주장을 나타 냈습니다. Perplexity ai는 면밀히 이어졌으며, 47%의 응답이 허위로 간주됩니다. Openai의 Chatgpt 및 Meta의 LLAMA와 같은보다 널리 사용되는 챗봇은 주목할만한 오류율을 보여 주었고, 답변의 40%에서 허위를 전파했습니다. Microsoft의 Copilot과 Mistral의 LE 채팅은 평균 35%의 오류율을 나타 냈습니다. 대조적으로, Anthropic의 Claude와 Google의 Gemini는 가장 낮은 실패율을 나타 냈습니다. Claude는 응답의 10%만으로 허위를 생산했으며 Gemini는 17%의 오류율을 기록했습니다. 당황한 AI는 정확도가 가장 큰 감소를 경험했습니다. 2024 년에 뉴스 가드의 연구는 그 답변에서 허위 주장을 발견하지 못했습니다. 그러나 2025 년 8 월까지 허위 주장의 비율은 46%로 급증했습니다. 이 보고서는 이러한 쇠퇴를 명확하게 설명하지는 않지만 전용 Reddit 포럼의 사용자 불만을 문제의 잠재적 지표로 언급합니다. 프랑스 AI 회사 인 Mistral은 2024 년 이후 허위 비율에 변화가 없었으며 일관된 37%의 오류율을 유지했습니다. 이러한 결과는 프랑스 신문 인 Les Echos의 이전 보고서와 일치하며, Mistral은 프랑스, ​​Emmanuel Macron 대통령 및 First Lady Brigitte Macron에 대한 잘못된 정보를 영어 응답의 58%와 프랑스 응답의 31%로 반복한다는 것을 발견했습니다. Mistral은 이러한 문제를 웹 검색에 연결된 사람들과 독립적으로 작동하는 사람들 모두에게 LE 채팅 어시스턴트에게 귀속되었습니다. Euronews는 다음에 뉴스 가드 보고서에서 언급 된 회사에 연락했지만 즉각적인 응답을받지 못했습니다.

  암호화폐와 관련된 모든 비즈니스가 실제로 더 좋아질까요?

정보의 영향

뉴스 가드 보고서는 또한 특정 챗봇이 Storm-1516 및 Pravda와 같은 러시아 정보 캠페인과 관련된 출처를 인용하고 있다고 밝혔다. 이 캠페인은 허위 뉴스를 만들고 전파하는 것으로 유명합니다. 이 보고서에 인용 된 한 예는 몰도바 의회의 지도자 인 Igor Grosu가 “몰도바 인들을 ‘양 떼’에 비유했다는 주장과 관련이있다. 뉴스 가드는이 주장을 루마니아 뉴스 아울렛 DIGI24를 모방하고 Grosu의 목소리로 AI-Generated Audio를 사용한 제작 된 뉴스 보고서로 확인했다. Mistral, Claude, 변곡의 PI, Copilot, Meta 및 Perplexity는 모두이 주장을 사실로 반복했으며, 그 중 일부는 Pravda 네트워크 사이트를 출처로 인용했습니다. 이러한 결과는 특히 AI 모델의 안전성과 정확성을 향상시키기위한 최근의 발표 및 파트너십이 주어지면 특히 관련이 있습니다. 예를 들어, OpenAi는 최신 ChatGPT-5 모델이 “환각을 방지”한다고 주장했으며, 이는 제작 된 답변을 생성해서는 안된다는 것을 의미합니다. 마찬가지로 Google은 Gemini 2.5가 “응답하기 전에 자신의 생각을 통해 추론 할 수있어 성능 향상과 정확도 향상”이라고 발표했습니다. 이러한 주장에도 불구하고 뉴스 가드 보고서는 AI 모델이 “1 년 전과 같은 영역에서 계속 실패하여”이러한 시스템의 신뢰성을 보장하는 데 지속적인 과제를 강조했다.

연구 방법론

연구를 수행하기 위해 NewsGuard는 챗봇의 반응을 10 가지 허위 주장에 대해 평가했습니다. 연구원들은 세 가지 유형의 프롬프트를 사용했습니다. 중립 프롬프트, 허위 주장이 사실이라고 가정하는 주요 프롬프트, 안전 조치를 우회하도록 설계된 악의적 인 프롬프트. 그런 다음 연구원들은 챗봇이 거짓 주장을 반복했는지 또는 대답을 거부함으로써이를 논의했는지 여부를 평가했습니다. 이 보고서는 AI 모델이 “허위를 더 자주 반복하고, 악성 행위자만이 정보를 제공하고, 지역 매장으로 포즈를 취하는 외국인 웹 사이트에 의해 속임수를 당하고, 뉴스 이벤트를 깨뜨리는 데 어려움을 겪고있다”고 결론을 내렸다.

  오늘(31.05) 모든 LoLdle 답변: 싸움은 내 피 속에 있습니다...

Source: 뉴스 가드 : AI 챗봇은 33%의 답변으로 허위를 퍼뜨 렸습니다