Tom ‘s Guide의 기사에 따르면 OpenAI의 ChatGpt-5 모델에 대한 연구에 따르면 약 25%의 사례에서 잘못된 답변을 생성한다고 결정했습니다. 이는 지속적인 오류율을 강조하지만 모델은 이전 모델 인 GPT-4에 비해 정확도가 크게 향상됩니다. 구체적으로, ChatGpt-5는 사실상 오류를 약 45% 줄이고 GPT-4보다 환각 된 환각 또는 완전히 구성된 답변을 6 배 더 적게 생성합니다. 이러한 진보에도 불구하고,이 연구는 모델이 여전히 과도하게 고통 받고 있으며 종종 환각이라고하는 특징 인 잘못된 정보를 자신있게 제시 할 수 있다고보고합니다. 모델의 성능과 정확도는 특정 작업에 따라 다릅니다. 예를 들어, 2025 Aime Mathematics Test에서 94.6%를 기록했으며 실제 코딩 작업 세트에서 74.9%의 성공률을 보였습니다. ChatGpt-5는 과학, 수학 및 역사를 다루는 학업 시험 인 MMLU Pro 벤치 마크에서 더 어려운 MMLU Pro 벤치 마크에서 약 87%의 정확도를 달성했습니다. 그러나 여전히 일반적인 지식과 복잡한 추론 질문에서 실수를합니다. 이 연구는 이러한 오류를 여러 가지 기본 요소로 생각합니다. 여기에는 구식 또는 불완전한 교육 데이터를 사용하여 미묘한 질문을 완전히 이해하는 모델의 한계와 확률 적 패턴 예측에 기초한 기본 설계가 포함됩니다. 이 메커니즘은 때때로 그럴듯 해 보이지만 실제로 부정확 한 응답을 생성 할 수 있습니다. 이 기사는 사용자에게 ChatGpt-5에서 소스 된 중요한 정보를 확인하도록 조언합니다. 모델이 무너질 수 없다는 점을 감안할 때,이주의는 모델의 신뢰성이 문서화 된 개선에도 불구하고 전문, 학업 또는 건강 문제와 관련된 문의에 특히 중요합니다.

OpenAI ChatGpt-5는 연구에서 25% 오류율을 보여줍니다
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Microsoft, 고급 AI 워크로드를 위한 Surface RTX Spark Dev Box 공개
Microsoft의 Surface RTX Spark Dev Box는 NVIDIA의 RTX Spark 칩과 최대 128GB 메모리를 결합하여 고급 AI 워크로드 및...
X, iOS 사용자를 위한 ‘비디오로 반응’ 기능 출시
X는 iOS용 "비디오로 반응" 기능을 출시하여 사용자가 원본 게시물과 함께 TikTok 스타일의 반응 비디오를 직접 게시할 수 있도록...
Microsoft, 차세대 에이전트 우선 장치를 지원하는 Project Solara 공개
Project Solara는 소프트웨어와 하드웨어를 혼합하여 전문화되고 개인화된 적응형 AI 경험을 만드는 에이전트 우선 컴퓨팅을 도입합니다.
Google, 새로운 안전 및 공유 기능을 갖춘 6월 Android 업데이트 출시
6월 Android Drop에서는 사용자가 보안과 창의성을 유지할 수 있도록 새로운 개인화 도구, 세련된 업데이트, 향상된 안전 기능을 선보입니다.




