지난주, 수백만 대의 Windows 기기가 CrowdStrike 문제로 인한 버그가 있는 업데이트로 인해 중단되었습니다. 약 850만 대의 기기에 영향을 미친 이 사건은 테스트 소프트웨어의 버그로 거슬러 올라갑니다.
잘못된 업데이트가 검증 프로세스를 통과하지 못해 광범위한 충돌이 발생했습니다. 이 CrowdStrike 문제로 인해 회사는 향후 업데이트를 위해 더 엄격한 테스트와 향상된 오류 처리를 약속하게 되었습니다.

CrowdStrike 문제로 인해 Microsoft 서비스 중단이 발생했습니다.
CrowdStrike의 최근 실패는 고립된 CrowdStrike 문제가 아니라 더 광범위한 기술 산업의 과제와 공명합니다. Microsoft도 이로 인해 중요한 중단을 겪었고, 이로 인해 혼란이 확대되어 국가에 영향을 미쳤습니다. Microsoft 중단의 근원은 달랐지만, 동시에 발생한 문제는 클라우드 서비스의 취약한 본질과 소프트웨어 오류의 파장 효과를 강조했습니다. 궁극적으로 CrowdStrike 문제가 트리거였습니다. 이러한 사건은 모든 도메인에서 강력한 테스트 및 검증 프로세스가 필요함을 강조합니다.
CrowdStrike 중단이란 무엇인가요?
CrowdStrike의 Falcon 소프트웨어는 기업에 필수적인 도구이며 수백만 대의 Windows 컴퓨터에서 맬웨어 및 보안 침해로부터 강력한 보호 기능을 제공합니다. CrowdStrike 문제는 잠재적 위협에 대한 원격 측정 데이터를 수집하기 위한 일상적인 콘텐츠 구성 업데이트가 대신 치명적인 충돌을 일으켰을 때 발생했습니다. 이 업데이트는 제대로 작동하지 않고 광범위한 시스템 장애로 이어진 40KB의 작은 파일인 Rapid Response Content의 일부였습니다. 이것은 오래된 바이러스처럼 보입니다. “Donk” 사운드와 아무 말도 하지 않는 경고 메시지의 끝없는 스트림이 있고 컴퓨터가 무의식적으로 종료되는 것과 같습니다.

정전의 해부학
CrowdStrike 문제는 Rapid Response Content가 맬웨어 감지를 개선하기 위해 Falcon 센서를 업데이트한 것과 관련이 있었습니다. 이 특정 업데이트에는 버그로 인해 Content Verifier를 통과한 문제가 있는 콘텐츠 데이터가 포함되어 있었습니다. CrowdStrike은 일반적으로 업데이트에 대해 자동 및 수동 테스트를 모두 수행한다고 말합니다. 그러나 Quick Response Content는 다른 업데이트와 동일한 철저한 테스트를 거치지 않았거나 어떻게든 테스트를 통과하여 치명적인 충돌로 이어졌습니다.
왜 모든 게 잘못되었을까?
CrowdStrike 문제는 콘텐츠 검증기의 신뢰성에 대한 잘못된 가정으로 거슬러 올라갈 수 있습니다. 3월에 새로운 Template Types 배포로 인해 CrowdStrike는 검증 프로세스가 완벽하다고 믿었습니다. 그러나 이러한 확신은 잘못된 것으로 판명되었습니다. 문제가 있는 Rapid Response Content가 센서의 콘텐츠 인터프리터에 로드되어 Windows에서 처리할 수 없는 범위를 벗어난 메모리 예외가 발생하여 악명 높은 Blue Screen of Death(BSOD)가 발생했습니다.

CrowdStrike 중단은 언제 시작되었나요? 문제의 타임라인
CrowdStrike 문제는 금요일에 터졌는데, 이 날은 보통 기업들이 주말 동안 운영을 마무리하는 날입니다. 이 타이밍은 더 나쁠 수 없었는데, 수많은 조직에서 즉각적인 중단으로 이어졌기 때문입니다. 보안을 강화하기 위한 잘못된 업데이트는 대신 시스템을 마비시켜 상당한 다운타임과 좌절을 초래했습니다.
초기 대응 및 피해 통제
CrowdStrike는 문제가 있는 Rapid Response Content 파일을 문제의 근원으로 빠르게 파악했습니다. 빠르게 파악했음에도 불구하고 피해는 이미 발생했습니다. CrowdStrike Falcon에 의존하는 기업은 충돌의 영향을 완화하기 위해 허둥지둥해야 했습니다. 상황의 긴박성으로 인해 CrowdStrike는 근본 원인과 향후 발생을 방지하기 위한 계획을 설명하는 자세한 사후 사고 검토(PIR)를 게시했습니다.
향후 문제 예방을 위한 약속
CrowdStrike 문제에 대응하여 회사는 이러한 재앙이 반복되지 않도록 하기 위한 몇 가지 조치를 약속했습니다. 여기에는 다음이 포함됩니다.
- 강화된 테스트: 로컬 개발자 테스트, 콘텐츠 업데이트 및 롤백 테스트, 스트레스 테스트, 퍼징, 결함 주입을 구현합니다.
- 개선된 오류 처리: Falcon 센서 내의 Content Interpreter의 오류 처리 기능을 향상시킵니다.
- 단계적 배포: 즉각적으로 밀어붙이기보다는 설치 기반의 더 큰 부분에 점진적으로 업데이트를 출시합니다.

CrowdStrike Falcon이란? 문제의 보호자
CrowdStrike Falcon은 이 문제의 핵심 소프트웨어입니다. 클라우드 기반 플랫폼으로, 바이러스 백신, 위협 인텔리전스, 엔드포인트 탐지 및 대응(EDR)을 결합하여 엔드포인트 보호를 제공합니다. 이 소프트웨어의 주요 기능은 맬웨어와 보안 침해로부터 보호하는 것이므로 전 세계 기업에 중요한 도구입니다.
Falcon의 작동 방식
Falcon은 Windows 머신의 커널 레벨에서 센서를 배포하여 작동합니다. 이러한 센서는 의심스러운 활동을 지속적으로 모니터링하고 AI와 머신 러닝을 사용하여 탐지 기능을 향상시킵니다. Rapid Response Content와 같은 이러한 센서에 대한 업데이트는 새로운 위협에 대한 최신 보호 기능을 유지하는 데 필수적입니다.
신속한 대응 콘텐츠의 역할
Rapid Response Content 업데이트는 Falcon 센서의 동작을 조정하여 새로운 형태의 맬웨어를 감지할 수 있도록 설계되었습니다. 이러한 업데이트는 일반적으로 작고 배포가 빠르기 때문에 Falcon 기능의 필수적인 부분입니다. 그러나 CrowdStrike 문제는 이러한 업데이트가 철저히 검증되지 않을 경우 잠재적인 위험을 보여주었습니다.
부서 및 사이버 보안 및 인프라 보안 기관(@CISAgov)는 CrowdStrike, Microsoft 및 연방, 주, 지방 및 중요 인프라 파트너와 협력하여 시스템 중단을 철저히 평가하고 해결하고 있습니다.
— 국토안보부 (@DHSgov) 2024년 7월 19일
CrowdStrike 문제에서 얻은 교훈
CrowdStrike 문제는 견고한 테스트 및 검증 프로세스의 중요성을 뚜렷하게 상기시켜줍니다. 이 회사는 미래의 사고를 방지하기 위한 여러 가지 조치를 설명했지만, 기술 커뮤니티는 의심할 여지 없이 면밀히 주시할 것입니다. 보안 소프트웨어의 안정성을 보장하는 것이 가장 중요하며, CrowdStrike 문제는 관련된 위험을 강조했습니다.
CrowdStrike 문제는 빠른 업데이트와 시스템 안정성 간의 섬세한 균형을 강조합니다. 기업이 보안을 위해 이러한 소프트웨어에 계속 크게 의존함에 따라 이 사건에서 얻은 교훈은 향후 관행과 프로토콜을 형성하는 데 중요할 것입니다.
추천 이미지 출처: Scoop News Group
Source: CrowdStrike 문제에 대한 집중 강의
