서비스장애 발생 원인 조사 보고서

지난 수 년 간 많은 자연재해들이 신문의 헤드라인을 장식했으며 그 피해들도 어마어마했습니다. 많은 생명들이 사라지고 보금자리가 파괴되는 가운데 기업들의 생존 또한 위협받게됩니다. 미시시피주의 Small Business Development Center의 관계자에 따르면 태풍들(카트리나와 리타)이 지나가고 나서 미시시피지역에 있던 작은 회사들 중 60%가 사라졌다고 합니다.

그러나 이러한 재난들이 중소기업에게는 태풍이나 지진, 폭풍 같은 자연재해만을 의미하지 않습니다.

지금부터 하드웨어 고장 같은 ‘재앙, 재난’이 얼마나 자연재해를 능가하는 피해를 줄 수 있는지 살펴보겠습니다.

재난(재앙)을 어떻게 정의하는가와 관계없이 한가지는 분명합니다. 재난으로 인해 발생하는 시스템의 다운타임은 중소기업에게 심각한 상황을 가져올 수 있다는 것입니다. 실제로 HP와 SCORE의 보고서를 보면 소규모 회사들의 경우 재난을 겪고나면 약 25% 정도가 문을 닫는다고 합니다. 흔히 인용되는 Aberdeen Group의 리포트에서는 중견기업의 경우 1시간 정도의 서버 다운만 있어도 약 9천만원($74,000)의 손실을 입습니다.  IDC의 경우도 시간 당 손실을 약8천5백만원($70,000) 정도로 비슷하게 잡고 있습니다.

그런데 불행하게도 시스템이 죽는 다운타임은 보통 1시간으로 끝나지 않습니다. 실제로 Harris Interactive사의 조사에서 IT담당자들은 시스템 복구하는데 보통 30시간 정도 걸린다고 말합니다. (기껏해야 10시간 정도로 생각하는 경영진들에게는 놀라운 일일겁니다.)

각종 재난들을 완전히 없애버릴 수는 없지만 피해는 줄일 수 있습니다. 지속적으로 시스템 상태를 테스트하면서 유사시에는 시스템의 데이터와 애플리케이션, OS를 즉시 복구할 수 있는 재난복구기술이야말로 기업의 이익과 고객, 신뢰를 지키는 유일한 안전장치입니다.

본 보고서에서는 하드웨어고장에서 자연재해에 이르는 다양한 재난들이 얼마나 자주 발생하는지그 동안의 조사 결과를 정리합니다.

Quorum사 고객지원센타의 고객들을 통해 수집한 실제 사례들이 생생하게 와 닿을 것입니다.

 

한 눈에 보는 조사결과

다음 그림은 시스템의 다운타임을 빈번하게 일으키는 4가지 주요 요인을 정리한 것입니다.

재난발생순위그림

하드웨어 고장

55%로 하드웨어 고장이 시스템 다운타임의 원인 중 가장 큰 비중을 차지합니다. 전원공급장치나 네트워크 컨트롤러, 하드디스크 등 많은 자원들을 여분으로 준비하고 있으므로 하드웨어 관점에서 안전할 것으로 생각할 수 있습니다만 여전히 빈틈이 많습니다. 요즘같이 매섭게 뜨거운 날 냉방장치가 고장난다면, 국가적으로 대규모 정전사태를 걱정하고 있는 이 때 전원이 끊어진다면, 생각지도 못하게 쥐 같은 것들이 어디 케이블이라도 뜯어먹었을 때 무슨 일이 생길지는 아무도 모릅니다.

많은 중소기업들이 SAN(Storage Area Network) 고장을 경험합니다. 대규모로 SAN을 구성하고 모든 스토리지서버들을 가상화해서 SAN 영역에 두는 것이 일반적입니다만, 불행하게도 이로 인해 SAN에 문제가 생기면 회사전체가 문제가 됩니다.

캘리포니아은행인연합회(CBA ; California Bankers Assoc.)의 IT매니저인 랜디 마테오(Randy Mateo)씨도 이런 하드웨어 고장을 크게 경험한바 있습니다. 2010년 어느날 CBA의 SAN에 있는 하드드라이브가 몇 개 고장난걸 알게되었습니다. 가상서버들이 죽기 시작했죠. 원래대로라면 가상서버들이 서비스를 대신하기위해 기동(failover)해야했습니다만 그렇지 못해서 더욱 낭패였습니다. 하드디스크가 고장나면 기본 SAN서버가 모든 가상서버들과 데이터에 영향을 준다는 것을 알게되었습니다. “ 말할 필요도 없이 엄청난 일이었습니다. 가상서버들을 다시 살릴 수도 없어서 모두 새로 구성해야했습니다. “

마테오씨는 다행히도 가상화 플랫폼에서 제공하는 수동 백업기능으로 대부분의 가상서버들을 백업해두고 있었습니다. 그러나 Exchange 서버는 또 다른 문제였습니다.

“ Exchange 서버는 너무 커서 복구에 시간이 걸려서 최소 하루정도는 서비스를 못할 것 같았습니다. 그런데 복구하는데 실패하고 다시 세팅해야했습니다. 꼬박 사흘 반을 복구하는데 썼고 당연히 서비스를 못했습니다. “

 

인적 오류

모든 재난상황이 기술적인 부분에서 발생하지 않습니다. 재난원인의 22% 정도는 인적오류가 차지합니다. 실수로 서버의 파일시스템을 지워버리는 것 등이 여기에 해당됩니다.

ooops이런 인적요류는 흔히 신입사원이나 초보자들에게 일어난다고 생각할 수 있지만 꼭 그렇지만은 않습니다. 플로리다의 어떤 회사 임원의 경우 메일박스를 모조리 날려버리는 실수를 몇 번이나 했습니다. 주기적으로 서버를 백업하는 재난복구시스템을 사용하고 있었던 덕분에 중요한 메일들을 지킬 수 있었던 것이 다행입니다.

 

소프트웨어 오작동

소프트웨어 문제가 3번째 주요 원인으로 꼽혔습니다. 이는 패치가 얼마나 자주 일어나는가를 생각해보면 놀랄 일도 아닙니다. 이 소프트웨어와 관련된 문제는 패치를 적용하기 전에 제대로 테스트를 해보지 않기 때문에 주로 일어납니다. 패치로 인해 애플리케이션이 손상되고 이는 전체 시스템을 다운시키거나 접속을 못하게 됩니다.

운영체제(OS)의 경우 조금씩 제성능을 발휘하지 못하다가 결국 작동을 멈추게 되는 경우가 많습니다. 그리고 바이러스와 악성코드도 무시할 수 없습니다. 실제로 2012년 상반기에 36%의 소프트웨어 공격이 중소기업을 대상으로 이루어졌고 이는 2011년도 같은 기간에 비하면 두 배로 늘어난 숫자입니다. 이런 공격으로 네트워크 전체가 영향을 받고 결국은 회사업무가 마비됩니다.

소프트웨어 고장은 다양한 형태로 일어납니다. Sente Mortgage사의 IT임원인 Brent Schlueter씨는 최근 시스템 다운타임을 일으키는 소프트웨어 고장을 또 경험했습니다. 일상적인 소프트웨어 업그레이드를 하는 중이었는데 이전 버전으로 돌아가야할 필요가 생겨 작업하던 중에 SQL 데이타가 손상되었다는 것을 알게되었습니다. 이게 결국은 근본적인 파일구조에 까지 영향을 주게되어 최소 4시간의 시스템 다운타임이 발생하게 되었습니다. 덕분에 직원들은 빨리 평소보다 빨리 퇴근했습니다.

 

자연재해

태풍우리는 보통 재난, 재해라는 말을 들으면 우선 지진이나 태풍 같은 것을 떠올리게 됩니다. 반면에 자연재해가 전체 재난발생 원인의 5% 정도만 차지하고 있는 것을 보면 의외이긴 합니다만 그 파괴력에서는 비교할 수 없습니다.  HP와 SCORE의 보고서를 보면 자연재해로 인해 대규모로 데이터를 잃어버린 기업들의 70% 정도는 1년 안에 없어집니다.

유명한 인력채용회사인 24 Seven의 경우 일찌감치 재난복구시스템을 구축하고 주기적으로 실전사태에서 제대로 잘 동작할 수 있을지, 재난대비훈련을 해왔습니다. 덕분에 2012년 10월 초대형 태풍인 샌디가 공격했을 때 뉴욕의 본사는 근무를 할 수 없었지만 중요 업무들은 평소대로 운영할 수 있었습니다.

 

결론

재난이란 단순히 자연재해만을 말하는 것이 아니며 따라서 언제든지 일어날 수 있습니다. 그렇기때문에 대비해야 합니다. 그리고 적절한 관련 제품을 선택해야합니다. 실제 상황이 벌어졌을 때 제대로 다운타임을 줄일 수 있어야하기 때문입니다.

평소에 정기적인 테스트 또한 매우 중요합니다. IT관리자들은 번거롭고 복잡할 뿐만 아니라 시간도 많이 걸려서 이런 테스트를 싫어합니다. 따라서 관련 제품을 고를 때는 자동으로 간단하게 재난상황테스트를 할 수 있어서 재난상황에 대한 자신감을 심어줄 수 있는 제품이 좋습니다.

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.

다음의 HTML 태그와 속성을 사용할 수 있습니다: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>