재해복구시스템은 제대로 동작하고 있는가?

다음은 컴퓨터월드(2011.9.) 기사를 가져온 것입니다.

———————————————–

요약

최근 은행권의 전산시스템 문제로 인한 서비스 중단사태 등으로 DR 시스템의 중요성이 부각되고 있다. DR시스템은 여러가지 이유로 전산 시스템에 장애가 발생할 때 업무의 연속성을 보장해 준다. 이런 이유 로 현재 금융권 등 민감한 정보를 다루고 있는 대부분의 업체들이 DR 시스템을 운용하고 있다. 그러나 정합성 등의 문제로 재해 발생 시 데 이터의 복구가 제대로 이루어지지 않는 등 문제가 많다는 지적이 제 기되고 있다. 정합성의 문제는 DR센터 내의 1·2차 데이터센터 간 네트워크 대역 폭 문제 및 전체 인프라의 정합성을 비교할 수 있는 방법이 없다는 데 있다. 사실 DR시스템의 문제를 일으키는 요인들은 패치 버전의 불일 치와 같은 아주 사소한 것인 경우가 많다. 농협 사태와 같은 경우도 DR시스템을 제대로 갖춰 활용했다면 그와 같은 일 은 벌어지지 않았다는 게 전문가들의 지적이다. 한편 지난 2000년을 전후로 국내 각 금융기관을 비롯한 정부 부처, 그리고 대다수의 대기업들은 수억 원의 자금을 투 자해 재해복구 시스템을 구축한 바 있다. 그러나 재해복구 시스템을 제대로 운영 및 관리하는 곳은 그렇게 많지 않다는 게 현실이다. 심지어 어떤 금융기관은 재해복구 시스템에 있는 서버를 빼서 다른 용도로 전용 하기도 했다고 한다. 더욱 이 재해복구 관리직은 한직으로 생각해 업무를 서로 맡지 않으려는 경향이 짙어 재해복구 시스템은 그야말로 허울뿐이 라는 것이다. 우리나라는 어떤 사건이 터져야만 호들갑을 떨면서 대응책 마련에 급급하다. ‘사후약방문’이겠지만 그것 만이라도 제대로 한다면 어떤 사건이 터져도 크게 문제 될 게 없을 것이다. 수억 원을 투자해 구축해 놓은 재해복구 시 스템을 제대로 활용할 방안부터 마련하는 게 우선이다.

 

시스템복구 늦어지면 회사 문 닫을 수도

금융권을 비롯해 일정 규모 이상의 기업, 특히 민감한 정보를 다루는 기업들은 대부분 DR시스템을 구축해 재 해발생 등 만일의 사태에 대비하고 있다. 이런 DR시스템 구축에는 고가의 장비들이 사용되기 때문에 엄청난 비용 이 들어간다. 그런데 이런 DR시스템이 관리의 문제로 인 해 제 기능을 다하지 못한다는 지적이 제기되고 있다. 최근 발생한 금융권의 잇따른 사고들의 1차적인 원인 은 보안이었다. 하지만 사고 발생 후 DR시스템을 이용해 빠른 시간 안에 복구되었어야 함에도 그렇지 못한 경우가 많았다. DR시스템이 제 기능을 못한 것이다. DR시스템이 필요한 때에 제 기능을 하지 못한 이유로업계 관계자들은 데이터센터 간의 정합성 불일치를 들 고 있다. 1차 데이터센터와 2차 데이터센터 간의 구성환 경 및 데이터의 정합성이 일치해야 복구가 가능한데 두 데이터센터 간의 오차로 인해 정합성의 문제가 발생해 데이터의 복구가 어려웠다는 것이다. 2001년 9월 11일에 발생한‘911미국대폭발테러사건’ 은 DR시스템 구축에 대한 필요성을 인식하는 계기가 되 었다. 당시 미국의 기업 중 전산시스템 복구에 4일 이상 걸린 기업은 90%가 폐업한 것으로 전해진다. 하루 이상 걸린 기업 중에서도 많은 업체가 문을 닫았다고 한다. 이처럼 기업의 전산시스템 복구 문제는 회사의 존속과 직결되는 민감한 사항이다. 그러나 국내에서는 이에 대 한 인식이 부족하다는 지적이다. 이에 따라 금감원은 RTO(복구목표시간 : Recovery Time Objective)를 3시 간으로 규정하는 등 DR시스템에 대한 가이드라인을 구 체화 하며 문제해결에 적극 나서고 있다. DR시스템은 두 데이터센터 간에 패치 버전, 디렉토리 구조 하나만 달라도 복원이 불가능 하다. 그렇기 때문에 지속적인 관리를 통해 두 데이터센터 간의 정합성을 유 지시키는 게 무엇보다 중요하다. DR센터가 구축된 2000년 대 초기에는 시스템에 저장되는 데이터의 양이 적어 수작업으로도 정합성을 유지할 수 있었다. 하지만 데이터의 양이 폭발하면서 DR센터의 규모 또한 커지자 그 동안의 방법으로는 정합성 유지가 힘들어지게 됐다.

 

정합성 불일치가 문제

정합성을 유지하지 못하는 이유는 크게 ▲수작업을 통한 정합성 유지 ▲네트워크 인프라 취약 ▲DR센터에 대한 관심 부족 등을 들 수 있다. DR시스템의 데이터센터 간 정합성 검사는 스토리지, 서버, DB 등의 영역에서 정밀하게 이루어진다. 하지만 인프라 전체에 대한 정합성 검사는 이루어지지 않고 있 다고 한다. 많은 문제가 이런 인프라 사이의 관계에서 발생하지만, 기존 수작업을 통해서는 이 부분에 대한 정 합성을 확인할 방법이 없었다고 한다. 예를 들면 스토리지를 추가할 경우 1차 센터와 2차 센 터 간 동일한 스토리지를 추가한다. 하지만, 추가 후 장 착된 스토리지가 같은 모델인지, 같인 구조로 구성이 되 었는지 확인이 어렵다는 것이다. DR센터의 규모가 작을 때는 관리자가 이러한 관리를 할 수 있지만 규모가 일정 이상이 되면 불가능하다. 또한 네트워크와 관련된 문제 도 있다. 데이터를 저장하는 것이 주목적인 DR센터는 당연히 스토리지, 서버, DB 등이 중요시 된다. 상대적으 로 두 데이터센터를 연결하는 네트워크의 중요성은 소 홀하기 쉽다. 이런 이유로 네트워크 업그레이드 부분을 간과하는 경우가 많다는 것이다. 그 결과 대역폭의 부족 으로 데이터센터 간 전송되는 데이터를 제 시간에 전송 하지 못하는 문제가 발생한다. 전송이 완료되더라도 적 정 RPO(복구목표시점: Recovery Point Objectives)인 5분을 넘기게 된다. 이처럼 DR센터 관리에 문제가 발생하고 있지만, 기업 들은 이에 대한 인식이 부족한 실정이다. DR센터는 문 제가 생겨야 진가를 발휘하는 데 문제가 발생하지 않을 경우 돈만 들어가는 시스템으로 인식되는 것이다. 당연 히 DR센터 시스템 확장에 소극적이 되고, 특히 예산 부 족을 이유로 네트워크 업그레이드는 거의 생각조차 않 는 경우가 많다고 한다. 업계 관계자는“2000년 대 초 금감원의 지침에 따라 은행권에서 DR센터를 구축했지만, 사용되는 곳이 없어 그 중요성을 제대로 인식하지 못하고 있다. 특히 시스템 에 문제가 생겨 발생하는 손해비용이 DR시스템을 구축 하고 유지하는데 드는 비용보다 적어 DR시스템을 소홀 히 하는 경향이 있다”며“DR시스템 구축은 회사의 신뢰 성과 직결되는 등 직접적인 비용으로 설명할 수 없는 부 분이 있는데, 이 부분에 대해서는 생각하지 않는다”고 지적했다.

 

형식적인 모의훈련은 무의미

DR시스템의 정합성을 유지하기 위해서는 부분별 비 교와 함께 인프라 전체를 비교할 수 있는 통합 모니터링 솔루션이 필요하다. 아직까지 국내에는 DR센터 전체 인 프라에 대한 정합성을 검사할 수 있는 방법이 없는 것으로 전해진다. 기존에는 DR센터 규모가 통합 모니터링 솔루션이 필요할 수준이 아니었기 때문에 괜찮았지만, 이제는 솔루션을 이용하지 않고서는 인프라 전체에 대 한 정확한 정합성 검사가 어렵다고 한다. 인프라 전체에 대한 정합성 검사를 할 수 있는 방법을 찾아야 한다는 얘 기이다. 업계 관계자들은 DR시스템에 대한 형식적인 모의훈 련도 문제점이라고 지적했다. 금융권 DR의 경우 업무의 특성상 모든 시스템을 대상으로 DR훈련을 실시할 수 없 고, 사전에 마련된 계획에 따라 진행된다는 것이다. 이런 모의훈련으로는 돌발 상황에 적절히 대처할 수 없다는 것이다. 또한 모의훈련 때 정합성이 일치하더라도 데이 터와 환경은 지속적으로 바뀌기 때문에, 조금만 시간이 지나면 데이터센터의 정합성 여부를 장담할 수 없다고 한다. 한 관계자는“중국에서는 전산시스템의 안정성을 보 여주기 위해 은행의 주요 고객을 대상으로 시스템 전체 를 다운시키고 몇 시간 안에 복구시킬 수 있는지를 보여 준다. 중국이라는 특수성 때문에 할 수 있는 퍼포먼스 일 수 있지만, 국내 DR센터의 모의훈련과 비교되는 부분이 다”며“정말 돌발 상황에 대비하기 위한 모의훈련이라면 중국처럼 모든 시스템을 다운시킨 후 복구시켜야 하며, 또한 사전에 강조했다.

 

사소한 문제가 취약점의 원인

DR과 관련 컨설팅 전문업체인 인포트릭은 금융기관 한 곳과 해운업체 한 곳을 각각 컨설팅을 한 바, 두 곳 모 두 정도의 차이는 있지만 취약점이 발견되었다고 한다. 대표적으로 클러스터 내에서 스토리지 공유의 불완전함 과 DR시스템의 가동시스템 간의 로그인 셀 및 DB 홈 디 렉터리 설정이 서로 다른 점이 발견됐다는 것이다. 스토리지 공유의 경우 볼륨을 찾아 다시 업데이트를 하면 해결될 문제이지만, 이 과정에서 시스템의 재부팅 을 해야 하고 결과적으로 RTO와 RPO가 늘어나게 된다 는 것이다. 로그인 셀 및 홈 디렉토리 역시 마찬가지다. 사소한 문제지만 이런 사소한 문제가 모여 결국 적정 RPO를 초과하는 원인이 되는 것이다. 문제는 모두 두 번씩 작업을 하게 돼 그만큼 시간과 비 용 낭비는 물론 고객들에 대한 서비스에도 큰 차질을 빗 게 된다는 것이다. 인포트릭의 한 관계자는“장애 발생 의 원인은 대부분 사소한 데서 시작된다. 리모트 복제를 했는데 복제가 제대로 안 되고 있다거나, 복제를 해서 넘 기려고 하는데 DB버전이 다르다거나. 또는 OS패치가 빠져있는 등 알기만 하면 모두 해결 가능한 것들이다”고 지적했다. 또한 그는“이런 사소한 문제들은 사람이 파 악하기가 힘들지만 방법은 얼마든지 있다. 문제는 해결 을 하려는 의지와 있는 자원을 제대로 활용하려는 인식 이다”고 주장했다.

재해복구시스템에 투자가 필요한 이유

전자신문(2012.5.20)에서 가져왔습니다.

—————————————————-

EMC가 지난해 6월 IDC에 의뢰해 발표한 `디지털 유니버스 보고서`에 따르면 2011년 한해 생성 및 복제된 디지털 정보량이 약 1.8제타바이트(ZB)에 이르는 것으로 조사됐다. 세계 디지털 정보량은 매 2년마다 2배씩 증가해 2020년에는 현재의 50배로 증가할 것으로 전망됐다. 이러한 `데이터 빅뱅` 시대는 기업 데이터 관리에 새로운 패러다임을 요구한다. 데이터 관리의 효율성과 안전성이 기업 경쟁력과 직결되기 때문이다.

하지만 데이터는 각종 바이러스나 하드웨어 고장 및 소프트웨어 장애, 관리자의 실수, 자연재해 등의 요인에 매우 취약하다. 유실될 우려도 매우 높다. 따라서 오늘날 기업들이 데이터 관리와 관련해 직면하고 있는 가장 큰 이슈 중 하나는 비즈니스 연속성과 매출 증대를 위한 정보 관리와 보호다. 기업 정보시스템이 어떠한 원인으로 작동을 멈출 경우, 서비스 중단으로 고객 불신을 초래할 뿐만 아니라 기업 생존까지 위협하는 원인으로 발전할 수 있기 때문이다.

◇국내 기업 재해복구계획 수립 필요성 못느껴=비즈니스 연속성 체계는 백업과 같은 단순 복구 수단 도입만을 의미하지는 않는다. 고객 서비스의 지속성 보장, 핵심 업무 기능을 지속하는 환경을 조성해 기업 가치를 극대화하는 것을 의미한다. 기업 입장에서는 언제 발생할지 모를 예측 불가능한 위기상황에 대비해 비즈니스 연속성 보장을 위한 재해복구(DR)시스템 구축에 선뜻 투자하기가 쉽지 않다. 하지만 위기발생 후 직면하게 될 충격과 파급효과, 수습비용까지 고려한다면 투자가치는 매우 높다.

문제는 국내 기업들이 여전히 백업 및 DR시스템 구축에 제대로 투자를 하지 않고 있다는 점이다. EMC가 국내 제조, 통신, 금융, 공공, 의료 등 산업별 250여기업을 대상으로 실시한 설문조사에 따르면, 작년 한해 동안 절반 이상인 55%가 데이터 손실과 시스템 다운타임을 경험한 것으로 나타났다. 또 기업의 93%가 `재해시 완벽하게 시스템 및 데이터를 복구할 수 있다`는 확신을 갖지 못하는 것으로 나타났다. 이는 81%인 아태지역 기업 평균과 비교해 우려할 만한 수준이다.

대부분 기업들이 재해에 따른 완벽한 시스템 및 데이터 복구에 어려움이 있음을 높게 인식하고 있었다. 하지만 백업 및 복구 IT 예산 할당(8.42%)은 아태지역 기업들의 평균(10.48%)과 비교해 낮게 책정돼 있었다. 더욱 주목해야 할 결과는 `재해 복구 계획 수립이 필요하다`라고 응답한 기업은 39%에 불과해 아태지역 기업 평균(55%) 수준에도 못 미치는 것으로 나타났다.

다시 말해 국내 기업들은 데이터 손실 관련 재난과 자연재해에 크게 노출되고 있음에도 불구하고 방재 능력은 매우 취약하다는 얘기다.

 

◇백업 인프라도 가상화 소프트웨어와 연계돼야=현재 많은 국내 기업들은 재난재해를 비롯해 예산 부족, 데이터 폭증 등 다양한 비즈니스 도전과제에 직면해 있다. 여기에 가상화된 클라우드와 고성능 애플리케이션 도입이라는 IT 환경 변화까지 동시에 맞닥뜨렸다. 전통적 테이프 중심 백업 및 복구 방식으로는 이와 같은 비즈니스 문제를 해결하기는 역부족이다.

점차 도입이 늘고 있는 가상화 기술은 물리적 서버 자원의 효율성을 극대화한다. 하지만 전통적 백업 인프라로는 가상 환경 데이터의 백업이 불가능한 상황이다. 운영 인프라와 동일하게 백업 인프라도 가상화 소프트웨어와 백업 및 운영기능 통합이 전제돼야 실질적인 백업과 복구가 가능하다.

또 백업 인프라는 데이터베이스, 메시지, 콘텐츠, 전사자원관리(ERP) 등 다양한 애플리케이션과의 애플리케이션프로그래밍인터페이스(API)를 통한 사전 통합 기능도 고려해야 하는 상황이다.

◇DR 계획 수립이 기업 생존율 높여=미국 IT전문지 컴퓨터월드 조사에 따르면 재해 발생으로 인해 24시간 넘게 정보 데이터에 접근하지 못하는 기업들은 1년 후 생존율이 0%에 가까운 것으로 나타났다. 또 IT 재해대비 계획을 세우고 있는 기업은 그렇지 않은 기업보다 4배 이상 생존율이 높은 것으로 조사됐다. 기업 경쟁력 확보에 IT DR시스템이 결정적인 역할을 하고 있음을 보여준다.

이 이사는 “지속가능 경영을 위해서는 현실성이 가미된 업무 연속성 보장 및 DR 정책을 마련하고 체계적인 운영과 문제에 대응 할 수 있는 항시 대응체계를 갖추어야 한다”고 강조했다. 그는 이런 대응체계에는 플랫폼과 데이터, 애플리케이션, 그리고 원격 사이트까지 아우르는 각 단계별 안정성 확보 기술이 필요하다고 덧붙였다.

데이터 빅뱅 시대 불의의 재난으로 인한 피해는 물리적 인프라보다 복구가 어려운 데이터의 경우 더욱 치명적이다. 재난재해로 인한 IT 인프라의 피해를 최소화하고 지속적인 기업 활동을 보장하기 위해서, DR시스템에 대한 올바른 정보 공유와 적극적인 투자가 필요한 시점이라고 전문가들은 강조한다.