정보화사업, 공공기관 정보시스템 실전 장애 상황 프로세스(ITSM)
ITSM, 국제인증표준 ISO 2000은 무엇일까. 나아가 이번 포스팅은 공공기관 정보화사업 업무에서 더 세부적으로 들어가서 장애 상황을 처리하는 방법에 대해서 알아보고자 한다. 기본적으로 공공기관에서 운영하고 있는 정보화사업의 정보시스템은 유닉스 기반의 리눅스와 윈도 OS 기반의 서버인 경우가 대다수이다. 솔라리스, MAC OS 등의 운영체제를 다루고 있는 곳은 드물다. 그중 유닉스, 리눅스 서버를 자신처럼 다룰 줄 알아야 한다. 위의 이야기는 세부적인 이야기고 모든 시스템의 서비스는 업무처리를 ITSM에 기반을 둔다.
ITSM(IT Service Management)
위에서 말했듯이 인프라 관리자는 ITSM(IT Service Management)에 기반을 둔다. 이는 직역하면 IT 서비스 관리이며, 서비스 고객에게 제공하는 IT 관련 서비스들을 설계하고 제공하는 모든 전반의 활동을 의미한다. 이는 공공기관에서는 대국민 서비스, 제한된 대상의 업무 시스템 등의 사업을 진행하고 운영, 서비스하는 모든 활동과 맥락이 일치하는 부분이다. 사기업에서는 IT 시스템을 이용하여 고객에게 이윤을 챙기지만, 공공기관은 그렇지 않다. 물론 그런 서비스도 있기는 하지만, 대부분의 대국민 서비스는 그렇지 않고 특히, IT와 관련된 정보화사업에서의 공무원, 공기업 등 연계, 업무 시스템은 당연히 돈을 챙기고 이윤을 챙기는 것과는 거의 관련되지 않는다. ITSM과 관련하여 자격증도 있으니 취득하는 방법도 있다. 이것을 기반으로 밑의 상황을 설명하려 한다.
서비스 장애 상황
정보화사업에 참여하면서 많은 일이 발생한다. 그 중에서 가장 긴급하고도 치명적인 상황은 ‘장애’다. 갑자기 시스템 장애가 나면 정신없고 막막하다. IT 업종에 종사하는 모든 엔지니어, 개발자 , 관리자 등의 사람들은 가장 짜증 나고 화나며 기피의 대상이고 공포스러워하는 것이 바로 이 ‘장애’ 상황이다. 외부로 노출되어 고객 또는 서비스 대상에게 시스템으로서 서비스하고 있는 관리자로서, 시스템에 장애가 나서 멈추는 것만큼 큰 사고는 천재지변 말고는 거의 없을 것으로 생각한다.
ITSM을 이야기한 이유가 여기에 있다. IT의 서비스는 대상과의 소통이 빠르지가 않고, 거의 단절이 되어있다. 예고할 수 없는 장애 상황은 서비스 대상에게 일방적인 공격과도 다름이 없다. 그래서 관리자들은 항상 모니터링 도구를 도입하여 수시로 시스템을 점검한다. 여담으로, 인프라 관리자는 아무 일이 없으면 뭐 하는지 모르는 사람 취급을 받고(사실 자잘하게 할 것이 너무나 많다.), 일이 터지면 욕먹는 사람이 된다. 그래서 장애 상황을 처리하는 데 있어서 가장 중요한 것은 바로 ‘속도’다.
장애 처리 프로세스
장애가 발생하면 정신이 없다. 사실 공공기관과 공기업에는 정보시스템 장애 관리에 대한 각 세부지침, 규정들이 있을 것이다. 간단히 말하자면 ‘장애 대상을 식별하고 등급을 지정하며 복구대책을 수립하고 조치를 진행한다.’라는 내용이 있지만, 사실 장애 상황에서 저런 일들을 일일이 다 챙기면서 할 여유가 없다고 생각한다. 효율적인 장애 처리를 위해 간단하게 생각해보자
1) 보고한다.
자신이 책임자라면, 장애 상황을 판단할 수 있어야 한다. 장애 규모는 어느 정도고 어느 위험이 있으며 어떻게 처리를 해야 하는가, 누구에게 어떤 업무지시를 할 것인가의 프로세스가 머릿속으로 쭉쭉 만들어져야 한다. 그렇지 않다면, 바로 상급자(책임자)에게 보고한다. 이 일이 선행되지 않으면 나중에 장애를 처리하고도 욕을 먹을 수가 있다.
2) 지시를 받으면서 서비스를 정상화한다.
상급자에게 지시를 받으면서 동시에 장애를 확인하며 정상화한다. 가장 중요한 건 시스템, 서비스 정상화이다. 정보시스템을 운영하면서 가장 중요한 건 서비스의 대상, 고객이다. 시스템을 사용하는 사용자의 불편을 초래하는 시간이 길면 길수록 불만은 많아지고 그만큼 욕을 먹게 될 것이다. 장애의 원인을 찾는 것은 그다음이다.
3) 도움을 요청한다.
바로 서비스를 정상화할 수 없는 치명적인 장애, 장애 원인이 명확한 경우에 속한다. 디스크를 교체해야 한다든지, 네트워크 선이 단절되었다든지 등의 문제는 주 사업자, 즉 업체를 통해 도움을 요청해야 한다. 엔지니어, 개발자 등 많은 분야의 사람들에게 요청할수록 좋다.
4) 장애 원인을 규명하고 문서를 만든다.
서비스 어느 부분에서 장애가 생겼고, 어느 부근에서 일어났는지 원인을 찾는다. 어떤 업무에서도 증거, 본질적인 사유는 명확해야 하고 장애 처리에서 가장 중요한 행동이며, 가장 시간이 오래 걸리는 작업 중의 하나다. 또 작업계획서, 완료보고서 등의 문서는 차후 발생할 장애와 오류에 대해 큰 자산이 된다. 업체에 요구해서 문서를 읽지도 않고 보관만 하지 말고 관리자 자신이 직접 작성하여 기술적인 원인 분석부터 프로세스 전반을 익혀놓고 같은 장애가 재발하지 않도록 예방하는 것을 추천한다.
**같은 장애가 발생하더라도 저렇게 한번 익혀놓으면 전보다 빨리 장애를 처리할 수 있다. 이 4가지 프로세스가 거의 동시에 이루어져야 하며, 간단한 장애든 치명적인 장애든 가장 빠르게 해결될 수 있을 것이다.
ITSM, 국제인증표준 ISO 2000, 네이버 백과사전 바로가기
CDCP(Certified Data Centre Professional)의 모든 것 (feat.취득 후기)