2. 분석 방법론
05. 빅데이터 분석방법론
가. 빅데이터 분석의 계층적 프로세스
1) 단계(Phase)
- 프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성됨. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전관리(Configuration Management) 등을 통해 통제가 이루어져야 함
2) 태스크(Task)
- 각 단계는 여러 개의 태스크(Task)로 구성됨. 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
3) 스텝(Step)
- WBS(Work Breakdown Structure)의 워크 패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)이다.
❗WBS(Work Breakdown Structure; 작업 분할 구조도)
Project Management에 이용되는 기법 중 하나로 프로젝트 전체를 작은 작업 단위로 분할한 구성도. 사전적인 의미로는 프로젝트의 범위와 최종 산출물을 세부요소로 분할한 계층적 구조도라고 정의함. 각각의 팀원에게 임무를 부여하기 위해 세부적으로 태스크를 분할한 것.
나. 빅데이터 분석 방법론 - 5단계
위와 같은 단계들로 구성되어 있다.
단계의 아래에는 각 단계의 태스크가 다음과 같이 구성되어 있다.
1) 분석기획(Planning) : 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계
2) 데이터 준비(Preparing) : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계
3) 데이터 분석(Analyzing) : 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계. 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백(Feedback)해 두 단계를 반복하여 진행.
❗ 데이터 분석 단계에서 프로토타입 시스템을 구현하고자 하는 경우 시스템 구현 단계를 곧바로 실행할 수 있다.
4) 시스템 구현(Developing) : 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토 타입 시스템을 구현
5) 평가 및 전개(Deploying) : 데이터 분석 및 시스템 구현 단계를 수행한 후, 프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립해 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계
다. 단계별 세부단계 및 실제 업무
1) 분석 기획 (Planning)
프로젝트를 시작하기 위해 프로젝트의 방향을 설정하고 프로젝트 방향에 맞는 범위를 설정하고 구체화해 프로젝트의 정의 및 계획을 수립하고 이 때 발생 가능한 위험성을 도출하고 대응 계획을 세우는 단계
단계 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 | |
비즈니스 이해 및 범위 설정 | 비즈니스 이해 | 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료를 조사하고 향후 프로젝트 진행을 위한 방향을 설정 | - 업무 매뉴얼 - 전문가 지식 - 빅데이터 분석 대상 도메인의 관련 자료 |
자료 수집 및 비즈니스 이해 | - 비즈니스 이해 및 도메인 문제점 |
프로젝트 범위 설정 | 빅데이터 분석 프로젝트의 대상인 비즈니스에 대한 이해와 프로젝트 목적에 부합하는 범위를 설정하고 프로젝트 범위 정의서인 SOW(Statement Of Work)를 작성 | - 중장기 계획서 - 빅데이터 분석 프로젝트 지시서 - 비즈니스 이해 및 도메인 문제점 |
- 자료 수집 및 비즈니스 이해 - 프로젝트 범위 정의서 작성 절차 |
- 프로젝트 범위 정의서(SOW) | |
프로젝트 정의 및 계획 수립 | 데이터 분석 프로젝트 정의 | 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트 목표를 명확화하기 위한 모델 운영 이미지 및 평가 기준을 설정 | - 프로젝트 범위 정의서 (SOW) - 빅데이터 분석 프로젝트 지시서 |
- 프로젝트 목표 구체화 - 모델 운영 이미지 설계 |
- 프로젝트 정의서 - 모델 운영 이미지 설계서 - 모델 평가 기준 |
프로젝트 수행 계획 수립 | 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리방안을 작성하고 WBS는 프로젝트 산출물 위주로 작성되어 프로젝트의 범위를 명확하게 함 | - 프로젝트 범위 정의서 (SOW) - 모델 운영 이미지 설계서 - 모델 평가 기준 |
- 프로젝트 범위 정의서 (SOW) | - 프로젝트 수행계획서 - WBS |
|
프로젝트 위험계획 수립 | 데이터 분석 위험 식별 | 앞서 진행된 프로젝트 산출물과 정리 자료를 참조하고 전문가의 판단을 활용해 프로젝트를 진행하며 발생 가능한 위험을 식별함. 식별된 위험은 위험의 영향도와 빈도, 발생가능성에 따라 위험의 우선순위를 정함 | - 프로젝트 범위 정의서 (SOW) - 프로젝트 수행 계획서 - 선행 프로젝트 산출물 및 정리자료 |
- 위험 식별 절차 - 위험 영향도 및 발생 가능성 분석 - 위험 우선순위 판단 |
- 식별된 위험 목록 |
위험 대응 계획 수립 | 식별된 위험은 상세한 정량적, 정성적 분석을 통해 위험 대응방안을 수립함. 예상되는 위험에 대해 회피(Avoid), 전이(Transfer), 완화(Mitigate), 수용(Accept)으로 구분하여 위험관리 계획서를 작성함 | - 식별된 위험 목록 - 프로젝트 범위 정의서 (SOW) - 프로젝트 수행 계획서 |
- 위험 정량적 분석 - 위험 정성적 분석 |
- 위험 관리 계획서 |
❗ SOW (Statement Of Work) : 프로젝트 수행 전에 개념 정리의 기회를 주며 프로젝트 팀원들이 프로젝트 전체를 한 눈에 볼 수 있도록 하고 진행 도중 새롭게 투입된 팀원에게 프로젝트에 대한 개요를 전달하기 위해 작성
❗ 위험 대응 계획 수립 시 위험에 대한 반응
- 회피 (Avoid) : 발생 원인을 제거하는 것
- 전이 (Transfer) : 제 3자에게 이전, 보험, 보증
- 완화 (Mitigation) : 용인 가능한 임계치까지 관리
- 수용 (Acceptance) : 실제 발생 시 대응, 리스크가 발생하기 전에 어떤 조치도 취하지 않음
2) 데이터 준비 (Preparing)
Raw 데이터로부터 필요한 데이터들을 정의하고 정형, 비정형 데이터들을 어떻게 수집할지 획득방안을 수립해 수집하고, 수집된 데이터의 품질 즉, 정합성을 점검하는 단계
단계 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 | |
필요 데이터 정의 | 데이터 정의 | 시스템, 데이터베이스, 파일, 문서 등의 다양한 내,외부 원천 데이터 소스(Raw Data Source)로부터 분석에 필요한 데이터를 정의 | - 프로젝트 수행 계획서 - ERD - 메타데이터 정의서 - 문서 자료 |
- 내,외부 데이터 정의 - 정형, 비정형, 반정현 데이터 정의 |
- 데이터 정의서 |
데이터 획득방안 수립 | - 내,외부의 다양한 데이터 소스로부터 정형, 비정형, 반정형 데이터를 수집하기 위한 구체적인 방안을 수립 - 내부 데이터 획득에는 부서 간 업무협조와 개인정보보호 및 정보 보안과 관련한 문제점을 사전에 점검함. 외부 데이터의 획득은 다양한 인터페이스 및 법적인 문제점을 고려해 상세한 데이터 획득 계획을 수립함 |
- 데이터 정의서 - 시스템 설계서 - ERD - 메타데이터 정의서 - 문서 자료 - 데이터 구입 |
- 데이터 획득 방안 수립 | - 데이터 획득 계획서 | |
데이터 스토어 설계 | 정형 데이터 스토어 설계 | 정형 데이터는 일반적으로 관계형 데이터베이스인 RDBMS를 사용하고 데이터의 효율적인 저장과 활용을 위해 데이터스토어의 논리적, 물리적 설계를 구분해 설계 | - 데이터 정의서 - 데이터 획득 계획서 |
- 데이터베이스 논리, 물리 설계 - 데이터 매핑 |
- 정형 데이터 스토어 설계서 - 데이터 매핑 정의서 |
비정형 데이터 스토어 설계 | 하둡, NoSQL 등을 이용해 비정형 또는 반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어를 설계함 | - 데이터 정의서 - 데이터 획득 계획서 |
- 비정형, 반정형 데이터 논리, 물리 설계 | - 비정형 데이터 스토어 설계서 - 데이터 매핑 정의서 |
|
데이터 수집 및 정합성 점검 | 데이터 수집 및 저장 | 크롤링 등 데이터 수집을 위한 ETL 등과 같은 다양한 도구와 API, 스크립트(Script) 프로그램 등을 이용해 데이터를 수집하고, 수집된 데이터를 설계된 데이터 스토어에 저장 | - 데이터 정의서 - 데이터 획득 계획서 - 데이터 스토어 설계서 |
- 데이터 크롤링 도구 - ETL 도구 - 데이터 수집 스크립트 |
- 수집된 분석용 데이터 |
데이터 정합성 점검 | 데이터 스토어의 품질 점검을 통해 데이터의 정합성을 확보하고 데이터 품질 개선이 필요한 부분에 대하여 보완 작업을 함 | - 수집된 분석용 데이터 | - 데이터 품질 확인 - 정합성 점검 리스트 |
- 정합성 점검 보고서 |
3) 데이터 분석 (Analyzing)
데이터를 실제로 분석하는 단계로서, 앞선 단계의 도출물들을 이용해 프로젝트의 목표를 다시 한번 정확하게 인식하고 분석용 데이터 셋을 준비한다. 분석용 데이터 셋을 이용해 분석을 실시하고 최종적으로 모델을 만든다. 만들어진 모델의 알고리즘을 파악하고 최종 점검하는 단계까지가 데이터 분석 단계다.
단계 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 | |
분석용 데이터 준비 | 비즈니즈 룰 확인 | - 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용해 프로젝트의 목표를 정확하게 인식 - 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인 |
- 프로젝트 정의서 - 프로젝트 수행 계획서 - 데이터 정의서 - 데이터 스토어 |
- 프로젝트 목표 확인 - 비즈니스 룰 확인 |
- 비즈니스 룰 - 분석에 필요한 데이터 범위 |
분석용 데이터 셋 준비 | - 데이터 스토어로부터 분석에 필요한 정형, 비정형 데이터를 추출함. 필요시 적절한 가공을 통해 분석 도구 입력 자료로 사용될 수 있도록 편성 | - 데이터 정의서 - 데이터 스토어 |
- 데이터 선정 - 데이터 변환 - ETL 도구 |
- 분석용 데이터 셋 | |
텍스트 분석 | 텍스트 데이터 확인 및 추출 | 데이터 스토어(Data Store)에서 필요한 텍스트 데이터를 추출 | - 비정형 데이터 스토어 | - 분석용 텍스트 데이터 확인 - 텍스트 데이터 추출 |
- 분석용 텍스트 데이터 |
텍스트 데이터 분석 | - 추출된 텍스트 데이터를 분석 도구로 적재해 다양한 기법을 분석하고 모델을 구축함 - 텍스트 분석을 위해 용어사전을 사전에 확보하고 업무 도메인에 맞도록 작성 - 구축된 모델은 시각화 도구를 이용해 모델의 의미 전달을 명확하게 함 |
- 분석용 텍스트 데이터 - 용어사전(유의어 사전, 불용어 사전 등) |
- 분류체계 설계 - 형태소 분석 - 키워드 도출 - 토픽분석 - 감성분석, 의견분석 - 네트워크 분석 |
- 텍스트 분석 보고서 | |
탐색적 분석 (EDA)⭐ |
탐색적 데이터 분석 | 다양한 관점 별로 기초 통계량 (평균, 분산, 표준편차, 최대값, 최소값)을 산출하고, 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성 및 데이터의 통계적 특성을 이해하고 모델링을 위한 기초자료로 활용 | - 분석용 데이터 셋 | - EDA 도구 - 통계분석 - 연관성 분석 - 데이터 분포 확인 |
- 데이터 탐색 보고서 |
데이터 시각화 | - 탐색적 데이터 분석을 위한 도구로 활용. 그러나 모델의 시스템화를 위한 시각화를 목적으로 활용할 경우 시각화 기획, 시각화 설계, 시각화 구현 등의 별도의 프로세스를 따라 진행되어야 함 - 탐색적 데이터 분석을 진행하면 수행된 데이터 시각화는 모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스 또는 프로토타입(Prototype)으로 활용될 수도 있음 |
- 분석용 데이터 셋 | - 시각화 도구 - 시각화 패키지 - 인포그래픽 - 시각화 방법론 |
- 데이터 시각화 보고서 | |
모델링⭐ | 데이터 분할 | 모델의 과적합과 일반화를 위해 분석용 데이터 셋을 모델 개발을 위한 훈련용 데이터와 모델의 검증력을 테스트하기 위한 테스트용 데이터로 분할함. 모델에 적용하는 기법에 따라 데이터 분할 또는 검증 횟수, 생성 모델 개수 등을 설정함 | - 분석용 데이터 셋 | - 데이터 분할 패키지 | - 훈련용 데이터 - 테스트용 데이터 |
데이터 모델링 | 기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용해 분류, 예측, 군집 등의 모델을 만들어 가동중인 운영 시스템에 적용함. 필요시 비정형 데이터 분석결과를 통합적으로 활용해 프로젝트 목적에 맞는 통합 모델을 수행함 | - 분석용 데이터 셋 | - 통계 모델링 기법 - 기계학습 - 모델 테스트 |
- 모델링 결과 보고서 | |
모델 적용 및 운영 방안 | 모델을 가동중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 알고리즘 설명서 작성이 필요함. 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력 자료로 활용되므로 필요시 의사코드 수준의 상세한 작성이 필요함. 또한 모델의 안정적 운영을 모니터링하는 방안도 수립 | - 모델링 결과 보고서 | - 모니터링 방안 수립 - 알고리즘 설명서 작성 |
- 알고리즘 설명서 - 모니터링 방안 |
|
모델 평가 및 검증 | 모델 평가 | 프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행함. 모델 평가를 위해 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용 | - 모델링 결과 보고서 - 평가용 데이터 |
- 모델평가 - 모델 품질관리 - 모델 개선작업 |
- 모델 평가 보고서 |
모델 검증 | 모델의 실적용성을 검증하기 위해 검증용 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서를 작성함. 검증용 데이터는 모델 개발 및 평가에 활용된 훈련용이나 테스트용 데이터가 아닌 실 운영용 데이터를 확보해 모델의 품질을 최종 검증함 | - 모델링 결과 보고서 - 모델 평가 보고서 - 검증용 데이터 |
- 모델 검증 | - 모델 검증 보고서 |
4) 시스템 구현(Developing)
분석 기획의 의도에 맞는 모델을 데이터 분석 단계에서 진행하여 도출하고 이를 운영중인 시스템에 적용하거나 프로토타입을 구현하고자 하는 경우 이 시스템 구현 단계를 진행한다. 최종적으로 단순한 데이터 분석이나 데이터 마이닝을 통한 분석 보고서를 작성하는 것으로 프로젝트가 종료된다면 이 시스템 구현 단계를 진행할 필요가 없으며 바로 다섯번째 단계인 평가 및 전개 단계를 수행한다.
시스템 구현 단계는 앞선 데이터 분석 단계에서 산출된 모델을 가동중이거나, 새로운 시스템에 적용하는 단계다. 현재 가동중인 시스템이라면 현재 시스템을 분석하고 모델을 어떻게 적용할지 설계 프로세스를 진행하고 구현한다. 후에 시스템을 테스트하고 문제가 없다면 사용자에게 교육을 실시하고 운영 계획을 수립하는 단계까지가 시스템 구현 단계다.
단계 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 | |
설계 및 구현 | 시스템 분석 및 설계 | 가동중인 시스템을 분석하고 알고리즘 설명서에 근거해 응용시스템 구축 설계 프로세스를 진행함. 시스템 분석과 설계는 사용 중인 정보시스템 개발 방법론을 커스터마이징해 적용할수 있음 | - 알고리즘 설명서 - 운영중인 시스템 설계서 |
- 정보시스템 개발 방법론 | - 시스템 분석 및 설계서 |
시스템 구현 | 시스템 분석 및 설계서에 따라 BI 패키지를 활용하거나 새롭게 시스템을 구축하거나 가동중인 운영 시스템의 커스터마이징 등을 통해 설계된 모델을 구현함 | - 시스템 분석 및 설계서 - 알고리즘 설명서 |
- 시스템 통합 개발 도구(IDE) - 프로그램 언어 - 패키지 |
- 구현 시스템 | |
시스템 테스트 및 운영 | 시스템 테스트 | 구축된 시스템의 검증을 위해 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시함. 시스템 테스트는 품질 관리 차원에서 진행함으로써 적용된 시스템의 객관성과 완전성을 확보함 | - 구현 시스템 - 시스템 테스트 계획서 |
- 품질관리 활동 | - 시스템 테스트 결과보고서 |
시스템 운영 계획 | 구현된 시스템을 지속적으로 활용하기 위해 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획을 수립함 | - 시스템 분석 및 설계서 - 구현 시스템 |
- 운영계획 수립 - 운영자 및 사용자 교육 |
- 운영자 매뉴얼 - 사용자 매뉴얼 - 시스템 운영 계획서 |
5) 평가 및 전개(Deploying)
모델을 만들었다 하더라도 지속적인 모니터링 없이는 모델의 계속성을 지킬 수 없으므로 발전계획을 상세하게 수립해야 한다. 마지막으로 프로젝트를 평가하고 모든 산출물 및 프로세스를 지식 자산화하는 최종 보고서를 작성하고 프로젝트를 종료한다.
단계 | 내용 | 입력자료 | 프로세스 및 도구 | 출력자료 | |
모델 발전 계획 수립 | 모델 발전 계획 | 개발된 모델의 지속적인 운영과 기능 향상을 위한 발전계획을 상세하게 수립해 모델의 계속성을 확보함 | - 구현 시스템 - 프로젝트 산출물 |
- 모델 발전 계획 수립 | - 모델 발전 계획서 |
프로젝트 평가 및 보고 | 프로젝트 성과 평가 | 프로젝트의 정량적 성과와 정성적 성과로 나누어 성과 평가서를 작성함 | - 프로젝트 산출물 - 품질관리 산출물 - 프로젝트 정의서 - 프로젝트 수행 계획서 |
- 프로젝트 평가기준 - 프로젝트 정량적 평가 - 프로젝트 정성적 평가 |
- 프로젝트 성과 평가서 |
프로젝트 종료 | 프로젝트 진행과정의 모든 산출물 및 프로세스를 지식 자산화하고 최종 보고서를 작성해 의사소통 절차에 따라 보고하고 종료함 | - 프로젝트 산출물 - 품질관리 산출물 - 프로젝트 정의서 - 프로젝트 수행 계획서 - 프로젝트 성과 평가서 |
- 프로젝트 지식자산화 작업 - 프로젝트 종료 |
- 프로젝트 최종 보고서 |
'프로그래밍 > 데이터사이언스' 카테고리의 다른 글
[ADsP] 데이터 분석 기획 Section 01. 데이터 분석 기획의 이해(1) 분석기획 방향성 도출 (0) | 2023.09.21 |
---|---|
[ADsP] 데이터의 이해 Section 03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2023.09.19 |
[ADsP] 데이터의 이해 Section 02. 데이터의 가치와 미래 (0) | 2023.09.18 |
[ADsP] 데이터의 이해 Section 01. 데이터의 이해 (1) | 2023.09.15 |
[Python] 데이터사이언스를 위한 NumPy - (2) 인덱싱, 슬라이싱 Ⅰ (0) | 2023.05.18 |