프로그래밍/데이터사이언스

[ADsP] 데이터 분석 기획 Section 01. 데이터 분석 기획의 이해(1) 분석기획 방향성 도출

Churnobyl 2023. 9. 21. 19:27
728x90
반응형


1. 분석기획 방향성 도출


01. 분석기획의 특징

가. 분석기획이란?

  • 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리하는 방안을 사전에 계획하는 작업
  • 어떠한 목표(What)를 달성하기 위해(Why) 어떠한 데이터를 가지고 어떤 방식으로(How) 수행할 지에 대한 일련의 계획을 수립하는 작업이므로 성공적인 분석 결과를 도출하기 위한 중요한 사전 작업임

 

 


02. 분석 대상과 방법에 따른 네가지 분석 주제 유형

  • 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 나누어진다
  • 특정한 분석 주제를 대상으로 진행할 경우에도, 분석 주제 및 기법의 특성 상 4가지 유형을 넘나들면서 분석을 수행하고 결과를 도출하는 과정을 반복함

 

분석의 대상과 방법

 

(1) Optimization (최적화) : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행

(2) Solution (해답) : 분석 과제는 수행되고, 분석 방법을 알지 못할 경우 솔루션을 찾는 방식으로 분석 과제 수행

(3) Insight (통찰) : 분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트를 도출

(4) Discovery (발견) : 분석 대상 및 분석 방법을 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출

 

 

 


03. 목표 시점 별 분석 기획 방안

  • 목표시점 별로 당면한 과제를 빠르게 해결하는 과제 중심적인 접근 방식과 지속적인 분석 내재화를 위한 장기적인 마스터 플랜 방식으로 나눌 수 있음
  • 분석 기획에서는 문제해결을 위한 단기적인 접근 방식과 분석과제 정의를 위한 중장기적인 마스터 플랜 접근방식을 융합해 적용하는 것이 중요함

 

 

 


04. 분석 기획시 고려사항

가. 가용한 데이터(Available Data)

  • 분석을 위한 데이터의 확보가 우선적이며, 데이터의 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다

 

나. 적절한 활용 방안과 유즈케이스 (Proper Business User Case)

  • "바퀴를 재발명하지 마라"라는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다.

 

다. 장애요소들에 대한 사전계획 수립 (Low Barrier of Execution)

  • 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 함

 

고려사항 Available Data Proper Business Use Case Low Barrier of Execution
요소들 - Transaction data
- Human-generated data
- Mobile data
- Machine and sensor data 등
- Customer analytics
- Social media analytics
- Plant and facility management
- Pipeline management
- Price optimization
- Fraud detection 등
- Cost
- Simplicity
- Performance
- Culture 등

 

 

 


2. 분석 방법론


01. 분석 방법론 개요

가. 개요

  • 데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적
  • 프로젝트는 개인의 역량이나 조직의 우연한 성공에 기인해서는 안 되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야 함
  • 방법론은 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&Outputs)로 구성되어 어느 정도 지식만 있으면 활용이 가능해야 함

 

 

나. 데이터 기반 의사결정의 필요성

  • 경험과 감에 따른 의사결정에서 데이터 기반의 의사결정으로
  • 기업의 합리적 의사결정을 막는 장애요소
    • 고정관념(Stereotype)
    • 편향된 생각(Bias)
    • 프레이밍 효과(Framing Effect) : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
  • 데이터 기반의 의사결정을 위해서는 기업문화의 변화와 업무 프로세스 개선이 필요함

 

 

다. 방법론의 적용 업무의 특성에 따른 모델

방법론 특성에 따른 모델

 

(1) 폭포수 모델(Waterfall Model)

  • 순차적으로 단계를 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견될 시 피드백 과정이 수행된다
  • 기존 IT의 SW 개발 방식

 

(2) 프로토타입 모델(Prototype Model)

  • 폭포수 모델의 단점을 보안하기 위해 점진적으로 시스템을 개발해 나가는 방법으로, 고객의 요구 사항을 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발해 프로토타입으로 사용자에게 제공함. 이후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능을 평가해 그 결과를 통한 개선 작업을 시행하는 모델

 

(3) 나선형 모델(Spiral Model)

  • 반복을 통해 점증적으로 개발하는 방법. 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승해 프로젝트 진행이 어려워진다.
  • 대규모 시스템 소프트웨어 개발에 적합

 

 


02. KDD 분석 방법론

가. 개요

  • KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터마이닝 프로세스
  • 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에 응용될 수 있음

 

나. KDD 분석 절차

KDD

 

(1) 데이터셋 선택(Selection)

  • 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수, DB 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계
  • 데이터마이닝에 필요한 목표데이터(Target Data)를 구성해 분석에 활용

 

(2) 데이터 전처리(Preprocessing)

  • 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리해 데이터셋을 정제하는 단계
  • 데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우 데이터 선택 프로세스 단계를 재실행

 

(3) 데이터 변환(Transformation)

  • 데이터 전처리 과정을 통해 정제된 데이터에, 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소해 효율적으로 데이터마이닝을 할 수 있도록 데이터를 변경하는 단계
  • 데이터마이닝 프로세스를 진행하기 위해 학습용 데이터(Training Data)시험용 데이터(Test Data)로 데이터를 분리하는 단계

 

(4) 데이터마이닝(Data Mining)

  • 학습용 데이터를 이용해 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용해 데이터마이닝 작업을 실행하는 단계
  • 필요에 따라 데이터 전처리데이터 변환 프로세스추가로 실행해 최적의 결과를 산출

 

(5) 데이터마이닝 결과 평가(Interpretation/Evaluation)

  • 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성을 확인
  • 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계
  • 필요에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스를 반복 수행

 

 


03. CRISP-DM 분석 방법론

가. 개요

  • CRISP-DM(Cross Industry Standard for Data Mining)은 1996년 유럽연합의 ESPRIT에 의해 수행된 프로젝트에서 시작되었으며, 주요한 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도함
  • CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성됨

 

나. CRISP-DM의 4레벨 구조

CRISP-DM의 4레벨 구조

  • 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 테스크(Generic Tasks)를 포함함. 일반화 테스크데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 테스크(Specialized Tasks)로 구성됨
  • 예를 들어 데이터 정제(Data Cleansing)라는 일반화 테스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 테스크로 구성됨
  • 마지막 레벨인 프로세스 실행(Process Instances)은 데이터마이닝을 위한 구체적인 실행을 포함함

 

 

다. CRISP-DM의 프로세스

  • CRISP-DM 프로세스는 6단계로 구성되어 있으며, 각 단계는 폭포수 모델처럼 한 방향으로 구성되어 있지 않고 단계 간 피드백을 통해 완성도를 높임

 

CRISP-DM 프로세스

단계 내용 수행업무(일반화 테스크)
업무이해
(Business Understanding)
- 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식(전문 지식)을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
데이터 이해
(Data Understanding)
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비
(Data Preparation)
- 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계
(많은 시간 소요될 수 있음)
분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
모델링
(Modeling)
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Overfitting)문제를 확인
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
평가
(Evaluation)
- 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개
(Deployment)
- 모델링과 평가 단계를 통해 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하는 단계
- 모니터링과 모델의 유지보수 계획 마련, 모델에 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명주기(Life Cyle)이 다양하므로 상세한 전개 계획이 필요
- CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

 

 

 


04. KDD와 CRISP-DM의 비교

 

반응형