반응형

프로그래밍/데이터사이언스 7

[ADsP] 데이터 분석 기획 Section 01. 데이터 분석 기획의 이해(2) 분석 방법론

2. 분석 방법론 05. 빅데이터 분석방법론 가. 빅데이터 분석의 계층적 프로세스 1) 단계(Phase) 프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성됨. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전관리(Configuration Management) 등을 통해 통제가 이루어져야 함 2) 태스크(Task) 각 단계는 여러 개의 태스크(Task)로 구성됨. 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 3) 스텝(Step) WBS(Work Breakdown Structure)의 워크 패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process&Tool), 출력자..

[ADsP] 데이터 분석 기획 Section 01. 데이터 분석 기획의 이해(1) 분석기획 방향성 도출

1. 분석기획 방향성 도출 01. 분석기획의 특징 가. 분석기획이란? 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리하는 방안을 사전에 계획하는 작업 어떠한 목표(What)를 달성하기 위해(Why) 어떠한 데이터를 가지고 어떤 방식으로(How) 수행할 지에 대한 일련의 계획을 수립하는 작업이므로 성공적인 분석 결과를 도출하기 위한 중요한 사전 작업임 02. 분석 대상과 방법에 따른 네가지 분석 주제 유형 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 나누어진다 특정한 분석 주제를 대상으로 진행할 경우에도, 분석 주제 및 기법의 특성 상 4가지 유형을 넘나들면서 분석을 수행하고 결과를 도출하는 과정을 반복함 (1) O..

[ADsP] 데이터의 이해 Section 03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석과 전략 인사이트 01. 빅데이터 열풍과 회의론 빅데이터 열풍으로 인한 회의론도 있는데, 이런 회의론으로 인해 실제 우리가 빅데이터 분석에서 찾을 수 있는 수많은 가치들을 제대로 발굴해 보기도 전에 그 활용 자체를 사전에 차단해버릴 수도 있음. 02. 빅데이터 회의론의 원인 및 진단 가. 투자효과를 거두지 못했던 부정적 학습효과 과거 거액을 들여 고객관계관리(CRM)을 도입했던 기업들이 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 난감해 했으며 생각 이상의 효과를 거두지 못했음 나. 빅데이터 성공사례 중 기존 분석 프로젝트를 포함해 놓은 것이 많다 국내 빅데이터 업체들이 CRM분석 성과를 빅데이터 분석으로 과대포장 03. 일차원적인 분석 vs 전략도출을 위한 가치기반 분석 일차적인 분석..

[ADsP] 데이터의 이해 Section 02. 데이터의 가치와 미래

1. 빅데이터의 이해 01. 빅데이터의 이해 가. 빅데이터의 정의 특징 설명 3V 양 (Volume) - 데이터의 크기 - 생성되는 모든 데이터를 수집 다양성 (Variety) - 데이터의 다양성 - 정형화된 데이터를 넘어 텍스트, 오디오, 비디오와 같은 모든 유형의 데이터를 분석 대상으로 함 속도 (Velocity) - 데이터의 수집과 처리의 속도 4V 가치 (Value) - 빅데이터를 활용해 유용한 가치를 끌어낼 수 있음 5V 신뢰성 (Veracity) - 방대한 양의 데이터에서 오류 제거를 통해 데이터 품질 및 신뢰성 재고 필요 7V 정확성 (Validity) - 아무리 규모가 큰 데이터라도 질 높은 분석을 통한 데이터 타당성이 중요 휘발성 (Volatility) - 데이터가 얼마나 오래, 타당하게..

[ADsP] 데이터의 이해 Section 01. 데이터의 이해

1. 데이터와 정보 01. 데이터의 정의와 특성 가. 데이터의 정의 데이터는 추론과 추정의 근거를 이루는 사실임 데이터는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는다 나. 데이터의 특성 구분 특성 존재적 특성 객관적 사실(Fact, Raw Material) 당위적 특성 추론, 예측, 전망, 추정을 위한 근거(Basis) ❗"객관적 사실로서 개별 데이터는 중요하지 않다" 데이터가 축적되고 서로 비교가 가능할 때 그 의미가 있음 02. 데이터의 구분과 유형 가. 데이터의 구분 구분 형태 예 특징 정성적 데이터(Qualitative Data) - 언어, 문자 등 형식이 정해져 있지 않음 - 회사 매출이 증가함 - 설문 조사 주관식 응답 - 비정형 데이터 - 주관적 내용 - 통..

[Python] 데이터사이언스를 위한 NumPy - (2) 인덱싱, 슬라이싱 Ⅰ

NumPy의 꽃 Indexing과 Slicing이다. 다차원 배열에서 사용자가 원하는 요소만 정확히 골라내기 위해선 Indexing과 Slicing에 대한 이해가 필요하다. NumPy 배열를 다룰 때는 기본적으로 Python 시퀀스처럼 다루면 되므로 크게 어렵지 않다. 이번 글에서는 기본 인덱싱을 알아보자. 기본 인덱싱(Basic indexing) 단일 요소 인덱싱(Single element indexing) 단일 요소를 인덱싱할 때는 Python 인덱싱과 정확히 똑같이 동작한다. import numpy as np x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]) # 1 print(x[4], x[-2]) # 2 print(x.shape) x.shape = (3, 3) print(..

[Python] 데이터사이언스를 위한 NumPy - (1) 배열 생성

NumPy(Numerical Python)는 수치해석과 통계를 위한 오픈 소스 파이썬 라이브러리로 단독적으로 쓰이기도 하지만 보통 Scipy, Pandas, matplotlib과 같은 과학이나 수학 관련 패키지에서 광범위하게 사용된다. 원래 파이썬은 수치해석이나 통계같은 복잡한 계산을 하기 위한 언어가 아니었지만 numpy가 이런 점을 보완시켰다. 상당 부분 C언어와 포틀란으로 작성돼 있어 속도도 빠른 편이다. NumPy는 배열을 계산하기 위해 ndarray(n차원 array)라는 객체를 제공하는데, ndarray객체를 이용해서 수학의 행렬 연산과 유사한 연산을 수행할 수 있다. NumPy 설치하기 pip install numpy 넘파이는 위의 명령어로 간단히 설치할 수 있다. 리눅스 기반으로 만들어진 ..

반응형