728x90
반응형
1. 빅데이터의 이해
01. 빅데이터의 이해
가. 빅데이터의 정의
특징 | 설명 | |
3V | 양 (Volume) |
- 데이터의 크기 - 생성되는 모든 데이터를 수집 |
다양성 (Variety) |
- 데이터의 다양성 - 정형화된 데이터를 넘어 텍스트, 오디오, 비디오와 같은 모든 유형의 데이터를 분석 대상으로 함 |
|
속도 (Velocity) |
- 데이터의 수집과 처리의 속도 | |
4V | 가치 (Value) |
- 빅데이터를 활용해 유용한 가치를 끌어낼 수 있음 |
5V | 신뢰성 (Veracity) |
- 방대한 양의 데이터에서 오류 제거를 통해 데이터 품질 및 신뢰성 재고 필요 |
7V | 정확성 (Validity) |
- 아무리 규모가 큰 데이터라도 질 높은 분석을 통한 데이터 타당성이 중요 |
휘발성 (Volatility) |
- 데이터가 얼마나 오래, 타당하게 사용될 수 있는지에 대한 것 - 빅데이터는 장기적으로 유용한 가치를 창출해야 함 |
🔍 빅데이터를 바라보는 관점의 변화 세가지
(1) 데이터 변화
- 규모(Volume)
- 형태(Variety)
- 속도(Velocity)
(2) 기술 변화
- 데이터 처리, 저장, 분석 기술 및 아키텍쳐
- 클라우드 컴퓨팅 활용
(3) 인재, 조직 변화
- Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직
02. 출현 배경과 변화
빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리 방식, 다루는 사람과 조직 차원에서 일어나는 '변화'를 의미한다.
🔍 세가지 출현 배경
출현배경 | 내용 | |
산업계 | 고객 데이터 축적 | - 고객 데이터를 축적하여 보유함으로써 데이터에 숨어있는 가치를 발굴해 새로운 성장동력원으로의 기술 확보 |
학계 | 거대 데이터 활용, 과학 확산 | - 빅데이터를 다루는 학문 분야가 늘어나면서 필요한 기출 아키텍쳐 및 통계 도구들이 발전 |
관련 기술발전 | 관련기술의 발달 | - 디지털화, 저장 기술 발전, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 |
03. 빅데이터의 기능
빅데이터에 거는 기대는 다음과 같이 비유된다.
- 산업혁명의 석탄, 철 : 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대됨
- 21세기의 원유 : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨
- 렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대됨 ex > Ngram Viewer
- 플랫폼 : 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 ex > 카카오톡, 페이스북
04. 빅데이터가 만들어 내는 본질적인 변화
빅데이터에서 중요시 여기는 부분이 과거에서 현재로 다음과 같이 변화했다.
- 사전처리에서 사후처리로 : 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다
- 표본조사에서 전수조사로 : 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다.
- 질에서 양으로 : 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미치다는 추론에 바탕을 둔 변화가 나타나고 있다
- 인과관계에서 상관관계로 : 상관관계를 통해 특정 현사의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 압도해 가는 시대가 도래하게 될 것으로 전망된다.
2. 빅데이터의 가치와 영향
01. 빅데이터 가치 산정이 어려운 이유
여러 가지 변수로 인해 빅데이터 시대에는 데이터의 가치를 측정하는 것이 쉽지 않다
이유 | 설명 |
데이터 활용 방식 | - 데이터의 재사용, 재조합(mashup), 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다. - ex> 전기자동차의 배터리 충전시간, CCTV를 통해 절도범을 잡을 수도 있지만 구매패턴 분석도 가능함 |
새로운 가치 창출 | - 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치를 측정하기 어려워졌다. - ex> 아마존 킨들 전자책 읽기 관련 데이터 분석을 하면 사용자의 독서 패턴을 알 수 있음 |
분석 기술 발전 | - 현재는 가치가 없는 데이터일지라도 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수도 있다. - ex> SNS 비정형 데이터를 이용한 텍스트 마이닝으로 활용 |
3. 비즈니스 모델
01. 빅데이터 활용 사례
분야 | 설명 |
기업 | - 혁신, 경쟁력 제고, 생산성 향상 - 빅데이터를 이용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴함 |
정부 | - 환경 탐색, 상황분석, 미래대응 - 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하고 관련 정보를 추출함 |
개인 | - 목적에 따른 다양한 활용 - 정치인의 SNA 활용, 대중 가수의 인지도 향상에 활용 |
02. 빅데이터 활용 기본 테크닉
빅데이터를 활용한 기본적인 테크닉들이 있다.
테크닉 | 내용 | 예시 |
연관규칙학습 (Association Rule Learning) |
- 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | - 마트에서 상관관계가 높은 상품을 함께 진열 -> 우유 & 기저귀 - 커피 구매자와 탄산음료 구매자의 상관관계 |
유형분석 (Classification Tree Analysis) |
- '사용자가 어떤 특성을 가진 집단에 속하는가?'와 같은 문제를 해결하고자 할 때 사용하는 방법 | - 온라인 수강생들의 특성에 따라 분류 |
유전자 알고리즘 (Genetic Algorithms) |
- 최적화가 필요한 문제의 해결책을, 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 | - 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? |
기계학습 (Machine Learning) |
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 | - 넷플릭스 영화 추천 시스템 |
회귀분석 (Regression Analysis) |
- 독립변수를 조작함에 따라 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용 | - 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가 |
감정분석 (Sentiment Analysis) |
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 | - 새로운 환불 정책에 대한 고객의 평가는 어떤가? |
소셜네트워크분석 (= 사회관계망분석(SNA), Social Network Analysis) | - 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고 영향력있는 사람을 찾아낼 때 사용 | - 고객들 간 관계망은 어떻게 구성되어 있나 |
4. 위기 요인과 통제 방안
01. 빅데이터 시대의 위기 요인와 통제 방안
위기 요인 | 설명 | 통제 방안 |
사생활 침해 | - 개인정보가 포함된 특정 데이터가 본래의 목적 외에 가공돼 2차, 3차적 목적으로 활용될 경우 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있음 | 동의에서 책임으로 개인정보의 활용에 대해 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적이므로 개인정보 사용자에게 책임을 지움으로써 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하도록 함 |
책임 원칙 훼손 | - 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼 분석대상이 되는 사람들은 예측 알고리즘의 희생양일 될 가능성이 있다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있음 | 결과 기반 책임 원칙 고수 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며, 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련해야 함 |
데이터 오용 | - 빅데이터는 일어난 일에 대한 데이터에 의존하므로 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있음 | 알고리즘 접근 허용 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증 방안 도입의 필요성을 제시함. 불이익을 당한 사람들을 대변할 알고리즈미스트가 필요해짐. |
02. 데이터 3법
법 | 설명 |
개인정보보호법 | |
정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신법) | |
신용정보의 이용 및 보호에 관한 법률(신용정보법) |
🔍개인정보의 수집 및 수집 목적내 이용이 가능한 경우
- 정보주체의 동의를 받는 경우
- 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한 경우
- 공공기관이 법령 등에서 정하는 소관 업무의 수행을 위하여 불가피한 경우
- 정보주체와의 계약의 체결 및 이행을 위하여 불가피하게 필요한 경우
- 명백히 정보주체 등의 급박한 생명, 신체, 재산의 이익을 위해 필요한 경우
- (정보주체의 권리보다 우선하는) 개인정보처리자의 정당한 이익 달성을 위하여 필요한 경우
🔍개인정보 수집·이용 동의 시 필수 고지 사항
- 개인정보의 수집·이용 목적
- 수집하려는 개인정보의 항목
- 개인 정보의 보유 및 이용 기간
- 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내용
🔍개인정보 비식별화
- 개인정보 : 살아있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보
- 비식별화 : 정보의 일부 또는 전부를 삭제 또는 대체하거나 다른 정보와 쉽게 결합하지 못하도록 하여 특정 개인을 알아볼 수 없도록 하는 일련의 조치
비식별 기술 | 제거방법 | 예시 |
가명처리 | 식별요소를 다른 값으로 대체 | 홍길동, 35세, 서울 거주, 한국대 재학 -> 임꺽정, 30대, 서울 거주, 국제대 재학 |
총계처리 또는 평균값 대체 | 데이터를 총합으로 표시하여 개별 데이터값을 보이지 않도록 함 | 임꺽정 180cm, 홍길동 170cm -> 1-5반 학생 키 합 350cm, 평균키 175cm |
데이터값 삭제 | 개인 식별을 인식할 수 있는 값 삭제 | 홍길동, 35세, 서울 거주, 한국대 졸업 -> 35세, 서울 거주 |
범주화 | 범주의 값으로 변환 | 홍길동, 35세 -> 홍 씨, 30대 |
데이터 마스킹 | 개인 식별자가 보이지 않도록 처리 | 홍길동, 35세 -> 홍**, 35세 |
5. 미래의 빅데이터
01. 빅데이터 활용의 3요소
- 데이터 : 모든 것의 데이터화(Datafication)
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터사이언티스트, 알고리즈미스트
반응형
'프로그래밍 > 데이터사이언스' 카테고리의 다른 글
[ADsP] 데이터 분석 기획 Section 01. 데이터 분석 기획의 이해(1) 분석기획 방향성 도출 (0) | 2023.09.21 |
---|---|
[ADsP] 데이터의 이해 Section 03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2023.09.19 |
[ADsP] 데이터의 이해 Section 01. 데이터의 이해 (1) | 2023.09.15 |
[Python] 데이터사이언스를 위한 NumPy - (2) 인덱싱, 슬라이싱 Ⅰ (0) | 2023.05.18 |
[Python] 데이터사이언스를 위한 NumPy - (1) 배열 생성 (0) | 2023.05.17 |