1. 데이터와 정보
01. 데이터의 정의와 특성
가. 데이터의 정의
- 데이터는 추론과 추정의 근거를 이루는 사실임
- 데이터는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는다
나. 데이터의 특성
구분 | 특성 |
존재적 특성 | 객관적 사실(Fact, Raw Material) |
당위적 특성 | 추론, 예측, 전망, 추정을 위한 근거(Basis) |
❗"객관적 사실로서 개별 데이터는 중요하지 않다"
데이터가 축적되고 서로 비교가 가능할 때 그 의미가 있음
02. 데이터의 구분과 유형
가. 데이터의 구분
구분 | 형태 | 예 | 특징 |
정성적 데이터(Qualitative Data) | - 언어, 문자 등 형식이 정해져 있지 않음 | - 회사 매출이 증가함 - 설문 조사 주관식 응답 |
- 비정형 데이터 - 주관적 내용 - 통계분석이 어려움 - 저장, 검색, 분석에 많은 비용 소모 |
정량적 데이터(Quantitative Data) | - 수치, 도형, 기호 등 형식이 정해짐 | - 나이 - 몸무게 - 주가 |
- 정형 데이터 - 객관적 내용 - 통계분석이 용이 - 정형화된 데이터로 비용 소모가 적음 |
❗"설문조사는 비정형 데이터가 아니다"
설문조사는 객관식일 수도, 주관식일 수도 있으므로 무조건 비정형 데이터라고 할 수 없다
나. 데이터의 유형
데이터 유형 | 특징 | 데이터 종류 |
정형 데이터 (Structured Data) |
- 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터 (연산가능) - 명확히 규칙이 정의된 문자 |
- RDB - 스프레드 시트 |
반정형 데이터 (Semi-structured Data) |
- 데이터의 형식과 구조가 비교적 유연하고, 스키마 정보(메타 데이터)를 데이터와 함께 제공하는 파일 형식의 데이터 (연산 불가능) | - HTML - JSON - 웹문서 - 센서 데이터 |
비정형 데이터 (Unstructured Data) |
- 구조가 정해지지 않은 대부분의 데이터 (연산 불가능) - 규칙이 없어 값의 의미를 파악하기 힘든 데이터 |
- 소셜 데이터 - 문서 이미지 - 오디오, 비디오 |
03. 지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지(Tacit Knowledge)와 형식지(Explicit Knowledge)의 상호작용에 중요한 역할을 함
구분 | 의미 | 예 | 특징 | 상호작용 |
암묵지 | - 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 - 개인에게 체화되어 있으므로 외부에 표출되어 공유가 어려움 |
- 할머니 손맛 김장김치 - 자전거 타는 법 |
- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 | - 공통화 - 내면화 |
형식지 | - 교과서, 문서, 매뉴얼, 비디오, DB처럼 형상화된 지식 - 유형의 대상이 있어 지식의 전달과 공유가 쉬움 |
- 교과서, 비디오, DB | - 전달과 공유가 용이함 | - 표출화 - 연결화 |
(1) 공통화(Socialization)
- 암묵지 지식 노하우를 타인에게 알려줌
- 내면화된 개인의 지식을 조직의 지식으로 공통화시키는 것
(2) 표출화(Externalization)
- 암묵지 지식 노하우를 책, 교본 형식으로 만듦
(3) 연결화(Combination)
- 책, 교본에 자신이 알고 있는 새로운 지식을 추가함
- 표출화된 지식을 다시 개인의 지식으로 연결화시키는 것
(4) 내면화(Internalization)
- 만들어진 책, 교본을 보고 타인의 암묵적 지식을 습득함
04. 데이터와 정보의 관계
가. DIKW의 정의
구분 | 특성 |
데이터(Data) | - 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 |
정보(Information) | - 데이터의 가공, 처리와 데이터 간의 연관관계 속에서 도출된 의미 |
지식(Knowledge) | - 데이터를 통해 도출된 다양한 정보를 구조화해 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 예측을 하거나 고유의 지식으로 내재화된 것 |
지혜(Wisdom) | - 지식의 축적과 근본 원리에 대한 깊은 이해를 바탕으로 산출된 창의적인 산물 |
나. DIKW 피라미드
- 데이터 -> 지식 -> 정보 -> 지혜로 산출되는 과정을 계층 구조로 설명함
2. 데이터베이스의 정의와 특징
01. 데이터베이스의 정의
- 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라서 편성된 데이터의 집합
- 데이터베이스관리시스템(DBMS) : 데이터베이스를 조작하는 소프트웨어로, 데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하고 사용할 수 있는 환경을 제공
02. 데이터베이스의 특징
데이터베이스 특징 | 설명 |
통합된 데이터 (Integrated Data) |
- 동일한 내용의 데이터가 중복되어 있지 않음 |
저장된 데이터 (Stored Data) |
- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장됨 |
공용 데이터 (Shared Data) |
- 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있음 |
변화되는 데이터 (Changable Data) |
- 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄 - 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함 |
03. DBMS의 발전 과정
가. 1세대 : 네트워크, 계층 DBMS
60년대 IBM의 IMS가 개발한 트리 기반의 계층 모델이다. 장점으로는 트리 기반이므로 빠른 속도와 효율성을 가지지만, DB생성 시 Data 사이의 관계를 각각 정의를 해주어야 하고 서로 연결된 데이터 중 중간의 데이터를 삭제하는 것이 어렵다는 단점이 있다.
60년대 하니웰사에서 네트워크 데이터베이스인 IDS를 개발했다. 각 레코드를 노드로, 레크도 사이의 관계가 간선으로 표현되는 그래프를 기반으로하는 네트워크 데이터 모델을 사용했다. 계층 DBMS와 마찬가지로 서로 링크로 연결되어 있기 때문에 구조를 변경하는 것이 어렵다.
나. 2세대 : 관계 DBMS (RDBMS)
- 데이터베이스를 테이블 형태로 구성
- ex > Oracle, MySQL, PostgreSQL
다. 3세대 : 객체 지향, 객체 관계 DBMS
- 80년대 객체 지향 데이터 모델이 등장함
- 데이터와 프로그램을 그룹화하고, 복잡한 객체들을 이해하기 쉬우며, 유지와 변경이 용이하게 만듦
- RDB에서는 문자, 숫자, 날짜 등의 단순한 정보 타입만 지원하는 데 반해, 사용자 정의 타입 및 비정형 복합 정보 타입을 지원해 복잡한 정보 구조의 모델링이 가능함
라. 4세대 : NoSQL (Not only SQL)
- 비관계형 데이터베이스
- 관계형 DBMS의 고질적인 문제점인 대용량 데이터 처리 비용의 기하급수적인 증가를 해결하기 위해 일관성을 조금 포기하는 대신 여러 대의 컴퓨터에 데이터를 분산해 저장하는 데이터 모델
- key-value, 문서, 그래프 등 성능과 규모 확장에 최적화된 다양한 데이터 모델을 제공
- ex > MongoDB, Redis, Cassandra
04. 데이터베이스 설계 순서
1단계. 요구 사항 분석
- 조직의 조직원들이 데이터베이스를 사용하는 용도를 파악
- 요구 사항 분석 단계에서 파악한 사용자의 요구 사항은 이후 설계 단계에서 중요하게 사용되고, 구축한 데이터베이스의 품질을 결정짓는 중요한 기준이 됨
2단계. 개념적 설계
- 요구 사항 분석 단계에서 파악한 사용자의 요구 사항을 개념적 데이터 모델을 이용해 표현
- 개념적 설계 단계에서 요구 사항 분석 단계의 결과물인 요구 사항 명세서를 개념적 데이터 모델로 변환하는 일을 개념적 모델링이라고 함
- 예 > E-R모델
3단계. 논리적 설계
- 개발에 사용할 DBMS에 적합한 논리적 데이터 모델을 이용해 개념적 설계 단계에서 생성한 개념적 구조를 기반으로 논리적 구조를 설계
- E-R모델을 릴레이션-스키마로 변환하는 작업을 논리적 모델링이라고 함
4단계. 물리적 설계
- 논리적 설계 단계에서 생성된 논리적 구조를 기반으로 물리적 구조를 설계
- 물리적 구조는 데이터베이스를 실제로 저장 장치에 저장하기 위한 내부 저장 구조와 접근 경로 등을 의미
- 데이터베이스를 실제로 구축할 컴퓨터 시스템의 저장 장치와 운영체제의 특성을 고려하여, 효율적인 성능을 지원하면서도 사용할 DBMS로 구현이 가능한 물리적인 구조를 설계하는 것이 물리적 설계 단계에서 수행하는 주요 작업임
3. 데이터베이스의 활용
01. 기업내부 데이터베이스
정보통신망 구축이 가속화되면서 1990년대의 기업 내부 데이터베이스는 모든 자료들이 통합되어 일관된 체계로 구축, 운영하는 전사 시스템으로 확대됨
가. 1980년대 기업내부 데이터베이스
- OLTP(On-Line Transaction Processing) : 네트워크 상의 여러 사용자가 실시간으로 데이터베이스의 데이터를 갱신하거나 조회하는 등의 단위 작업을 처리하는 방식. 주문입력시스템, 재고관리시스템 등 현업의 거의 모든 업무는 이와 같은 성격을 띄고 있음
- OLAP(On-Line Analytical Processing) : 정보 위주의 처리 분석. 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근해 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술. OLTP에서 처리된 트랜젝션 데이터를 분석해 제품의 판매 추이, 구매 성향 분석, 재무 회계 분석 등을 프로세싱하는 것
나. 2000년대 기업내부 데이터베이스
- CRM(Customer Relationship Management) : '고객관계관리'라고 하며 기업이 고객과 관련된 내외부 자료를 분석, 통합해 고객 중심 자원을 극대화하고, 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정. 데이터베이스 마케팅(DB Marketing) 중 일대일 마케팅(One-to-One marketing), 관계 마케팅(Relationship marketing)에서 진화한 요소들을 기반으로 등장함
- SCM(Supply Chain Management) : '공급망 관리'라고 하며 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것. SCM은 부품 공급업체와 생산업체, 그리고 고객에 이르기까지 거래관계에 있는 기업들 간 IT를 이용한 실시간 정보공유를 통해 시장이나 수요자들의 요구에 기민하게 대응토록 지원하는 것이다.
02. 분야별 데이터베이스
분야 | 내용 |
제조분야 | - ERP (Enterprise Resource Planning): 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법 - BI (Business Intelligence): 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스 - CRM (Customer Relationship Management): '고객관계관리'라고 하며 기업이 고객과 관련된 내외부 자료를 분석, 통합해 고객 중심 자원을 극대화하고 이를 토대로 고객특성에 맞게 마케팅 활동을 계획, 지원, 평가하는 과정 - RTE (Real-Time Enterprise): 회사의 주요 경영정보를 통합관리하는 실시간 기업의 새로운 기업경영시스템. ERP, SCM, CRM 등 부문별 전산화에서 한발 더 나아가 회사 전 부문의 정보를 하나로 통합해 경영자의 빠른 의사결정을 이끌어 내려는 목적에서 만들어짐 |
금융부문 | - EAI (Enterprise Application Intergration): 기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동해 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것으로 e-Business를 위한 기본 인프라 - EDW (Enterprise Data Warehouse): 기존 DW를 전사적으로 확장한 모델로 BPR, CRM, BSC과 같은 다양한 분석 애플리케이션들을 위한 원천이 됨. 따라서 EDW를 구축하는 것은 단순히 정보를 빠르게 전달하는 대형 시스템을 도입한다는 의미가 아니라 기업 리소스의 유기적 통합, 다원화된 관리 체계 정비, 데이터의 중복 방지 등을 위해 시스템을 재설계하는 것을 나타냄 |
유통부문 | - KMS (Knowledge Management System): 지식관리시스템을 의미하며, 기업의 환경이 물품을 주로 생산하던 산업 사회에서 재적 재산의 중요성이 커지는 지식사회로 급격히 이동함에 따라, 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식 - RFID (Radio Frequency, RF): 주파수를 이용해 ID를 식별하는 시스템으로 전자태그로 불린다 |
'프로그래밍 > 데이터사이언스' 카테고리의 다른 글
[ADsP] 데이터 분석 기획 Section 01. 데이터 분석 기획의 이해(1) 분석기획 방향성 도출 (0) | 2023.09.21 |
---|---|
[ADsP] 데이터의 이해 Section 03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2023.09.19 |
[ADsP] 데이터의 이해 Section 02. 데이터의 가치와 미래 (0) | 2023.09.18 |
[Python] 데이터사이언스를 위한 NumPy - (2) 인덱싱, 슬라이싱 Ⅰ (0) | 2023.05.18 |
[Python] 데이터사이언스를 위한 NumPy - (1) 배열 생성 (0) | 2023.05.17 |