상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 1과목] 데이터의 이해

자격증/ADsP

by IT개미 데이터 2020. 6. 14. 17:17

본문

728x90

Data의 정의

Data는 추론과 추정을 근거로 이루는 사실이다.    [옥스퍼드 대사전]

Data는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호작용 속에서 가치를 갖는다.

더보기

 

Data란 용어는 1646년 영국의 문헌에서 처음 등장

라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이란 의미로 사용됨

1940년대 이후 컴퓨터 시대가 도래하면서 데이터의 의미가 변화됨

관념적*추상적 개념 → 기술적*사실적 의미

 

정형*반정형*비정형 데이터

  ① 정형 데이터

형태[고정된 필드]가 있으며 연산이 가능
주로 RDBMS[관계형데이터베이스관리시스템]에 저장됨
데이터 자체로 분석 가능, 주로 내부 시스템이라 데이터 수집이 쉽다
   → 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편
ex) 관계형데이터베이스, 엑셀(스프레드시트), CSV, OND 파일, ERP*CRM*SCM 등에서 발생하는 데이터, 물류창고 재고데이터 등

② 반정형 데이터

형태[스키마, 메타 데이터]가 있으며 연산이 불가능
주로 파일로 저장됨
데이터 분석이 가능하지만 해석이 불가능해 메타정보를 해석해 정형으로 변환
   → 데이터 수직 난이도가 중간
      주로 API형태로 제공되기 때문에 데이터 처리기술[파싱]이 요구됨
ex) XML, HTML, JSON, 로그형태(웹로그데이터, 센서데이터 등) 등

# API[Application Programming Interface]

더보기

응용 프로그램 개발 시, 운영체제나 프로그래밍 언어 등에 있는 라이브러리를 이용할 수 있도록 규칙 등을 정의한 인터페이스

프로그래밍 언어에서 특정한 작업을 수행하기 위해 사용되거나 운영체제의 파일제어, 화상처리 등의 기능을 활용하기 위해 사용

개발에 필요한 여러 도구를 제공 → 이를 활용하면 원하는 기능을 쉽고 효율적으로 구할 수 있음

소스코드 기반으로 운영체제와 응용프로그램 사이의 통신에 사용되는 언어나 메시지 형식

API에는 Window API, JAVA API, Web API, Open API 등이 있다.

# 파싱[Parsing]

더보기

컴퓨터에서 컴파일러 또는 번역기가 원시 부호를 기계어로 번역하는 과정의 한 단계

원시 프로그램에서 나타난 Token의 열을 받아들여 이를 그 언어의 문법에 맞게 구문분석트리[Parse Tree]로 구성하는 것

어떤 페이지(문서, HTML 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 정보를 가공하는 것

③ 비정형 데이터

형태가 없으며[고정필드 및 메타 데이터가 정의되지 않음] 연산도 불가능
주로 NoSQL에 저장됨
데이터 자체로 분석이 불가능하여 특정한 프로세스를 거쳐 정형데이터로 변경후 분석
   → 데이터 수직 난이도가 높음
      텍스트 마이닝 혹은 파싱해야 하므로 수집 데이터 처리가 어려움
ex) 소셜데이터(트위터, 페이스북, 인스타그램), 영상, 이미지, 음성, 문자, 텍스트(word, pdf등), 이메일, 보고서 GPS 등

# 스키마

더보기

데이터베이스 구조와 제약 조건에 관한 전반적인 명세를 기술한 메타데이터의 집합

# 메타데이터

더보기

 

데이터에 관해 구조화된 데이터로 다른 데이터를 설명해주는 데이터

대량의 정보 중 원하는 정보를 효율적으로 찾아내 이용하기 위해 일정한 규칙에 따라 콘텐츠에 부여되는 데이터

컴퓨터에서는 보통 '데이터를 표현하기 위한 목적', '데이터를 빨리 찾기 위한 목적'으로 사용됨 

 

정성적*정량적 데이터

정성적 데이터[Qualitative Data] 구    분 정량적 데이터[Quantitative Data]
언어, 문자 등의 비정형 데이터 형    태 수치, 도형, 기호 등의 정형 데이터
주관적 내용
통계분석이 어려움
저장*검색*분석에 많은 비용 소모
특    징 객관적 내용
통게 분석이 용이
정형화된 데이터라 비용 소모가 적음
회사 매출이 증가함, 기상특보 풍향, 습도, 나이, 몸무게, 주가

 

지식경영핵심이슈[암묵지, 형식지]

데이터는 지식경영핵심이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 한다.  [Polany, 1966]

암묵지[Tacit Knowledge] 구    분 형식지[Explicit Knowledge]
학습과 경험을 통해 개인에게 최화되어 있지만 겉으로는 드러나지 않는 지식 의    미 문서나 메뉴얼처럼 형상화된 지식
사회적으로 중요하지만
다른 사람에게 공유되기 힘듬
특    징 전달과 공유가 용이
공통화, 내면화
[개인에게 축적된 내면화된 지식
     → 조직의 지식으로 공통화
상호작용 표출화, 연결화
[언어, 숫자, 기호로 표출화된 지식
     → 개인의 지식으로 연결화]
개인에게 축적된 경험을 객관적인 데이터[언어, 기호 등]로 문서나 매체에 저장*가공*분석하는 과정이 표출화
김장 담그기, 자전거 타기 교과서, 비디오, DB

 

DIKW 피라미드

데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층 구조로 설명

<DIKW 피라미드>

데이터(자료) 양의 단위

B[Bite, 바이트] 1B=1Byte 20B
KB[Kilo Byte, 킬로바이트] 1KB = 1024Byte 210B
MB[Mega Byte, 메가바이트] 1MB = 1024KB 220B
GB[Gega Byte, 기가바이트] 1GB = 1024MB 230B
TB[Tera Byte, 테라바이트] 1TB = 1024GB 240B
PB[Peta Byte, 페타바이트] 1PB = 1024TB 250B
EB[Exa Byte, 엑사바이트] 1EB = 1024PB 260B
ZB[Zeta Byte, 제타바이트] 1ZB = 1024EB 270B
YB[Yotta Byte,요타바이트] 1YB = 1024ZB 280B

 

728x90

관련글 더보기

댓글 영역