상세 컨텐츠

본문 제목

[개미의 걸음 Database 1차시] 데이터의 이해

데이터베이스

by IT개미 데이터 2020. 9. 1. 07:07

본문

728x90

Data의 정의

Data는 추론과 추정을 근거로 이루는 사실이다.    [옥스퍼드 대사전]

Data는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호작용 속에서 가치를 갖는다.

더보기

 

Data란 용어는 1646년 영국의 문헌에서 처음 등장

라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이란 의미로 사용됨

1940년대 이후 컴퓨터 시대가 도래하면서 데이터의 의미가 변화됨

관념적*추상적 개념 → 기술적*사실적 의미

 

데이터(자료) 양의 단위

B[Bite, 바이트] 1B=1Byte 20B
KB[Kilo Byte, 킬로바이트] 1KB = 1024Byte 210B
MB[Mega Byte, 메가바이트] 1MB = 1024KB 220B
GB[Gega Byte, 기가바이트] 1GB = 1024MB 230B
TB[Tera Byte, 테라바이트] 1TB = 1024GB 240B
PB[Peta Byte, 페타바이트] 1PB = 1024TB 250B
EB[Exa Byte, 엑사바이트] 1EB = 1024PB 260B
ZB[Zeta Byte, 제타바이트] 1ZB = 1024EB 270B
YB[Yotta Byte,요타바이트] 1YB = 1024ZB 280B

 

정형*반정형*비정형 데이터

  ① 정형 데이터

형태[고정된 필드]가 있으며 연산이 가능
주로 RDBMS[관계형데이터베이스관리시스템]에 저장됨
데이터 자체로 분석 가능, 주로 내부 시스템이라 데이터 수집이 쉽다
   → 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편
ex) 관계형데이터베이스, 엑셀(스프레드시트), CSV, OND 파일, ERP*CRM*SCM 등에서 발생하는 데이터, 물류창고 재고데이터 등

② 반정형 데이터

형태[스키마, 메타 데이터]가 있으며 연산이 불가능
주로 파일로 저장됨
데이터 분석이 가능하지만 해석이 불가능해 메타정보를 해석해 정형으로 변환
   → 데이터 수직 난이도가 중간
      주로 API형태로 제공되기 때문에 데이터 처리기술[파싱]이 요구됨
ex) XML, HTML, JSON, 로그형태(웹로그데이터, 센서데이터 등) 등

# API[Application Programming Interface]

더보기

응용 프로그램 개발 시, 운영체제나 프로그래밍 언어 등에 있는 라이브러리를 이용할 수 있도록 규칙 등을 정의한 인터페이스

프로그래밍 언어에서 특정한 작업을 수행하기 위해 사용되거나 운영체제의 파일제어, 화상처리 등의 기능을 활용하기 위해 사용

개발에 필요한 여러 도구를 제공 → 이를 활용하면 원하는 기능을 쉽고 효율적으로 구할 수 있음

소스코드 기반으로 운영체제와 응용프로그램 사이의 통신에 사용되는 언어나 메시지 형식

API에는 Window API, JAVA API, Web API, Open API 등이 있다.

# 파싱[Parsing]

더보기

컴퓨터에서 컴파일러 또는 번역기가 원시 부호를 기계어로 번역하는 과정의 한 단계

원시 프로그램에서 나타난 Token의 열을 받아들여 이를 그 언어의 문법에 맞게 구문분석트리[Parse Tree]로 구성하는 것

어떤 페이지(문서, HTML 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 정보를 가공하는 것

③ 비정형 데이터

형태가 없으며[고정필드 및 메타 데이터가 정의되지 않음] 연산도 불가능
주로 NoSQL에 저장됨
데이터 자체로 분석이 불가능하여 특정한 프로세스를 거쳐 정형데이터로 변경후 분석
   → 데이터 수직 난이도가 높음
      텍스트 마이닝 혹은 파싱해야 하므로 수집 데이터 처리가 어려움
ex) 소셜데이터(트위터, 페이스북, 인스타그램), 영상, 이미지, 음성, 문자, 텍스트(word, pdf등), 이메일, 보고서 GPS 등

# 스키마

더보기

데이터베이스 구조와 제약 조건에 관한 전반적인 명세를 기술한 메타데이터의 집합

# 메타데이터

더보기

 

데이터에 관해 구조화된 데이터로 다른 데이터를 설명해주는 데이터

대량의 정보 중 원하는 정보를 효율적으로 찾아내 이용하기 위해 일정한 규칙에 따라 콘텐츠에 부여되는 데이터

컴퓨터에서는 보통 '데이터를 표현하기 위한 목적', '데이터를 빨리 찾기 위한 목적'으로 사용됨 

 

 

정성적*정량적 데이터

정성적 데이터[Qualitative Data] 구    분 정량적 데이터[Quantitative Data]
언어, 문자 등의 비정형 데이터 형    태 수치, 도형, 기호 등의 정형 데이터
주관적 내용
통계분석이 어려움
저장*검색*분석에 많은 비용 소모
특    징 객관적 내용
통게 분석이 용이
정형화된 데이터라 비용 소모가 적음
회사 매출이 증가함, 기상특보 풍향, 습도, 나이, 몸무게, 주가

 

 

 

데이터의 구성단위

     물리적 단위 : 비트, 바이트, 워드

     논리적 단위 : 필드, 레코드, 파일, 데이터베이스

비트
[Bit]
컴퓨터의 자료(정보) 표현의 최소 단위
2진수(0,1)로 표현됨
N비트로 표현할 수 있는 정보의 개수 = 2N
니블
[Nibble]
4Bit로 구성
바이트
[Bite]
8비트로 구성되며 문자로 표현하는 단위
    한글, 한자 : 2Byte
    영문, 숫자 : 1Byte
 * 유니코드 : 1자는 무조건 2Byte
워드
[Word]
중앙처리장치(CPU)가 한번에 처리할 수 있는 연산의 기본단위
명령어나 연산을 처리하는 기본 단위
    Half Word : 2Byte
    Full Word : 4Byte
    Double word : 8Byte
필드
[Field]
서로 관련성이 있는 워드의 집합을 의미
자료 처리 단위인 레코드의 최소 구성단위
레코드
[Record]
프로그램에서 처리하는 자료의 기본 단위
논리레코드 : 자료처리의 기본 단위
자료의 이불력 단위, 블록(Block)이라고 함
파일
[File]
프로그램 구성의 기본 단위
데이터베이스
[Database]
연관성 있는 파일들을 모아놓은 집합체

[데이터에 대해 더 알아보기 ↓]

2020/06/14 - [빅데이터[ADsP]] - [개미의 걸음 ADsP 1과목] 데이터의 이해

 

 

 

 

 

 

 

 

728x90

관련글 더보기

댓글 영역