Data는 추론과 추정을 근거로 이루는 사실이다. [옥스퍼드 대사전]
Data는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호작용 속에서 가치를 갖는다.
Data란 용어는 1646년 영국의 문헌에서 처음 등장
라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이란 의미로 사용됨
1940년대 이후 컴퓨터 시대가 도래하면서 데이터의 의미가 변화됨
관념적*추상적 개념 → 기술적*사실적 의미 |
B[Bite, 바이트] | 1B=1Byte | 20B |
KB[Kilo Byte, 킬로바이트] | 1KB = 1024Byte | 210B |
MB[Mega Byte, 메가바이트] | 1MB = 1024KB | 220B |
GB[Gega Byte, 기가바이트] | 1GB = 1024MB | 230B |
TB[Tera Byte, 테라바이트] | 1TB = 1024GB | 240B |
PB[Peta Byte, 페타바이트] | 1PB = 1024TB | 250B |
EB[Exa Byte, 엑사바이트] | 1EB = 1024PB | 260B |
ZB[Zeta Byte, 제타바이트] | 1ZB = 1024EB | 270B |
YB[Yotta Byte,요타바이트] | 1YB = 1024ZB | 280B |
형태[고정된 필드]가 있으며 연산이 가능 주로 RDBMS[관계형데이터베이스관리시스템]에 저장됨 데이터 자체로 분석 가능, 주로 내부 시스템이라 데이터 수집이 쉽다 → 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편 ex) 관계형데이터베이스, 엑셀(스프레드시트), CSV, OND 파일, ERP*CRM*SCM 등에서 발생하는 데이터, 물류창고 재고데이터 등 |
형태[스키마, 메타 데이터]가 있으며 연산이 불가능 주로 파일로 저장됨 데이터 분석이 가능하지만 해석이 불가능해 메타정보를 해석해 정형으로 변환 → 데이터 수직 난이도가 중간 주로 API형태로 제공되기 때문에 데이터 처리기술[파싱]이 요구됨 ex) XML, HTML, JSON, 로그형태(웹로그데이터, 센서데이터 등) 등 |
# API[Application Programming Interface]
응용 프로그램 개발 시, 운영체제나 프로그래밍 언어 등에 있는 라이브러리를 이용할 수 있도록 규칙 등을 정의한 인터페이스
프로그래밍 언어에서 특정한 작업을 수행하기 위해 사용되거나 운영체제의 파일제어, 화상처리 등의 기능을 활용하기 위해 사용
개발에 필요한 여러 도구를 제공 → 이를 활용하면 원하는 기능을 쉽고 효율적으로 구할 수 있음
소스코드 기반으로 운영체제와 응용프로그램 사이의 통신에 사용되는 언어나 메시지 형식
API에는 Window API, JAVA API, Web API, Open API 등이 있다.
# 파싱[Parsing]
컴퓨터에서 컴파일러 또는 번역기가 원시 부호를 기계어로 번역하는 과정의 한 단계
원시 프로그램에서 나타난 Token의 열을 받아들여 이를 그 언어의 문법에 맞게 구문분석트리[Parse Tree]로 구성하는 것
어떤 페이지(문서, HTML 등)에서 내가 원하는 데이터를 특정 패턴이나 순서로 추출해 정보를 가공하는 것
형태가 없으며[고정필드 및 메타 데이터가 정의되지 않음] 연산도 불가능 주로 NoSQL에 저장됨 데이터 자체로 분석이 불가능하여 특정한 프로세스를 거쳐 정형데이터로 변경후 분석 → 데이터 수직 난이도가 높음 텍스트 마이닝 혹은 파싱해야 하므로 수집 데이터 처리가 어려움 ex) 소셜데이터(트위터, 페이스북, 인스타그램), 영상, 이미지, 음성, 문자, 텍스트(word, pdf등), 이메일, 보고서 GPS 등 |
# 스키마
데이터베이스 구조와 제약 조건에 관한 전반적인 명세를 기술한 메타데이터의 집합
# 메타데이터
데이터에 관해 구조화된 데이터로 다른 데이터를 설명해주는 데이터
대량의 정보 중 원하는 정보를 효율적으로 찾아내 이용하기 위해 일정한 규칙에 따라 콘텐츠에 부여되는 데이터
컴퓨터에서는 보통 '데이터를 표현하기 위한 목적', '데이터를 빨리 찾기 위한 목적'으로 사용됨
정성적 데이터[Qualitative Data] | 구 분 | 정량적 데이터[Quantitative Data] |
언어, 문자 등의 비정형 데이터 | 형 태 | 수치, 도형, 기호 등의 정형 데이터 |
주관적 내용 통계분석이 어려움 저장*검색*분석에 많은 비용 소모 |
특 징 | 객관적 내용 통게 분석이 용이 정형화된 데이터라 비용 소모가 적음 |
회사 매출이 증가함, 기상특보 | 예 | 풍향, 습도, 나이, 몸무게, 주가 |
물리적 단위 : 비트, 바이트, 워드
논리적 단위 : 필드, 레코드, 파일, 데이터베이스
비트 [Bit] |
컴퓨터의 자료(정보) 표현의 최소 단위 2진수(0,1)로 표현됨 N비트로 표현할 수 있는 정보의 개수 = 2N개 |
니블 [Nibble] |
4Bit로 구성 |
바이트 [Bite] |
8비트로 구성되며 문자로 표현하는 단위 한글, 한자 : 2Byte 영문, 숫자 : 1Byte * 유니코드 : 1자는 무조건 2Byte |
워드 [Word] |
중앙처리장치(CPU)가 한번에 처리할 수 있는 연산의 기본단위 명령어나 연산을 처리하는 기본 단위 Half Word : 2Byte Full Word : 4Byte Double word : 8Byte |
필드 [Field] |
서로 관련성이 있는 워드의 집합을 의미 자료 처리 단위인 레코드의 최소 구성단위 |
레코드 [Record] |
프로그램에서 처리하는 자료의 기본 단위 논리레코드 : 자료처리의 기본 단위 자료의 이불력 단위, 블록(Block)이라고 함 |
파일 [File] |
프로그램 구성의 기본 단위 |
데이터베이스 [Database] |
연관성 있는 파일들을 모아놓은 집합체 |
[데이터에 대해 더 알아보기 ↓]
2020/06/14 - [빅데이터[ADsP]] - [개미의 걸음 ADsP 1과목] 데이터의 이해
[개미의 걸음 SQL 1차시] SQL(Structured Query Language) (0) | 2020.10.01 |
---|---|
[개미의 걸음 Database 5차시] 데이터베이스 관리 시스템의 종류 (0) | 2020.09.05 |
[개미의 걸음 Database 4차시] 데이터베이스 관리 시스템 (0) | 2020.09.04 |
[개미의 걸음 Database 3차시] 데이터베이스의 개념과 특징 (0) | 2020.09.03 |
[개미의 걸음 Database 2차시] 파일시스템의 문제점과 데이터베이스의 등장 (0) | 2020.09.02 |
댓글 영역