Python
[개미의 걸음 Pandas 1차시] Pandas(판다스)의 이해
IT개미 데이터
2021. 1. 1. 07:07
728x90
Pandas[판다스]
월스트리트 금융회사의 분석 전문가인 웨스 매키니가 개발한 데이터 분석 라이브러리
- 현재 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
- 넘파이 기반으로 작성된 판다스는 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링 가능
- pandas는 시계열성 데이터를 많이 다루는 금융 데이터를 분석하기 위해 만들어짐
판다스는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 뿐만 아니라 CSV 등을 쉽게 DataFrame으로 변경 가능
- 판다스는 행과 열로 구성된 2차원의 데이터를 효율적으로 가공/처리할 수 있는 다양한 기능들을 제공
# Series VS DataFrame
더보기
Series와 DataFrame 모두 Index를 key값으로 가짐
※ Index : 개별 데이터들을 찾기 편하게 고유한 주소로 저장하는 KEY값
Series | Column이 한 개 뿐인 데이터 구조 |
DataFrame | Column이 여러 개인 데이터 구조 |
① pandas 모듈을 이용한 데이터 분석
pandas 모듈을 통한 데이터 분석의 특징 |
1> 열을 기준으로 데이터들을 그룹화해 집계 가능 |
2> 여러 프레임을 통합하여 하나의 요약된 정보 생성 가능 |
3> 다양한 그래프를 활용해 데이터 시각화 가능 |
4> 집계된 결과를 따로 해석하지 않아도 간단하게 분석 결과 도출 가능 |
5> 데이터 불러오기, 테이블 합치기 등을 사용하면 과거 데이터들과의 비교 용이 |
6> 데이터 프레임을 활용한 테이블 구조의 데이터 처리 가능[데이터 분석 용이] |
7> 데이터 프레임에서 접근 용이성을 위해 별도의 레이블을 제공하고 관리 |
8> 기본적인 열 단위 분석 뿐만 아니라 행 단위 분석도 지원 |
② pandas 모듈을 이용한 데이터 전처리
pandas 모듈을 통한 데이터 전처리의 특징 |
1> 데이터 전처리를 위한 실제 값을 변경할 수 있는 다양한 함수 및 메소드 제공 |
2> 데이터 전처리를 위해 열의 정보들을 하나의 변수로 지정 가능 [변수의 분류 : 수치형(연속형, 정수형), 텍스트형(일반 텍스트, 범주형)] |
3> 텍스트의 값들이 규칙적으로 작은 범주를 이루면 범주형 변수를 생성*관리 |
4> 누락된 값들을 삭제하거나 변경할 수 있는 기능 제공 |
5> 행과 열의 레이블을 설정 가능 [래이블을 사용하면 실제 행과 열의 정보를 접근해 조회할 때 명확한 기준을 정의 가능] |
728x90