상세 컨텐츠

본문 제목

[개미의 걸음 Pandas 1차시] Pandas(판다스)의 이해

Python

by IT개미 데이터 2021. 1. 1. 07:07

본문

728x90

Pandas[판다스]

월스트리트 금융회사의 분석 전문가인 웨스 매키니가 개발한 데이터 분석 라이브러리

  • 현재 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리
  • 넘파이 기반으로 작성된 판다스는 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링 가능
  • pandas는 시계열성 데이터를 많이 다루는 금융 데이터를 분석하기 위해 만들어짐

 

판다스는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 뿐만 아니라 CSV 등을 쉽게 DataFrame으로 변경 가능

  • 판다스는 행과 열로 구성된 2차원의 데이터를 효율적으로 가공/처리할 수 있는 다양한 기능들을 제공

# Series VS DataFrame

더보기

Series와 DataFrame 모두 Index를 key값으로 가짐
※ Index : 개별 데이터들을 찾기 편하게 고유한 주소로 저장하는 KEY값

Series Column이 한 개 뿐인 데이터 구조
DataFrame Column이 여러 개인 데이터 구조

 

 

① pandas 모듈을 이용한 데이터 분석

pandas 모듈을 통한 데이터 분석의 특징
1> 열을 기준으로 데이터들을 그룹화해 집계 가능
2> 여러 프레임을 통합하여 하나의 요약된 정보 생성 가능
3> 다양한 그래프를 활용해 데이터 시각화 가능
4> 집계된 결과를 따로 해석하지 않아도 간단하게 분석 결과 도출 가능
5> 데이터 불러오기, 테이블 합치기 등을 사용하면 과거 데이터들과의 비교 용이
6> 데이터 프레임을 활용한 테이블 구조의 데이터 처리 가능[데이터 분석 용이]
7> 데이터 프레임에서 접근 용이성을 위해 별도의 레이블을 제공하고 관리
8> 기본적인 열 단위 분석 뿐만 아니라 행 단위 분석도 지원 

 

② pandas 모듈을 이용한 데이터 전처리

pandas 모듈을 통한 데이터 전처리의 특징
1> 데이터 전처리를 위한 실제 값을 변경할 수 있는 다양한 함수 및 메소드 제공
2> 데이터 전처리를 위해 열의 정보들을 하나의 변수로 지정 가능
       [변수의 분류 : 수치형(연속형, 정수형), 텍스트형(일반 텍스트, 범주형)]
3> 텍스트의 값들이 규칙적으로 작은 범주를 이루면 범주형 변수를 생성*관리
4> 누락된 값들을 삭제하거나 변경할 수 있는 기능 제공
5> 행과 열의 레이블을 설정 가능
     [래이블을 사용하면 실제 행과 열의 정보를 접근해 조회할 때 명확한 기준을 정의 가능]

 

 

 

 

728x90

관련글 더보기

댓글 영역