상세 컨텐츠

본문 제목

[개미의 걸음 Python 30차시] ★ 데이터 수집과 활용(beautifulSoup 모듈) ★

Python

by IT개미 데이터 2020. 7. 30. 23:23

본문

728x90

웹사이트에서 데이터 가져오기

# 파이썬 내에서 웹페이지 구성을 알아보는 방법

 

가져온 데이터를 데이터프레임으로 만들기

  • 데이터를 테이터프레임으로 만들기 위해서는 우선 pandas를 import한다.
  • 그리고 .DataFrame( )함수를 이용해 key를 지정하고 데이터들을 집어넣는다.

 

 

가져온 데이터 프레임 구조 확인하기

  • "데이터프레임명.dtypes"로 데이터프레임 key들의 타입들을 확인 가능

 

 

데이터 구조 변경하기

  • 데이터 구조를 변경할 때는 df["key명"].astype('변경할 데이터 타입')이나 pd.to_numeric(df['key명'])를 입력
  • int32는 자리수에 32bit까지 들어갈 수 있음을 의미하고 int64는 자리수에 64bit까지 들어갈 수 있음을 의미

 

 

데이터 가공 : 새로운 key 추가

  • 데이터프레임명["새로운 키"]=들어갈 데이터 형식을 사용하면 새로운 key들을 추가시킬 수 있음

 

 

데이터 가공 : 원하는 데이터만 추출

  • 데이터프레임명.loc[조건, 출력할 key명] 을 사용하면 원하는 key들의 자료만 추출가능

 

 

# 추출한 데이터 정렬하기

 

DB에 데이터 저장

  • 데이터를 추가할 때에는 반드시 docker를 켜서 컨테이너를 실행시킨 뒤 NoSQL을 위한 pymongo를 실행시킴
  • docker를 실행시키고 enter키를 눌린 뒤 그림이 뜨고 명령 프롬프트가 나타나면 docker start m01을 입력
  • 컨테이너가 실행중인지 확인하기 위해 docker ps -a를 입력하여 확인
    docker ps만 입력할 경우, 등록된 컨테이너 중 실행중인 컨테이너만 보여줌
    docker ps -a를 입력할 경우, 등록된 컨테이너 전부를 보여줌
  • docker를 다 사용한 뒤에는 반드시 종료시키고 컴퓨터를 끈다!!
    docker stop m01을 입력해 해당 컨테이너 종료
    docker-machine stop을 입력해 도커 종료

 

# 추가한 구문만 보기

 

 

 

DB에 저장된 데이터 불러오기

 

 

728x90

관련글 더보기

댓글 영역