상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 3과목] 데이터 분석 도구(R)

자격증/ADsP

by IT개미 데이터 2020. 7. 15. 17:17

본문

728x90

분석도구의 비교

  SAS SPSS 오픈소스 R
프로그램 비용 유료, 고가 유료, 고가 무료, 오픈소스
다양한 모듈 지원 및 비용 별도 구매 별도 구매 오픈소스
최근 알고리즘 및 기술반영 느림 다소 느림 매우 빠름
학습자료 입수의 편이성 유료도서 위주 유료도서 위주 공개 논문 및 자료 많음
질의를 위한 공개 컴뮤니티 NA NA 매우 활발
설 치 용 량 대용량 대용량 모듈화
유 지 보 수 쉽다.
[문제가 발생할 경우 해당업체를 통해 유지보수가 신속히 이루어짐]
어렵다.  [커뮤니티를 통해 다양한 사람의 의견을 들을 수 있지만 적절한 해결책을 찾기 위해서는 시간과 노력이 필요]
특    징 정해진 분석 프로시저에 준비된 데이터를 대입해 분석 결과만을 해석하는 패키지 데이터 중심으로 데이터 과학자들이 고유하고 창의적인 방법을 구현할 수 있는 패키지

 

 

R

R은 뉴질랜드 University of Auckland의 Ross Ihaka와 Robert Gentle에 의해 개발된 언어[1993년]

  • R은 통계 소프트웨어 개발과 자료 분석에 널리 사용되고 그래픽 처리 기능이 탁월한 언어

  • R은 GPL[General Public License]하에 배포되는 S프로그래밍 언어의 구현으로 GNU S라고도 함
        → R은 1995년 자유소프트웨어 재단의 GNU 일반 공중사용하가서로 인해 무료로 공개됨

  • R은 1988년 소개된 S-PLUS의 무료버전

  • R/S 플랫폼은 통계전문가들의 사실상의 표준 플랫폼

  • 오픈소스임에도 고성능 컴퓨팅 속도와 데이터 처리능력, 각종 소프트웨어 및 구글, 아마존클라우드 서비스와의 API등 성능이 우수하고 연동*호환성이 좋다.
        → Windows뿐만 아니라 Linux나 Mac OS도 지원

  • R은 계산기의 역할을 하며 Java, C프로그램과 연동 가능

※ S언어는 1976년 미국의 Bell연구소의 John Chamber가 개발한 통계적인 프로그래밍 언어
  S언어에는 무료배포버젼인 R과 상용버전인 S-PLUS가 있다.

    R기반의 작업환경

작업환경은 업무 규모와 본인에게 익숙한 환경이 무엇인지를 기준으로 선택
기업환경에서는 64Bbit환경의 듀얼코어, 32GB RAM, 2TB 디스크, 리눅스 운영체제를 추천
R의 메모리
    → 64bit 유닉스 환경 : 메모리 무제한
    → x86 64bit환경 : 128TB까지 지원
    → 64bit 윈도우 환경 : 8TB까지 지원

 

  R의 주요 특징

① 오픈 소스 프로그램

오픈 소스이므로 무료로 사용이 가능해 질의를 위한 사용자 커뮤니티가 매우 활발하다.
   * 구글 검색만으로도 충분히 답을 얻을 수 있을 정도로 커뮤니티가 활성화 되어 있다.
   * 하지만 다양한 사용자들을 통해 다양한 의견이 나오므로 적절한 해결책을 찾기 위해서는 시간과 노력이 필요하다.
다양한 기능을 지원하는 많은 패키지가 수시로 업데이트되므로 최신 알고리즘 패키지를 통해 활용하기 쉽다.
   * 다른 사용자가 자신이 제작한 패키지 업로드하면 누구나 다운 가능
   * 패키지 업데이트를 통한 우수한 확장성

② 그래픽 및 성능 & 시스템 데이터 저장 방식

프로그래밍이나 그래픽 측면 등 대부분의 주요 특징들에서 상용 프로그램과 대등하거나 월등하다.
각 세션 사이마다 시스템에 데이터셋을 저장하므로 매번 데이터를 로딩할 필요가 없고 명령어 스토리도 저장 가능
    → 메모리에 데이터를 불러들여 작동하는 인메모리[InMemory]방식이라 빠른 속도로 데이터 처리가 가능
    → 메모리의 크기에 따라 분석할 수 있는 데이터의 양이 결정된다.
    → 인메모리(Inmemory) 방식이라 하둡의 분산프로세싱 프레임워크인 MapReduce방식을 적용하기 용이
    → 구글, 페이스북, 아마존 등이 빅데이터 분석에 R을 활용하는 이유

③ 객체지향언어이며 함수형 언어

통계기능 뿐만 아니라 일반 프로그래밍언어처럼 자동화하거나 새로운 함수를 생성해 사용 가능
객체지향 언어이므로 R은 추정계수, 표준옻차, 잔차 등 결과값을 객체에 저장해 필요한 부분을 호출해 사용 가능
       → SAS,SPSS의 경우, 회귀분석 시 화면에 결과가 산더미로 나오게 된다.
          따라서 분석결과를 활용하기 위해서는 추가로 프로그래밍하거나 별도의 작업이 필요 
함수형 언어이므로 기존에 사용한 함수들을 활용함으로 프로그램이 더욱 깔끔하고 단축된 코드를 만든다.
함수형 언어이므로 적절한 함수르 적용해 프로그래밍하면 매우 빠른 코드수행속도를 가진다.
함수형 언어이므로 함수를 활용해 프로그래밍함으로 단순한 코드로 디버깅 노력이 감소한다.[디버깅이 쉽다]
함수형 언어이므로 다른 프로그래밍 언어들에 비해 병렬 프로그래밍으로 전환이 용이하다.

④ 강력한 시각화[그래프] 기능

단순한 코딩만으로도 2D, 3D그래픽, 지도, GIS, 동적 그래프를 지원해 빅데이터의 시각화가 용이하다.

⑤ 모든 운영체제에서 사용 가능

Windows, Mac, Linux 운영체제에서 모두 사용가능

⑥ 데이터 핸들링 기능

텍스트, CSV, 엑셀, SAS, SPSS, DB, Stata 등의 다양한 데이터를 읽어오는 기능
벡터, 행렬, 배열, 데이터 프레임, 리스트 등 다양한 형태의 데이터 구조 지원[다양한 형태의 분석 가능]
수정, 삭제, 정렬, 합치기 등의 데이터 핸들링을 위한 기능

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90

관련글 더보기

댓글 영역