상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 3과목] R기초① 변수 & 주요 KEY & 기초함수&기초통계함수

자격증/ADsP

by IT개미 데이터 2020. 7. 19. 17:17

본문

728x90

변수[Variable]

저장된 값[숫자, 문자, 논리값 등]이 바뀔 수 있는 값들을 임시로 보관해 놓기 위한 저장소

  • 변수의 첫글자는 문자나 .(점, dot)로 시작하며, 그 이후에는 문자/숫자/dot/underline 을 사용 가능
  • 대소문자를 구분해야 됨을 유의!
  • 한 번 만들어 사용한 변수는 R을 종료할 때까지 사라지지 않는다.
  • 하나의 변수는 다양한 유형의 값을 저장할 수 있다.
질적 변수 명목형 변수 이름을 기준으로 한 형태
순서형 변수 순서가 있는 형태
양적 변수 연속 변수 연속된 숫자로 구성
이산 변수 떨어져 있는 숫자로 구성

 

 

 

R 프로그램 주요 키

#[해시기호] 한 줄을 주석[Comment]으로 처리하는 기능
다음 줄에도 주석처리하고 싶을 경우 해당 줄 앞에 #를 단다.
주석은 사용자가 설명을 달아주는 기능을 하므로 따로 문법 검사를 하지 않는다.
해시기호는 스크립트를 짜는 명령들이 어떤 기능을 하는지 설명하고 싶을 때 사용
;[세미콜론] 세미콜론은 하나의 명령어가 끝났음을 알려주는 기능
만약, 한 줄에 하나의 명령 밖에 없다면 세미콜론을 하지 않아도 오류없이 실행됨
단, 하나가 아닌 여러 개의 명령어를 한 줄에 입력할 때 반드시 중간에 세미콜론 사용
   * 콜론(:)과 혼동하지 말 것!!
:[콜론] 시작값에서 최종값까지 1씩 변화하는 연속적인 숫자를 생성하는 기능
seq()함수와 비슷하나 seq()와 달리 간격과 결과값의 길이 제한이 불가능하다.
Enter[엔터] 엔터는 명령어 입력 시, 다음 줄로 이동시켜주는 기능
Ctrl + Enter 스크립트에 작성한 명령어를 실행하는 기능
명령어가 한 줄일 때, 마우스 위치에 상관없이 아무 곳에서 눌러도 명령이 모두 실행됨
두 줄 이상일 땐, 전체 명령어를 블록 잡고 실행
   * R STUDIO가 아닌 RGui에서는 Ctrl + R을 눌러야 실행됨
Shift + Enter 명령어가 긴 경우, 명령어 일부를 다음 줄로 넘겨 깔끔하게 표현하는 기능
\n[\n]
줄바꿈 기호
   * cat('평균=", avg, 'n')
대소문자 R은 대소문자를 구별하므로 만약 명령 실행에 에러가 있다면 대소문자를 헷갈리지 않았는지 확인할 것
폴더이름은 항상 대문자로 설정할 것
[ ]
Index[인덱스]로 원하는 벡터의 원소 선택 가능
(벡터의 이름)[n] : 지정된 벡터에서 n번째의 원소를 추출
(벡터의 이름)[-n] : 지정된 벡터에서 n번째의 원소를 제외하고 추출
여러개의 원소를 추출하고 싶을 때는 c( )함수를 활용한다.
$
벡터, 리스트 등에서 원하는 부분을 뽑아내는 함수
결과값은 벡터
matrix에서는 잘 되지 않으며 data.frame에서 주로 사용
? 도움말
함수 앞에 붙일 경우, 함수의 argument들을 알려준다.

# R에서 결과값이 출력될 때, 앞에 표시되는 [1]의 의미

더보기
<R프로그램의 기초>

 

 

R의 기초 함수

data()
데이터셋을 불러들임
summary()
데이터셋 변수 내용을 요약
print() 출력형식을 지정할 필요 없음. 한번에 하나의 객체만 출력
cat() 여러 항목을 묶어서 연결된 결과로 출력.
복합적 데이터 구조(행렬, list 등)를 출력할 수 없음
rm() 변수 삭제하기
  * rm(list=is()) : 모든 변수를 삭제할 때 사용
lm() lm(fomula,data)의 형태
  * fomula는 주로 y[종속변수]~model[독립변수] 형태로 사용
  * data=(data명)으로 원하는 데이터를 활용
c() 여러 개의 벡터들을 결합하는 함수
문자, 숫자, 논리값, 변수를 모두 결합 가능하며 벡터와 데이터셋을 생성가능
벡터의 원소 중 문자가 하나라도 있을 경우, 모든 원소의 모드는 문자형태로 변환
seq() 수치형에만 적용가능한 벡터 생성 방법
is()   /   is.str() 변수 목록을 확인
function() 사용자 지정함수[사용자가 원하는 함수를 정의할 수 있다.
인수를 이용한 함수, 인수가 없는 함수를 만들 수 있다.
q()
작업 종료
setwd()
워킹 디렉터리 지정

 

 

 

R의 기초 통계 함수

기   능 비고
mean(변수) 변수의 평균 산출
sum(변수) 변수의 합계 산출
median(변수) 변수의 중앙값 산출
log(변수) 변수의 로그값 산출
sd(변수) 변수의 표준편차 산술
   = sqrt(var(변수)) = var(변수)(1/2)
var(변수) 변수의 분산 산출
cov(변수1, 변수2) 변수간의 공분산 산출
cor(변수1, 변수2) 변수간 상관계수 산출
length(변수) 변수간 길이를 값으로 출력
※ Stdev : 엑셀에서 표본의 표준편차
※ Stdevp : 엑셀에서 모집단의 표준편차
※ 공분산 : 두 변수의 관계를 나타내는 양
※ 상관계수 : 공분산을 표준편차로 나눈 값으로 항상 -1과 1사이의 값을 가짐     

# 상관계수

더보기

공분산을 표준편차로 나눈 값으로 항상 -1과 1사이의 값을 가짐

 +값 : 정적 상관    /    -값 : 부적 상관

지역 독립성 : 두 변수에 일정한 값을 규칙적으로 더하거나 빼도 상관계수는 변하지 않는다.

척도 독립성 : 두 변수에 일정한 값을 규칙적으로 곱하거나 나누어도 상관계수는 변하지 않는다.

# matrix, data.frame에서의 통계함수

더보기
colSums(   ) 열별 합계
colMeans(   ) 열별 평균
rowSums(   ) 행별 합계
rowMeans(   ) 행별 평균

 

# NA가 포함된 값의 결과

더보기

계산되는 값 중에 NA가 1개라도 있으면 결과는 무조건 NA가 출력된

ex> x <- c(4, 5, 6, 7, NA)
      mean(x)

 

R Studio에서만 적용가능한 유용한 단축키

Alt + - '<-'를 입력할 때 사용하면 편리
Ctrl + 2 Script 창에서 Console창으로 이동
Ctrl + 1 Console창에서 Script창으로 이동

 

 

 

 

 

 

 

 

 

 

 

728x90

관련글 더보기

댓글 영역