상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 3과목] 데이터 마트의 이해(With 요약변수, 파생변수)

자격증/ADsP

by IT개미 데이터 2021. 2. 10. 17:17

본문

728x90

데이터마트[Data Mart]

데이터 웨어하우스와 사용자 사이의 중간층에 위치한 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스

  • 데이터 마트 내 대부분의 데이터는 데이터 웨어하우스로부터 복제되지만 자체적으로 수집도 가능
  • 관계형 데이터베이스나 다차원 데이터베이스를 이용해 구축
  • 동일한 데이터 셋을 활용할 경우, 최신 분석기법들을 이용하면 분석가의 역량 차이에 의한 분석 효과는 미미하지만 데이터 마트를 어떻게 구축하느냐에 따른 분속효과 차이는 큼
  • CRM[Customer Relationship Management] 관련 업무 중에서 핵심은 고객 데이터 마트 구축!
  • 데이터 마트 내 대부분의 데이터는 데이터웨어하우스로부터 받음!
        → 받아온 데이터를 데이터 분석에 활용할 수 있는 자료로 변환하기 위해 만드는 것이 "변수"
  • 변수에는 요약변수와 파생변수가 있음
        → 요약변수와 파생변수를 생성하는 것은 데이터마트를 구성할 때 가장 중요한 부분 중 하나
        → 모형 개발시 문제를 가장 잘 해석할 수 있는 변수를 찾는 것은 모형 개발에서 가장 중요한 핵심단계

 

 

 

요약변수

수집된 데이터를 특정 기준에 따라 사칙연산을 통해 만들어낸 변수

  • 데이터 분석을 위해 만들어지는 데이터 마트의 가장 기본적인 변수
  • 많은 모델에 공통으로 사용될 수 있어 재활용성이 높음
  • 합계, 횟수 등과 같이 간단한 구조를 가지므로 자동화하여 상황에 맞게 또는 일반적인 자동화 프로그램 구축 가능
  • 요약변수의 단점은 얼마 이상이면 구매하더라도 기준값의 의미해석이 애매할 수 있음
        → 이 경우, 연속형 변수를 그룹핑해 사용하는 것이 좋음

 

 

파생변수

사용자(분석자)의 노하우를 기반으로 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수

  • 주관적인 변수이므로 논리적 타당성을 갖추어 개발하는 것이 중요
  • 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 나타내는 것이 중요
  • 세분화, 고객행동 예측, 캠페인 반응 예측 등에서 많이 사용됨

 

 

 

728x90

관련글 더보기

댓글 영역