상세 컨텐츠

본문 제목

[개미의 걸음 ADsP 2과목] 분석과제

자격증/ADsP

by IT개미 데이터 2020. 7. 3. 17:17

본문

728x90

분석과제

분석과제는 풀어야 할 다양한 문제를 데이터분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출된다.

  • 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로, 프로토타입 방식의 애자일[Agile] 프로젝트 관리방식에 대한 고려도 필요

# 애자일 모델[Agile Model]

더보기

소프트웨어 개발과정에서 지속적으로 발생하는 변경에 유연하고 기민하게 대응해 생산성과 품질 향상을 목표로 하는 협력적 소프트웨어 개발 방법론

프로젝트의 생명주기 동안 개발 팀원들 간의 상호작용과 고객의 협업을 중심적으로 반복적, 점진적인 계획을 통해 요구사항의 변화를 관리하고 또한 문서 작업보다 코딩과 테스트 기반의 접근을 통해 소프트웨어를 개발하는 방식

  • 데이터 분석의 지속적인 반복 및 개선을 통해 의도했던 결과에 더욱 가까워지는 형태로 프로젝트가 진행될 수 있도록 적절한 관리방안 수립이 사전에 필요
  • 분석 프로젝트는 데이터 영역과 비즈니스 영역에 대한 이해뿐만 아니라 지속적인 반복이 요구되는 분석프로세스의 특성을 이해한 프로젝트 관리방안 수립이 중요
  • 분석과제 정의서를 기반으로 프로젝트를 시작하되 지속적인 개선 및 변경을 염두해 두고 기간 내 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업하는 것이 분석 프로젝트의 특징
  • 분석과제를 도출하기 위한 방식으로는 크게 하향식 접근방법상향식 접근방법이 있다.

문제가 주어져 있는 상태에서 답을 구하는 하향식 접근방법은 전통적으로 수행되었던 분석과제 발굴방식이다.
그러나 대규모의 다양한 데이터가 생성되고 빠르게 변하는 기업환경에서는 문제 자체의 변화가 심해져 문제를 사전에 정확히 정의하는 것이 어려워졌다. 이에 문제정의 자체가 어려워 데이터 기반으로 탐색하고 이를 지속적으로 개선해 나가는 방식인 상향식 접근방식이 등장했다.
 새로운 상품개발이나 전략수립 등 중요한 의사결정을 할 때, 하향식 접근방식과 상향식 접근방식을 혼용해 사용하며 분석의 가치를 높일 수 있는 최적의 의사결정은 두 접근방식이 상호보완 관계에 있을 때 가능

    ※ 디자인 사고[Design Thinking]
상향식 접근방식의 발산단계와 하향식 접근방식의 수렴단계를 반복적으로 수행하는 식의 상호보완적인 동적 환경을 통해 분석가치를 높일 수 있는 최적의 의사결정 방식

     분석가의 목표

분석의 정확도를 높이는 것이지만 프로젝트의 관점에서는 도출된 분석과제를 잘 구현하여 원하는 결과를 얻고 사용자가 원활하게 활용할 수 있도록 전체적인 과정을 고려해야하기 때문에 개별적인 분석업무수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요

    분석가의 입장

  • 데이터 원천을 다루는 데이터 영역과 결과를 활용할 비즈니스 영역의 중간에서 분석 모델을 통한 조율을 수행하는 조정자의 역할이 핵심
  • 특히, 분석 프로젝트에서는 데이터 영역과 비즈니스 영역의 현황을 이해하고 프로젝트 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가의 역할이 중요
  • 조정자로서의 분석가가 해당 프로젝트의 관리자까지 겸임하게 되는 경우가 대부분이므로, 프로젝트 관리방안에 대한 이해와 주요관리 포인트를 사전에 숙지하는 것이 필수적

 

 

분석과제 정의서

분석과제 정의서를 통해 분석별로 필요한 소스데이터, 분석방법, 데이터입수 및 분석의 난이도, 분석수행주기, 분석결과에 대한 검증오너십, 상세분석 과정 등을 정의

  • 분석 데이터 소스는 내*외부의 비구조적인 데이터와 소셜미디어 및 오픈데이터까지 범위를 확장하여 고려하고 분석방법 또한 상세하게 정의
  • 분석과제 정의서는 향후 프로젝트 수행계획의 입력물로 사용되며, 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공여부를 판별할 수 있는 중요한 자료

 

 

분석과제 관리를 위한 5가지 주요영역

과제형태로 도출된 분석기획은 프로젝트를 통해 그 가치를 증명하고 목표를 달성해야 한다. 분석프로젝트는 다른 프로젝트 유형처럼 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 다양한 데이터에 기반한 분석기법을 적용하는 특성 때문에 5가지 주요 속성을 고려한 추가적인 관리가 필요

<분석과제관리>

    ① Data Size

분석하고자 하는 데이터의 양을 고려한 관리방안 수립이 필요

하둡 환경에서의 엄청난 데이터 양을 기반으로 분석하는 것과 기존 정형 데이터베이스에 있는 시간당 생산되는 데이터를 분석할 때의 관리 방식은 차이가 날 수 밖에 없다.

    ② Data Complexity

BI[Business Intelligence]프로젝트처럼 정형데이터가 분석마트로 구성되어 있는 상태에서 분석을 하는 것과 달리 텍스트, 오디오, 비디오 등의 비정형데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석프로그램을 진행할 때는 초기데이터 확보*통합 뿐만 아니라 해당 데이터에 잘 적용될 수 있는 분석모델의 선정 등에 대한 사전고려가 필요하다.

    ③ Speed

분석결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도를 고려해야 한다.

일 단위, 주 단위 실적의 경우에는 Batch 형태로 작업되어도 무방하지만 실시간 사기[Fraud]를 탐지하거나 고객에 개인화된 상품*서비스를 추천하는 경우에는 분석 모델의 적용 및 계산이 실시간으로 수행되어야 하기 때문에 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다.

    ④ Analytic Complexity

분석 모델의 정확도와 복잡도는 트레이드 오프[Trade Off]관계가 존재한다.

분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해두어야 한다.

고객의 신용을 평가하는마케팅 시나리오에서 분석모델을 활용해 신용점수가 낮게 나올 때, 어떠한 변수에 기인했는지를 모델에서 설명해 줄수 없으면 영업*마케팅 직원 입장에서는 해당 고객과의 소통이 어려워지는 단점이 존재하므로 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델을 찾는 방안을 사전에 모색해야됨

    ⑤ Accuracy & Precision

Accuracy : 모델과 실제값 사이의 차이가 적다는 정확도를 의미

Precision : 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미

    → 분석의 활용적인 측면에서는 Accuracy가 중요, 안정성 측면에서는 Precision이 중요

    → Accuracy와 Precision은 트레이드오프되는 경우가 많아 모델의 해석 및 적용시 사전에 고려해야 한다.

<A : Accuracy, P : Precision>

 

 

 

분석 프로젝트의 관리방안

 분석가가 분석 프로젝트에서 프로젝트 관리자의 역할을 수행하는 경우가 대부분이므로 프로젝트 관리 영역에 대한 주요한 사항들을 체크포인트 형태로 관리해 발생할 수 있는 이슈와 리스크를 숙지하고 미연에 방지할 필요가 있다.

# KSA ISO 21500(2013)에서 언급한 주제그룹의 개념 및 관련 프로세스

더보기

통합[Integration], 이해관계자[Stakeholder], 범위[Scope], 자원[Resource], 시간[Time], 원가[Cost], 리스크[Risk], 품질[Quality], 조달[Procurement], 의사소통[Communication]의 10개의 주제그룹으로 구성되어 있다.

분석 프로젝트 영역별 주요 관리항목[KSA ISO 21500]

주제그룹 개념 및 관련 프로세스
범위
[Scope]
분석기획 단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경됨   
     → 적용되는 알고리즘에 다라 범위가 변할 수 있으므로 범위 관리가 중요
     일정계획 수립시 데이터 수집을 철처히 통제*관리할 필요가 없음
 분석의 최종 결과물이 분석보고서 형태인지 시스템인지에 따라 투입되는 자원 및 범위 또한 크기 변경되므로 사전에 충분한 고려가 필요
통합
[Integration]
프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리해야함
시간
[Time]
 데이터분석 프로젝트는 초기 의도했던 결과가 쉽게 나오지 않고 분석 범위도 빈번하게 변경하게 되므로 프로젝트 과정이 지속적으로 반복돼 많은 시간 소요됨.
분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리 진행이 필요함
     → 분석 전문가의 상상력이 요구되므로 일정을 제한하는 일정계획은 적절하지 못함
원가
[Cost]
외부데이터를 활용한 데이터 분석인 경우, 고가의 비용이 소요될 수 있으므로 충분한 사전조사 필요
오픈 소스 도구[Tool] 외에 프로젝트 수행 시 의도한 결과 달성을 위해 상용버전 도구가 필요할 수 있음
품질
[Quality]
분석 프로젝트를 수행한 결과에 대한 품질 목표를 사전에 수립해 확정해야함
프로젝트 품질을 품질통제[Quality Control]와 품질보증[Quality Assurance]로 나눠 수행
데이터 분석 모델 품질 평가를 위해 SPICE 사용
조달
[Quality]
다양한 데이터를 확보를 위해 조달관리가 중요
프로젝트 목적성에 맞는 외부 소싱을 적절히 운영할 필요가 있음
PoC[Proof of Concept] 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음
자원
[Resource]
고급 분석 및 빅데이터 아키텍처링을 수행할 인력공급 부족 → 프로젝트 수행 전 전문가 확보 검토 필요
리스크
[Risk]
분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있으므로 관련 위험 식별 및 대응방안 사전수립에 필요.
또한 데이터 및 분석 알고리즘 한계로 품질 목표 달성이 어려울 수 있어 그에 따른 대응방안을 수립할 필요가 있음
의사소통
[Communication]
전문성이 요구되는 데이터 분석결과를 모든 프로젝트 이해관계자가 공유할 수 있도록 해야함
프로젝트의 원활한 진행을 위해 다양한 의사소통체계 마련이 필요
이해관계자
[Stakeholder]
데이터 분석프로그램은 다양한 전문가가 참여하므로 이해관계자의 식별과 관리가 필요
      ex> 다양한 사람들의 니즈 고려

 

 

 

 

728x90

관련글 더보기

댓글 영역