목차
- 데이터를 제공하는 방법
- 데이터마트(Data Mart)란?
- 데이터마트의 목적 및 특징
- 데이터마트 구축 및 활용 프로세스
- 마무리
1. 데이터를 제공하는 방법
비즈니스 데이터분석가의 주요 역할 중 하나는 데이터를 기반으로 인사이트를 제공하고, 이를 통해 비즈니스 성장을 지원하는 것입니다. 문제 해결을 위한 근거를 마련하기 위해 관련 부서의 특정 데이터분석 요청을 처리하거나, 명확한 문제 파악이 어려운 경우 근거 자료를 통해 해결해야합니다.
데이터 제공 방법은 여러 기준으로 분류할 수 있지만, 여기서는 데이터 활용 빈도(필요시점)를 기준으로 분류하겠습니다.
즉, 데이터가 일회성, 정기적, 비정기적으로 필요한지에 따라 구분됩니다.
1.1 일회성(ad-hoc) 데이터 추출 및 제공
- 특정 요구에 따라 일회성으로 데이터를 분석하여 제공
- 단기적 요구사항으로 빠른 응답 필요함
1.2 정기적 데이터 분석 자료 제공
- 데이터마트를 구축하여 자동화된 프로세스로 정기적인 보고서를 생성하여 제공
- 사전 계획된 주기적 분석 및 자동화된 워크플로우 구축이 필요함
ex) 분기별 매출분석, 월별 연령별 고객 매출 효율 분석 등
1.3 비정기적 데이터 분석 자료 제공
- 일회성과 정기적 분석의 중간 형태로, 주기적으로 보고서를 제공하되, 매번 다른 데이터 근거와 분석 자료가 포함됨
ex) 특정 프로모션 성과 분석 등
2. 데이터마트(Data Mart, DM)란?
데이터마트(Data Mart)는 특정 부서나 비즈니스 기능의 요구에 맞게 설계된 소규모 데이터 웨어하우스를 말합니다.
특정 주제나 부서의 분석을 지원하도록 설계되어 각 부서 및 분석환경에 필요로 하는 데이터를 관리하고 분석할 수 있도록 돕습니다.
3. 데이터마트의 목적 및 특징
DM의 등장이유는 데이터를 데이터기반의사결정 (DDDM)을 위한 시각화(BI)하기 위한 목적으로 생성되었습니다.
따라서 데이터마트의 주요 목적은 효율적인 데이터 분석과 빠른 의사결정을 지원하는 것이며, 구체적인 특징은 아래와 같습니다.
3.1 데이터마트의 목적
- 데이터분석 효율화: 부서별 요구사항에 맞춘 데이터 제공
- 빠른 의사결정 지원: 분석 속도를 향상시켜 즉시 활용 가능
- 데이터 품질 개선: 특정 부서의 요구에 맞춘 데이터 정제 및 최적화
3.2 데이터마트의 특징
- 비즈니스 효율성 향상: 데이터마트는 각 부서의 요구에 맞춰 설계되어, 부서별로 특화된 데이터 분석을 지원합니다.
- 데이터 분석 속도 향상: 데이터마트는 데이터 웨어하우스보다 적은 양의 데이터를 저장하고 처리하므로, 데이터를 빠르게 조회하고 분석할 수 있습니다.
- 비용 절감: 데이터마트는 데이터 웨어하우스에서 필요한 데이터만 저장하므로 구축 및 운영 및 저장 공간과 처리비용을 절약할 수 있습니다.
4. 데이터마트 구축 및 활용 프로세스
데이터마트 구축은 다음과 같은 단계로 진행됩니다.
4.1 요구 사항 정의
- 각 부서의 요구에 맞춰 어떤 데이터를 분석할 것인지를 명확히 해야 합니다.
- 사용자가 필요한 데이터결과가 무엇인지 , 어떤 결과를 원하는지 파악하는 단계입니다.
4.2 ETL 프로세스 설계
ETL(Extract, Transform, Load) 프로세스를 설계하여 데이터마트에 적재할 데이터를 추출하고 변환하는 과정을 설계하는 단계입니다. 이 단계에서는 요구사항에 맞는 결과를 위해 어떤 분석방법을 사용하고, 그에맞는 데이터를 어떤 방식으로 구축할것인지 고민하고 설계합니다.
4-1) 쿼리 기반 데이터마트 구축(Automated Data Extraction) (Redash)
데이터웨어하우스 즉, RDBMS에서 데이터를 Redash 연결하고 SQL 쿼리를 사용하여 필요한 데이터를 추출합니다.
예를들면 매출, 고객, 예약 테이블을 결합하여 매출실적 파악을 위한 데이터마트를 구축합니다.
간단한 데이터결과의 경우에는 Redash에서 시각화까지 진행하여 데이터마트를 통한 실시간 데이터 결과의 대시보드를 간단히 확인 할 수 있습니다.
4-2) 임시 데이터 적재 및 분석 (Ad-hoc Data Storage) (Python)
고객관리프로그램의 데이터 파이프라인을(수집 - 가공- 적재 - 분석) 자동화하여 필요한 데이터셋을 구축하고, 특정 분석 목적에 맞춰 데이터를 임시(ad-hoc)로 적재 및 분석합니다. 자동화 스크립트를 활용하여 반복적인 데이터 제공 및 보고서를 생성합니다.
지속적인 데이터베이스가 아닌, 필요시 데이터를 수집하고 분석하는 방식입니다.
4-3) 클라우드 기반 파일 저장(Cloud-based File Storage) (Google Sheets)
고객관리프로그램에서 CSV 파일을 추출하여 Google Sheets에 적재하고, 이를 가공하여 분석을 위한 데이터마트를 생성합니다.
이를 통해 부서별 맞춤형 분석을 제공하고 주된 용도는 데이터 공유를 위한 협업 플랫폼으로 활용하여 데이터 공유 및 관리합니다.
위 방법들은 필요에 따라 ETL의 일부만 진행을 하거나, 데이터 활용 빈도 및 공유 방법에 따라 상황별로 다르게 판단되어 진행합니다.
3) 데이터분석 및 시각화
설계된 데이터마트는 결국 최종적으로 의사결정을 지원하기 위해 목적에 따라 시각화 단계를 진행합니다.
3-1) 보고서 (Google Sheets, Excel, PPT)
- 보고자료 내 테이블 및 차트를 이용한 간략한 보고서 제공
- 분석 방법론에 대한 근거 제시와 인사이트 제공
3-2) 대시보드 설계 (PowerBI, Redash)
- 데이터마트와 BI도구를 연결하여 대시보드 설계
- 요구사항 정의를 토대로 실시간 대시보드 구축
- 주기적 실적 검토 및 경영 의사결정을 위한 활용
5. 마무리
방대한 데이터를 무작정 분석하는 것은 불필요한 리소스를 소모할 위험이 있으며, 반복적인 작업으로 이어질 수 있습니다.
이를 방지하기 위해 요구사항을 면밀히 검토하고 데이터마트를 체계적으로 구축함으로써, 장기적인 관점에서 리소스를 효과적으로 관리할 수 있습니다.
데이터마트를 활용하여 효율적인 분석을 수행하고, 적절한 시점에 알맞는 데이터를 제공하는 것이 비즈니스 성과에 중요하다고 생각되어 효율적인 분석 프로세스에 대해 고민하며 글을 작성하였습니다.