데이터 분석 실무를 하면서 데이터 수집과 관련된 내용을 회고형식으로 작성하였습니다.
목차
예상독자
1. 데이터수집 환경
2. 데이터분석을 위한 데이터 수집의 목적
3. 데이터수집 해결방법
4. 데이터수집 단계에서의 이슈
5. 결론 및 마무리
예상독자
* 데이터분석가로 이제 막 현업을 시작하는 분
* 오프라인 데이터를 다루는 분
* 사람이 데이터를 만드는 환경에서 데이터분석을 하는 분
* 데이터 구축이 안되어서 힘듦을 겪는 분
* 분석을 지시 받았으나 데이터가 없는 환경에 있는 분
* 데이터분석을 위한 지표를 설정하는 방법에 대해 알고싶은 분
1. 데이터 수집 환경
옛날 옛적 데이터분석 취준할때만해도 데이터 수집에 대한 큰 문제는 없었다.
우선 실무에서 데이터를 다루는 것이 아니다 보니 공공데이터 기반으로 프로젝트를 짤 때도 많았고
공모전에 참여할때는 잘 누적된(?) 데이터들을 기업에서 받아서 진행한게 대부분이었기때문이다.
그것도 아니라면 크롤링이라도 하면서,
분석을 위한 데이터는 '우선' 가져올 수 있었다.
물론, 위의 데이터들이 잘 누적되었다고 했지 분석의도에 맞게 예쁘게 정제되어있지는 않았기 때문에
그 당시의 문제와 리소스는 데이터 전처리에 시간이 많이 들었었다.
그저 ' 아 데이터 왜 이렇게 쌓은거야~ 분석셋 만들기 힘드네~' 라고 우는 소리를 하며
'데이터를 여기저기서 기워가며 분석데이터셋을 만드는게 힘들다' 라고 막연하게 생각했었다.
그 런 데 ...
입사를 하고나니,
데이터가 더러워서 문제가 아니라 데이터가 없었다.
🙋🏻♂️ 회사에 데이터가 없다는게 말이 되나요?
🙋🏻♀️ 그래도 분석정도는 할 만한 데이터가 있지 않을까요?
아니요 그냥 없어요.
물론 회사에서 매출을 발생시키면서 데이터는 계속 무엇이든 쌓이기 마련이지만
아래 고민들의 연속이었다.
1. 이 데이터가 필요한가?
2. 이 데이터를 사용할 수 있는가? (신뢰도, 전처리 가능 여부 및 리소스 판단)
이유는,
1. 경영진이 원하는 데이터분석자료는 다양한데, 막상 만들어지는 데이터는 그 요구사항을 충족할만한 퀄리티가 안되고,
2. 앱/웹 기반 데이터가 아니라, 각 절차가 오프라인에서 사람이 데이터를 입력하는 구조의 환경이다보니,
3. 데이터분석을 위한 데이터 자체의 기준조차 잡기 어려운 상황이었다. (마음대로 사용중)
- 각 부서에서 본인들 성과에 도움되는 데이터만 가지고 쏙쏙 빼먹으며 실적 보고를 진행한다던가
- KPI 지표의 데이터 기준 자체가 본인들 성과 위주로 한 달 내에 바뀌는데 그걸 회사에서 아무도 몰라....
하하버스를 비즈니스 상황에서 느끼고 싶지는 않았지만...
그러다보니 막상 입사 후에 데이터가 없는 환경에서 데이터를 어떻게 만들어야하나?가
데이터분석가로서의 주된 업무가 되었다.
위에서 이야기 했던 문제들의 토대로 아래 3가지 업무를 분석과 함께 진행하게 되었다.
1. 데이터 지표 설계 : 필요한 지표 설정 및 데이터 집계 기준 협의
2. 데이터 수집 파이프라인 설계 : 수집 - 적재 - 분석셋 설계
3. 데이터 검증 : 지속적으로 기준에 맞게 데이터가 잘 수집되고 있는지
2. 데이터분석을 위한 데이터 수집의 목적
데이터분석가에게 데이터수집은 왜 필요한가?
예를들면, 직원 인력관리 리소스를 개선해야겠다는 문제정의를 하고,
고객과의 상담시간이 어느정도인지 직원별 상담시간 효율을 봅시다! 라고 했을 때
당연히 직원별 상담시간 소요시간 데이터로 분석을 진행해볼 수 있다.
그런데 .. 우리에겐 상담시간이 측정된 데이터가 없다.
문제정의: 직원 인력관리 리소스 개선
필요 데이터: 직원별 상담시간 데이터
분석 데이터 : 직원별 상담시간 데이터가 없음 (??)
Action : 데이터 쌓자!
결국 위처럼 필요한 데이터를 만들어가는 과정이 선행되어야했고,
그 데이터를 만들기 위한 지표 기준 설정이 필요하고,
그 데이터에 대한 검증까지가 끝나야 그제서야 분석을 해볼까?가 되는것이다.
3. 데이터수집 해결방법
1. 직접 데이터 쌓기
2. 데이터 수집 자동화 시스템 구축하여 로그데이터 수집하기
내 경우는 2번은 비즈니스모델 특성상 불가하여 1번의 내용으로 설명하겠다.
1번 직접 데이터를 쌓기로 의사결정이 되었으면
아래 3가지 방법으로 데이터 파이프라인을 만들 수 있다.
① 고객 관리 프로그램 내에 입력 기준을 만들어서 수기입력
② 데이터 입력 방법이 없는 경우, 엑셀/ 스프레드시트를 통해 추가 적재
③ 입력 프로그램을 앱스크립트/프로그램 개발
각 내용을 다루는것은 너무 깊은 내용이라 결론만 이야기하자면
우리 회사에서는 1-2-3 단계를 모두 거쳤다.
사용하는 프로그램 내에서 최대한 가능한 방법으로 입력기준을 협의하고
프로그램 내에서 수집이 불가한 데이터는 앱스크립트 설계 → 고객관리프로그램 개발을 통해 서버 DB화 시켰다.
전반적인 데이터 수집 기획에 대한 고민들은 아래 내용들을 기준으로 의사결정을 진행했다.
데이터 수집 기획 프로세스
1. 이 데이터를 왜 보려고 하는지, 왜 봐야하는지 의사결정이 중요함.
2. 정말 필요한 데이터인지, 현장에서 데이터를 쌓을 수 있는 환경인지
3. 필요한 데이터라면 어느단계에서 이 데이터를 입력하게 할지
4. 어느단계에 어떤 형식으로 데이터를 입력하게 할지
5. 데이터수집을 통해 얻으려는 궁극적인 지표가 무엇인지.
6. 그 지표를 얻기위해서는 어떤 데이터가 필요한건지
4. 데이터수집 단계에서의 이슈
내가 겪었던 문제 크게 2가지다.
1. 오프라인 데이터의 한계
2. 지표 기준 통합
1. 오프라인 데이터의 한계 (사람이 개입되는)
사람이 개입하여 데이터의 정보를 입력하는 오프라인데이터의 한계는 사실 말하자면 너무 많다.
당연히 문제는 '사람'이 다루다보니 휴먼에러가 발생할 수 있는 방법도 무궁무진하다.
이걸 컨트롤 할 수 있는건 결국 얼마나 서비스 이용자 입장에서 그리고 데이터 신뢰도를 고민한
프로그램을 제공하느냐 인데, 이 부분은 따로 서비스기획을 다루는 글에서 이야기해볼 예정이다.
- 현장에서 데이터 입력이나 관리가 힘들어 프로세스화 시키는데 어렵다. (업무 프로세스)
- 데이터가 틀리다보니 검증하는데에 리소스가 많이들어간다. (검증 리소스)
- 데이터 입력을 시작해도, 이것의 중요성이 충분히 전달되지 않으면 데이터의 지속성 및 신뢰도가 시간이 지날수록 점점 하락하게 된다. (공감)
2. 전사 지표 기준 설정 (데이터 기준 협의)
기준은 우선 해당 지표를 사용하고 입력하는 부서와의 협의가 이뤄져야하고, 지표에 대한 이해도도 동일해야한다.
여기서 문제는 같은 지표이고, 봐야하는 지표의 기준이 명확함에도 불구하고
부서들간의 이해관계가 엮여있으면 이 지표의 기준잡는건 점점 산으로 간다...
(이럴땐 의사결정권자에게 투명하게 판단할 수 있는 정보를 잘 전달해줘야한다.)
왜냐면 지금까지는 A기준으로 설정하여 KPI 실적보고를 했는데,
막상 열어보니 B로 잡는게 맞아서 B로 바꾸면 실적이 반토막이 나는 경우도 있었기 때문이다.
(여러분 말이안된다고 생각할수 있지만 이런 회사도 있을수있답니다🤦🏻♂️)
5. 결론 및 마무리
사실 앱로그 데이터나 웹 기반의 데이터를 다루는건
오히려 데이터가 너무 많아서 어떻게 다뤄야 할지에 대한 고민을 많이 하게 되지만,
반대로 데이터가 없는 상황의 데이터분석가는 어떻게 해야할까?🤔 의 상황도 있다는것을 다루고 싶었다.
데이터 입력 자체의 한계가 있어 수집이 불가하다면 고객관리프로그램을 개발하여 GCP 도입 후 DB를 구축하였고,
데이터 입력 기준이 다르면 이해관계가 엮여있는 부서들과의 미팅을 통해 명확한 의사결정을 위해 맞는 지표를 이해할 수 있게 설득하는 작업을 진행했다.
하지만 스타트업 특성상 회사는 정착되어 정적으로 운영되는것이 아니기 때문에(아닌 회사도 많겠지만)
필요한 지표와 데이터는 끊임없이 추가가 되고,
그 많은 지표들을 생성하고 개선하고 제거하고 고도화시키는것도 모두 분석가의 역량이라면 역량일 수 있다..
결국 나는 처음 데이터 수집의 문제한계에서 부서장의 의사결정이 프로그래밍 개발단까지 가서
서비스기획 업무도 하고 Sql이나 Python보다 Figma를 더 잡고있었던 적도 있었다.
그러나 결국 지금와서 생각해보면, 데이터분석을 하기 위한 환경 자체를 다 짊어서 전체 프로세스를 다뤄보고 기획단계에서 생각해볼 수 있었던것들이 소중한 경험이 되었다고 생각한다.
(너무 딥하게 방향이 꺾였던 부분도 있지만..)
생각하기 나름이겠지만 데이터분석가로서 결국 분석의 환경을 만드는것도 역량이라면 역량이라고 판단할 수 있을거같다!
'데이터분석 > 데이터 리터러시' 카테고리의 다른 글
[BigQuery] 배달 어플리케이션 앱로그 데이터 분석 (0) | 2024.11.24 |
---|---|
Funnel 분석 - 이탈 구간 데이터분석 (0) | 2024.11.10 |
KPI (핵심성과지표) 설정 및 관리 (0) | 2024.10.27 |