데이터분석가의 데이터 수집 단계 회고 (feat.데이터분석 하러 왔는데, 데이터를 만들라고요?)
·
데이터분석/데이터 리터러시
데이터 분석 실무를 하면서 데이터 수집과 관련된 내용을 회고형식으로 작성하였습니다. 목차예상독자1. 데이터수집 환경2. 데이터분석을 위한 데이터 수집의 목적3. 데이터수집 해결방법4. 데이터수집 단계에서의 이슈5. 결론 및 마무리 예상독자* 데이터분석가로 이제 막 현업을 시작하는 분* 오프라인 데이터를 다루는 분* 사람이 데이터를 만드는 환경에서 데이터분석을 하는 분* 데이터 구축이 안되어서 힘듦을 겪는 분 * 분석을 지시 받았으나 데이터가 없는 환경에 있는 분 * 데이터분석을 위한 지표를 설정하는 방법에 대해 알고싶은 분 1. 데이터 수집 환경 옛날 옛적 데이터분석 취준할때만해도 데이터 수집에 대한 큰 문제는 없었다.  우선 실무에서 데이터를 다루는 것이 아니다 보니 공공데이터 기반으로 프로젝트를 짤 ..
[BigQuery] 배달 어플리케이션 앱로그 데이터 분석
·
데이터분석/데이터 리터러시
예상독자배열 구조의 앱로그 데이터를 다루고 싶은 사람BigQuery 함수 기반으로 앱로그 데이터를 전처리 방법을 알고 싶은 사람데이터분석의 전반적인 프로세스를 알고 싶은 사람윈도우 함수를 사용하여 데이터집계 쿼리를 작성하고 싶은 사람글을 쓰게 된 배경과 목적이번글은 우선 강의를 들은 내용을 한 번 정리하는 시간을 가지고 싶었다.새로 알게 된 함수위주로 작성하려다가 조금 더 욕심내서 빅쿼리 데이터로 어떻게 데이터분석을 하는지 시각화와 Action item까지 전체적인 프로세스를 정리해 보기로 했다. 글에서 중점적으로 작성할 내용:빅쿼리 환경의 데이터구조 파악하는 방법원하는 형태의 데이터 집계를 위해 어떤 식으로 데이터전처리를 진행하는지빅쿼리 환경에서 사용할 수 있는 함수들의 정의와 용도 쿼리를 통해 나온 ..
[VSCODE] GitHub 연동 및 사용방법
·
데이터핸들링/Tool
Git과 GitHub 개요Git이란?Git은 분산 버전 관리 시스템(VCS)으로, 소프트웨어 개발 프로젝트의 소스 코드 변경 사항을 추적하고 관리하는 도구1. Git의 주요 특징 로컬 저장소와 원격 저장소 개념 사용 브랜치를 통한 병렬 개발 지원커밋을 통한 변경 사항 기록머지를 통한 브랜치 통합GitHub란?GitHub는 Git 저장소를 호스팅하는 웹 기반 플랫폼으로,Git의 기능을 확장하여 추가 기능을 제공 웹 인터페이스를 통한 저장소 관리 협업 도구 (이슈 트래커, 풀 리퀘스트 등)프로젝트 관리 기능소셜 네트워킹 요소 (팔로우, 스타 등)VS Code에서 Git 사용하기 1. GitHub 연동계정 버튼 클릭 (우측 하단)  → "Sign in to sync settings" 선택 → 브라우저에서 Gi..
[SQL] Window 함수 사용법
·
데이터핸들링/데이터전처리
윈도우 함수란?행마다 계산한 값, 즉 행간의 관계에 대해 집계할 수 있는 함수 입니다. SELECT WINDOW_FUNCTION(ARGUMENTS)OVER ([PARTITION BY 컬럼] [ORDER BY 컬럼] [ROWS BETWEEN ...])FROM 테이블명; WINDOW_FUNCTION: 사용할 윈도우 함수를 지정ARGUMENTS: 함수에 따라 0개 이상의 인수를 설정PARTITION BY: 데이터를 소그룹으로 나누는 기준이 되는 컬럼을 지정ORDER BY: 결과를 정렬할 기준이 되는 컬럼을 지정ROWS BETWEEN: 윈도우 프레임을 설정하는 옵션으로, 어떤 행을 포함할지를 정의   주요 윈도우 함수 유형순위 RANK(): 동일한 값에 동일한 순위를 부여하며, 순위가 비어있지 않도록 합니다. ..
[Python] 주민등록번호로 연령, 연령대 구하기
·
데이터핸들링/데이터전처리
고객번호가 문자열일 때 처리하는 방법 from datetime import datetimedef calculate_age_from_id(id_number): if isinstance(id_number, str) and len(id_number) >= 2: # 문자열인지 및 앞 2자리 확인 two_digit_year = int(id_number[:2]) # 주민등록번호의 앞 2자리 current_year = datetime.today().year current_century_year = int(str(current_year)[-2:]) # 현재 연도의 마지막 두 자리 # 출생 연도를 2000년대와 1900년대로 구분하여 계산 if t..
글쓰기 회고하기
·
자기계발/글쓰기
1. 현황파악현재 글쓰고 있는 단계 및 예상 독자 파악내가 글을 왜쓰는지?2.글쓰기 도식화3.액션 아이템 4.체크리스트5.앞으로 개선해보고싶은점?그림, 표 등 시각화 추가
[Python, 구글스프레드시트] 날짜 형식 변경
·
데이터핸들링/데이터전처리
안녕하세요, 저는 데이터전처리를 하면서 은근히 시간을 뺏기게 되는 부분이 있는데요,바로 날짜 형식 변경 입니다. 데이터를 처리하면서 시계열 분석, 일자별 집계, 코호트분석 등 날짜가 기준이 되어야하는 경우가 빈번하게 발생합니다.그럴 때, 코드가 잘 돌아가다가도 오류가 발생하면 어김없이 형식이 맞지 않을 때가 많아요.  그래서 제가 자주 쓰는 구글스프레드시트와 파이썬 기준으로 날짜 형식 변경에 대해 어떻게 처리하는지 말씀드리겠습니다. 1. 구글 스프레드시트1.1 기본 날짜 형식 변경구글 스프레드시트에서는 다양한 기본 날짜 형식을 제공합니다. 날짜가 포함된 셀을 선택합니다. 상단 메뉴에서 [서식] > [숫자] > [날짜]를 선택합니다. 원하는 날짜 형식을 선택1.2 DATEVALUE 함수 활용DATEVALU..
[VSCODE] 깃허브 git push / git pull
·
데이터핸들링/Tool
안녕하세요, Git의 핵심 기능인 push와 pull에 대해 자세히 알아보겠습니다. 이 두 명령어는 원격 저장소와 로컬 저장소 간의 코드 동기화를 위해 필수적인 도구입니다.Git Push: 로컬 변경사항을 원격으로 전송하기 Git push는 로컬 저장소의 커밋을 원격 저장소로 전송하는 명령어 코드 변경사항을 GitHub에 업로드(Push)하거나 최신 변경사항을 가져오는(Pull) 방법입니다. 1. Pushgit push git push origin main 이 명령어는 'origin'이라는 원격 저장소의 'main' 브랜치로 현재 브랜치의 커밋을 전송합니다. 주요 옵션: --all: 모든 브랜치를 푸시합니다. --tags: 태그를 함께 푸시합니다. -f 또는 --force: 원격 브랜치를 강제로 덮어씁..
[VSCODE] Git Hub 레파지토리 변경하는 법
·
데이터핸들링/Tool
VSCODE 터미널을 켜고 아래 명령어를 작성한다. git remote remove origin  변경할 깃허브의 레파지토리주소와 사용자명을 입력한다git remote add origin https://github.com/사용자명/새레포지토리이름.git  레파지토리가 잘 변경되었는지 확인한다.git remote -v
Funnel 분석 - 이탈 구간 데이터분석
·
데이터분석/데이터 리터러시
회사에서는 성과가 안나면 문제점을 찾아 개선하려고 노력한다.우리회사에서는 그 첫번째를 고객의 이탈이 어디서 많이 일어나느냐. 즉 이탈율 관리를 가장 먼저한다.반대로 이탈이 적어서 예약율,방문율이 올라간다면 성과로 취급하고 이 성과를 각 부서별 KPI로 관리하고있다.그럴 때 가장 많이 쓰는 방법이 Funnel 분석이다.1. Funnel 분석이란?Funnel 분석은 고객이 최종 목표(방문, 예약, 결제 등)에 도달하는 여정의 각 단계를 추적하여, 이 과정에서 고객이 어디에서 이탈하는지를 파악하는 데이터분석 방법이다. Funnel 분석을 통해 각 단계별 이탈율과 목표 달성율을 분석함으로써, 매출 증대와 마케팅 효율성을 최적화 또는 문제 개선을 할 수 있다. 2. Funnel 분석의 목적Funnel 분석의 가장..