주요 분석사례

지역 분석을 통한
지역 활성화 요인 도출 및
활성화 후보 지역 선정

서울지역의 주요 행정동을 분석하여 활성화에 영향을 주는 특징(요인)을 파악하고 도출된 활성화 요인을 기반으로 활성화 후보지를 선정한다.

문제 및 현황

골목이나 특정 지역의 교통 체증과 주차 문제 발생
특정 지역을 중심으로 성장 불균형 발생

과제선정 배경

배경 지역별 균형 있는 발전 유도 필요

분석목표

  • 서울지역의 주요 행정동 분석으로
  • 활성화에 영향을 주는 특징 및 요인 파악
  • 이를 기반으로 활성화 후보지 선정

활용데이터

  • 상권 영역

    행정동별 대중교통 이용 내역

  • 상권 업종별 매출

    골목상권업종코드표

  • 행정동별 직장 · 주민등록 · 생활인구

    한국행정구역분류표

지역 현황

행정동별 총 매출액 분포도와 행정동별 총 매출액 상위지역 막대그래프 행정동별 총 매출액 분포도
지역별 매출 현황 분석

강남구 역삼1동이 4,494억 원, 종로구 종로 1·2·3·4가동이 4,490억 원, 중구 소공동이 4,366억 원으로
모두 평균(366억 원)의 12배가 넘는 매출을 기록

행정동별 유동인구 분포도와 행정동별 유동인구 상위지역 막대그래프 행정동별 유동인구 분포도
지역별 유동인구 현황 분석

강남구 역삼1동107,453명으로 평균(25,421명)의 약 4배

매출액 기준 강남구 역삼1동4,494억 원으로 1위

행정동별 직장인구 분포도와 행정동별 직장인구 상위지역 막대그래프 행정동별 직장인구 분포도
지역별 직장인구 현황 분석

영등포구 여의동362,880명, 강남구 역삼1동191,995명으로 각각 평균(13,277명)의 27배, 14배

매출액 기준 영등포구 여의동1,959억 원으로 12위(상위 3%), 강남구 역삼1동4,494억 원으로 1위

행정동별 상주인구 분포도와 행정동별 총 상주인구 수 상위지역 막대그래프 행정동별 상주인구 분포도
지역별 상주인구 현황 분석

강서구 화곡본동54,801명, 구로구 오류2동49,302명, 은평구 역촌동49,181명으로 평균의 약2배

매출액 기준 강서구 화곡본동236억 원으로 157위(상위 42%), 구로구 오류2동71억 원으로 295위(상위 79%), 은평구 역촌동237억 원으로 154위(상위 42%)

행정동별 점포 수 분포도와 행정동별 점포 수 상위지역 막대그래프 행정동별 점포 수 분포도
지역별 점포 현황 분석

강남구 역삼1동10,218개로 평균(1,020개)의 약 10배

매출액 기준 강남구 역삼1동4,494억 원으로 1위

행정동별 대중교통 이용 분포도와 행정동별 대중교통 이용 상위지역 막대그래프 행정동별 대중교통 이용 분포도
지역별 대중교통 이용 현황 분석

종로구 종로 1·2·3·4가동501,084명으로 평균(69,0587명)의 약 10배

매출액 기준 종로구 종로 1·2·3·4가동4,490억 원으로 2위

분석 과정

분석 모델 개발

  • 01지역 활성화 후보지 선정을 위해 총 매출액에 대한 분석
  • 02총 매출액에 영향을 주는 주요 요인을 추출하기 위한 회귀분석
  • 03회귀분석 결과로 추출된 주요 변수를 기준으로 군집화 분석
  • 04특성화거리 성공사례의 군집 및 주요 요인과의 일치율을 기준으로 지역 활성화 후보 선정
  • 상관분석

    상관분석 결과 시각화

    각 변수간 상관성을 확인하기 위해 상관분석을 실시

    총 매출액과 높은 상관성을 보이는 요인
    음식업소(0.77), 30대 유동인구(0.70), 생활서비스(0.68)

  • 회귀분석

    변수 선택 과정(단계적 선택법 적용)
    다중 선형 회귀 분석 결과(단계적 선택법 적용 후)

    통계 분석 기법 중 하나인 다중 선형 회귀 분석을 적용하여 지역별 매출액에 대한 회귀 모형 도출

    단계적 선택법(Stepwise Selection Method)을 적용한 결과, 매출액에 유의미한 변수
    부동산 · 생활서비스 · 숙박 · 음식 · 의료 · 학문/교육 업종 선정, 30 · 50대 유동인구 및 상주인구

    회귀 모형의 최종 설명력(Adjusted R-Squared)은 82.47%

  • 군집분석

    군집 중심의 최적 개수 산출
    군집 분석 결과

    군집분석 중 K-Means Clustering 분석을 진행하기 위해 최적 군집 개수 도출

    최적 군집 개수 산출 결과 3개의 군집 개수 도출

    K-Means Clustering 분석을 통해, 회귀 모델에서 도출된 주요 인자들에 대한 유사한 특성을 가진 3개의 군집으로 그룹화

    A군집 - 홍대 인근, 강남역 인근, 가로수길, 압구정 로데오거리 등
    B군집 - 경리단길, 대학로 등
    C군집 - 건대입구역 인근, 이태원역 인근 등

분석결과

선정기준

특성화 거리의 성공사례가 되는 행정동 분석결과, 유사한 특징에 따라 나눈 군집 A와 B가 선정기준

군집 A : 가로수길 (강남구 신사동), 압구정 로데오거리 (강남구 압구정동),
인사동 문화의 거리 및 쌈지길 (종로구 종로1~4가동)

군집 B: 경리단길 (용산구 이태원2동), 대학로 ( 종로구 혜화동)

선정과정

A,B 군집별로 성공 사례의 주요 인자들을 평균 도출

평균과 일치율이 높은 순서대로 우선순위 부여

활성화에 영향 주는 추가 요인 조사결과를 추가 반영 후 최종 선정

대상 지역으로
강동구 길동, 동대문구 회기동 선정

A군집에서 강동구 길동 선정

스포츠 업종을 제외하고 전체적으로 많은 점포 수 보유

인근 천호동 로데오거리로 20대 유동인구 유출

B군집에서 동대문구 회기동 선정

관광, 여가, 오락 및 음식 업종을 제외한 타 업종 점포 수 적음

인근 다수의 학교로 10~20대 유동인구 높음

강동구 길동 :

오락 및 생활서비스업소가 401개로 평균(113개) 대비 3.5배, 50~60대 유동인구21,472명으로 평균(9,274명) 대비 2.3배

동대문구 회기동 :

오락·관광·음식 관련 업소는 569개로 평균(348개) 대비 1.5배, 그 외 업종은 평균의 0.4~0.8배, 20대 유동인구8,328명으로 *평균(4,155명) 대비 2배

A군집 우선순위
B군집 우선순위

활용 효과

  • 지자체 정책 발생의 근거 자료 생성
  • 지역활성화 또는 정책 지원으로 지역별 고른 분포 생성
  • 도시기능 활성화와 특정 지역 쏠림 현상 해소
1. 데이터 분석사례
지역 분석을 통한 지역 활성화 요인 도출 및 활성화 후보 지역 선정.

가. 문제 및 현황
• 골목이나 특정 지역의 교통 체증과 주차 문제 발생
• 특정 지역을 중심으로 성장 불균형 발생.

나. 과제 선정 배경
• 지역별 균형있는 발전 유도 필요.

다. 분석 목표
• 서울지역의 "주요 행정동 분석"으로 활성화에 영향을 주는 특징 및 요인 파악. 이를 기반으로 "활성화 후보지 선정".

라. 활용 데이터
• 상권영역
• 행정동별 대중교통 이용 내역
• 상권 업종별 매출
• 골목상권업종코드표
• 행정동별 직장·주민등록·생활인구
• 한국행정구역분류표
※ 데이터 제공처 : 서울열린데이터광장, 공공 데이터 포털, 통계청 통계분류포털

마. 지역별 현황 분석
• 지역별 매출현황
• 지역별 유동인구
• 지역별 점포현황
• 지역별 대중교통 현황



2. 분석과정
가. 분석 모델 개발
1) 지역 활성화 후보지 선정을 위해 총 매출액에 대한 분석
2) 총 매출액에 영향을 주는 주요 요인을 추출하기 위한 회귀분석
3) 회귀분석 결과로 추출된 주요 변수를 기준으로 군집화 분석
4) 특성화거리 성공사례의 군집 및 주요 요인과의 일치율을 기준으로 지역 활성화 후보 선정

나. 상관분석
1) 상관 분석 결과 시각화
• 각 변수간 상관성을 확인하기 위해 상관분석을 실시
• 총 매출액과 높은 상관성을 보이는 요인은 음식업소(0.77), 30대 유동인구(0.70), 생활서비스(0.68) 순

다. 회귀분석
변수 선택 과정(단계적 선택법 적용), 다중 선형 회귀 분석 결과(단계적 선택법 적용 후). 통계 분석 기법 중 하나인 다중 선형 회귀분석을 적용하여 지역별 매출액에 대한 회귀 모형 도출.
단계적 선택법을 적용한 결과, 부동산·생활서비스·숙박·음식·의료·학문/교육 업종
30·50대 유동인구, 상주인구가 매출액에 유의미한 변수로 선정
(회귀 모혀의 설명력을 82.47%)

라. 군집 분석
1) 군집 중심의 최적 개수 산출
• 군집분석 중 K-Means Clustering 분석을 진행하기 위해 최적 군집 개수 도출
• 최적 군집 개수 산출 결과 3개의 군집 개수 도출
2) 군집 분석 결과
• K-Means Clustering 분석을 통해 회귀 모델에서 도출된 주요 인자들에 대한 유사한 특성을 가진 3개의 군집으로 그룹화
• A군집(홍대 인근, 강남역 인근, 가로수길, 압구정 로데오거리 등), B군집(경리단길, 대학로 등), C군집(건대입구역 인근, 이태원역 인근 등)



3. 분석 결과
가. 선정기준
특성화 거리의 성공사례가 되는 행정동 분석결과, 유사한 특징에 따라 나눈 군집 A와 B가 선정 기준
• 군집A : 가로수길(강남구 신사동), 압구정 로데오거리(강남구 압구정동), 인사동 문화의 거리 및 쌈지길(종로구 종로1~4가동)
• 군집B : 경리단길(용산구 이태원2동), 대학로(종로구 혜화동)

나. 선정과정
1) A, B 군집별로 성공 사례의 주요 인자들을 평균 도출
2) 평균과 일치율이 높은 순서대로 우선순위 부여
3) 활성화에 영향 주는 추가 요인 조사결과를 추가 반영 후 최종 선정

다. 분석결과
1) 군집분석결과
대상 지역으로 강동구 길동, 동대문구 회기동 선정
1-1) A군집에서 강동구 길동 선정
• 스포츠 업종을 제외하고 전체적으로 많은 점포 수 보유
• 인근 천호동 로데오거리로 20대 유동인구 유출
1-2) B군집에서 동대문구 회기동 선정
• 관광, 여가, 오락 및 음식 업종을 제외한 타 업종 점포 수 적음
• 인근 다수의 학교로 10~20대 유동인구 높음

라. 활용 효과
1) 지자체 정책 발생의 근거 자료 생성
2) 지역활성화 또는 정책 지원으로 지역별 고른 분포 생성
3) 도시기능 활성화와 특정 지역 쏠림 현상 해소

버스노선 개선 및
추가 필요 대상 지역
선정 토대 마련

지역별 유동인구, 직장인구 등 인구 정보와 버스 승하차 및 운행노선 분석을 통해 버스노선 개선 또는 추가 필요 대상지역을 예측한다.

문제 및 현황

승·하차 빈도를 활용하여 노선 개편
승객 인원수로 버스 배차 간격 결정 기준의
기존 산정 방식을 유지하는 현황

과제선정 배경

지역 특성을 고려한 버스노선 개선

분석목표

  • 지역별 인구 정보
  • 버스 승하차 및 운행노선 분석을 통해
  • 버스노선 개선 및 추가 대상지역 예측

활용데이터

  • 버스 승하차 이용 정보

    지역별 직장인구

  • 지역별 유동인구

    지역별 업종 점포 정보

  • 지역별 주민등록 인구

지역 현황

행정동별 버스 이용객 분포도와 버스 승하차 이용객, 버스 운행 노선 수 막대그래프 행정동별 버스 이용객 분포도
지역별 버스 이용 현황 분석

버스 운행 노선이 가장 많은 지역은 중구 소공동으로 평균(18개)보다 3.7배 가량 많은 67개 노선이 운행

월 평균 버스 이용객이 가장 많은 지역은 종로구 종로 1·2·3·4가동으로 평균(29,618명)보다 5.7배 가량 많은 167,296명(승차 88,610명, 하차 78,686명)이며, 버스 운행 노선도 평균(18개)보다 3.2배 가량 많은 57개 노선이 운행

행정동별 유동인구 분포도와 유동인구, 직장인구, 거주인구 막대그래프 행정동별 유동인구 분포도
지역별 인구 현황 분석

월 평균 유동인구가 가장 많은 지역은 강남구 역삼1동으로 평균(24,900명)보다 4.3배 가량 많은 107,453명이며, 버스 운행 노선 수는 평균보다 2.4배 가량 많은 43개 노선 운행

직장인구가 가장 많은 지역은 영등포구 여의동으로 평균(12,150명)보다 30배 가량 많은 362,880명이며, 버스 운행 노선 수는 평균보다 1.8배 가량 많은 32개 노선 운행

거주인구가 가장 많은 지역은 은평구 진관동으로 평균(23,700명)보다 2.4배 가량 많은 57,618명이며, 버스 운행 노선 수19개로 평균과 차이가 없음

행정동별 점포 수 분포도와 외식업 점포 수, 서비스업 점포 수, 소매업 점포 수 막대그래프 행정동별 점포 수 분포도
지역별 업종 분포 현황 분석

점포 수가 가장 많은 지역은 강남구 역삼1동으로 평균(1,114개)보다 7.2배 가량 많은 7,989개이며, 서비스업도 평균(335개)보다 7.6배 많은 2,537개로 가장 많은 지역. 버스 운행 노선 수는 평균보다 2.45배 많은 44개 노선 운행

외식업이 가장 많은 지역은 마포구 서교동으로 평균(343개)보다 8.6배 가량 많은 2,951개이며, 버스 운행 노선 수는 평균보다 2.4배 가량 많은 43개 노선 운행

소매업이 가장 많은 지역은 중구 광희동으로 평균(435개)보다 8.5배 가량 많은 3,692개이며, 버스 운행 노선 수는 평균에 비해 1.5배 많은 27개 노선 운행

분석 과정

분석 모델 개발

  • 01지역별 버스 운행 노선 수에 대한 분석을 진행
  • 02상관분석을 통해 각 변수들 간의 유의성 검증 후 회귀분석 적용
  • 03회귀 모형에 실제 데이터를 적용하여 현재 버스운행 노선수와 예측 값을 비교
  • 04비교 후 버스 노선 개선/추가가 필요한 대상 후보 지역을 선정
  • 상관분석

    상관분석 결과 시각화

    각 변수간 상관성을 확인하기 위해 상관분석을 실시

    지역별 버스 노선 수와 높은 상관성을 보이는 요인
    버스 이용객 수 (0.76), 외식업 점포 수 (0.55), 소매업 점포 수 (0.54)

  • 회귀분석1

    변수 선택 과정(단계적 선택법 적용)
    다중 선형 회귀 분석 결과(단계적 선택법 적용 후)

    통계 분석 기법 중 다중 선형 회귀 분석을 적용하여 지역별 버스 운행 노선 수에 대한 회귀 모형 도출

    단계적 선택법(Stepwise Selection Method)을 적용한 결과, 버스 운행 노선와 유의미한 변수
    행정동 면적, 거주인구, 외식업·서비스업·소매업 점포 수, 버스 이용객

    회귀 모형의 최종 설명력(Adjusted R-Squared)은 62.912%

  • 회귀분석2

    다중 선형 회귀 모형 가정 진단
    - 선형성, 정규성, 등분산성 -
    다중 선형 회귀 모형 가정 진단
    - 독립성 -

    다중 선형 회귀 모형의 가정(선형성, 정규성, 등분산성, 독립성)을 진단하기 위한 확인 결과
    ① 선형성 ② 잔차의 정규성 ③ 등분산성을 만족 ④ 큰 영향을 주는 관측치 없음

    다중 선형 회귀 모형의 가정을 만족하며 다중공선성 또한 발생하지 않음

분석결과

선정기준

예측 모델의 예측 결과보다 실제 버스 운행 노선수가 가장 많이 부족한 지역

선정과정

다중 회귀 분석을 통한 예측 모델에 현재 버스 운행 노선 데이터를 적용하여 예측 결과와 실제 버스 운행 노선 수를 비교 분석

대상 지역으로
동작구 상도1동 선정

주요 변수인 버스 이용객이 많은 지역(14위)에 속하며, 서울시 행정동 중 거주인구가 많은 지역(6위)에 속함

2018년 서울시 자치구별 교통이용 만족도 통계에서 서대문구 다음으로 가장 만족도가 낮은 자치구(2위)로 선정

분석결과

활용 효과

  • 버스 노선 개선 및 추가 정책에 기초 데이터 마련
  • 대중교통 활성화 토대 마련
1. 데이터 분석사례
버스노선 개선 및 추가 필요 대상 지역 선정 토대 마련

가. 문제 및 현황
• 승·하차 빈도를 활용하여 노선 개편
• 승객의 수로 버스 배차 간격 기준 결정. 기존 산정 방식 그대로 유지

나. 과제 선정 배경
• 지역 특성을 고려한 버스노선 개선

다. 분석 목표
지역별 인구 정보와 버스 승하차 및 운행노선 분석을 통해 버스노선 개선 및 추가 대상지역 예측

라. 활용 데이터
• 버스 승하차 이용정보
• 지역별 직장인구
• 지역별 유동인구
• 지역별 업종 점포 정보
• 지역별 주민등록 인구
※ 데이터 제공처 : 서울열린데이터광장, 우리 마을 가게 상권분석서비스, 국가통계포털

마. 지역볗 현황 분석
• 지역별 버스이용현황
• 지역별 인구 현황
• 지역별 업종분포 현황



2. 분석 과정
가. 분석 모델 개발
1) 지역별 버스 운행 노선 수에 대한 분석을 진행
2) 상관분석을 통해 각 변수들 간의 유의성 검증 후 회귀분석 적용
3) 회귀 모형에 실제 데이터를 적용하여 현재 버스운행 노선수와 예측 값을 비교
4) 비교 후 버스 노선 개선/추가가 필요한 대상 후보 지역을 선정

나. 상관 분석
1) 상관 분석 결과 시각화
• 지역별 버스 운행 수에 대한 상관분석 결과, 버스 이용객 수, 외식업 점포 수, 소매업 점포 수 순

다. 회귀분석
1) 다중 선형 회구 분석결과(Outlier 제거 전) ▶ 다중 선형 회귀 분석 결과(Outlier 제거 후).
통게 분석 기법 중 다중 선형 회귀 분석을 적용하여 지역별 버스 운행 노선 수에 대한 회귀 모형 도출
2) 변수 선택 과정(단계적 선택법 적용) ▶ 다중 선형 회귀 분석 결과(단계적 선택법 적용 후).
단계적 선택법을 적용한 결과, 행정동 면접, 거주인구, 외식업, 서비스업, 소매업 점포 수, 버스 이용객이 버스 운행 노선 수에 유의미한 변수로 선정
3) 다중 선형 회구 모형 가정 진단(선형성, 정규성, 등분산성), 다중 선형 회귀 모형 가정 진단(독립성).
다중공선성이 발생하지 않으며 다중 선형 회귀 모형의 가정을 만족.



3. 분석 결과
가. 선정 기준
예측 모델의 예측 결과보다 실제 버스 운행 노선 수가 가장 많이 부족한 지역

나. 선정과정
다중 회귀 분석을 통한 예측 모델에 현재 버스 운행 노선 데이터를 적용하여 예측결과와 실제 버스 운행 노선 수를 비교 분석

다. 분석결과
인구현황, 버스이용인구, 업종 분포 현황을 토대로 대상 지역으로 동작구 상도1동 선정
주요 변수인 버스 이용객이 많은 지역(14위)에 속하며, 서울시 행정동 중 거주인구가 많은 지역(6위)에 속함.
2018년 서울시 자치구별 교통이용 만족도 통계에서 서대문구 다음으로 가장 만족도가 낮은 자치구(2위)로 선정.

라. 활용효과
1) 버스 노선 개선 및 추가 정책에 기초 데이터 마련
2) 대중교통 활성화 토대 마련

공영 주차장 추가 후보지역
선정을 위한 분석

지역별 인구 정보 및 상권 정보와 공영 및 민영 주차장 주차 공간을 분석하여 공영 주차장 추가 입지 후보 지역을 선정한다.

문제 및 현황

거주자 주차구역의 불법주차로 화재 시
골목 진입 난 발생
주요 상권의 주차 문제 및 불법 주차로
골목 교통 체증 발생

과제선정 배경

주차 문제 해소를 위한 주차장 추가 필요

분석목표

  • 서울지역의 주차 문제 해소를 위한 주차장 추가 필요
  • 활성화에 영향을 주는 공영 및 민영 주차장의 주차 공간 분석으로
  • 공영 주차장 추가 입지 후보 지역 선정

활용데이터

  • 서울시 주차장 통계

    지역별 직장인구

    서울시 공영주차장 정보

  • 지역별 업종 점포 정보

    지역별 유동인구

  • 대중교통 이용 정보

    지역별 주민등록 인구

지역 현황

행정동별 주차공간 현황 분포도와 공영주차장 주차공간, 민영주차장 주차공간 막대그래프 행정동별 주차공간 현황 분포도
지역별 주차장 현황 분석

총 주차공간이 가장 많은 지역은 강남구 역삼1동으로 평균 (9,740대)보다 5.3배 가량 많은 51,475대 주차가 가능하며, 민영 주차공간도 평균 (9,283대) 보다 5.4배 가량 많은 50,471대 주차 가능

공영 주차공간이 가장 많은 지역은 강동구 천호2동으로 평균 (458대)보다 6배 가량 많은 2,734대 주차 가능

행정동별 유동인구 분포도와 행정동별 유동인구 상위지역 막대그래프 행정동별 유동인구 분포도
지역별 인구 현황 분석

월 평균 유동인구가 가장 많은 지역은 강남구 역삼1동으로 평균(24,900명)보다 4.3배 가량 많은 107,453명(20~50대 87,800명)이며, 주차공간은 평균보다 5.3배 가량 많은 51,475대 (공영 1,004대, 민영 50,471대) 주차 가능

직장인구가 가장 많은 지역은 영등포구 여의동으로 평균(12,150명)보다 30배 가량 많은 362,880명이며, 주차공간은 평균보다 5.2배 가량 많은 50,562대 (공영 781대, 민영 49,781대) 주차 가능

거주인구가 가장 많은 지역은 은평구 진관동으로 평균(23,700명)보다 2.4배 가량 많은 57,618명이며, 주차공간은 평균보다 3배 가량 많은 29,143대 (공영 412대, 민영 28,731대) 주차 가능

행정동별 대중교통 이용객 분포도와 버스 승하차 이용객, 지하철 승하차 이용객 막대그래프 행정동별 대중교통 이용 분포도
지역별 대중교통 이용 현황 분석

월 평균 대중교통 이용객이 가장 많은 지역은 종로구 종로 1·2·3·4가동으로 평균(64,147명)보다 7.8배 가량 많은 501,084명이 이용

버스 이용객은 평균 (29,618명)보다 5.7배 가량 많은 167,296명(승차 88,610명, 하차 78,686명)이며, 지하철 이용객은 평균 (34,798명)보다 9.6배 가량 많은 333,7888명(승차 166,899명, 하차 166,889명)이 이용

주차공간은 평균보다 1.9배 가량 많은 18,736대 (공영 1,858대, 민영 16,878대) 주차 가능

행정동별 점포 수 분포도와 외식업 점포 수, 서비스업 점포 수, 소매업 점포 수 막대그래프 행정동별 점포 수 분포도
지역별 업종 분포 현황 분석

총 점포 수가 가장 많은 지역은 강남구 역삼1동으로 평균(1,114개)보다 7.2배 가량 많은 7,989개이며, 서비스업도 평균(335개)보다 7.6배 많은 2,537개로 가장 많은 지역. 주차공간은 평균보다 5.3배 가량 많은 51,475대 (공영 1,004대, 민영 50,471대) 주차 가능

외식업이 가장 많은 지역은 마포구 서교동으로 평균(343개)보다 8.6배 가량 많은 2,951개이며, 주차공간은 평균보다 2.4배 가량 많은 23,703대 (공영 874대, 민영 22,829대) 주차 가능

소매업이 가장 많은 지역은 중구 광희동으로 평균(435개)보다 8.5배 가량 많은 3,692개이며, 주차공간은 평균보다 5.3배 가량 많은 51,475대 (공영 1,004대, 민영 50,471대) 주차 가능

분석 과정

분석 모델 개발

  • 01공영 주차장 추가 후보 지역 선정을 위해 주차 공간에 대한 분석
  • 02상관분석을 통해 각 변수들 간의 유의성 검증 후 회귀 분석을 통해 주요 요인 도출
  • 03도출된 주요 변수와 주차면 수 및 대중교통 이용객 변수에 가중치 부여
  • 04Scoring을 통해 공영 주차장 추가 후보 지역 선정
  • 상관분석

    상관분석 결과 시각화

    각 변수간 상관성을 확인하기 위해 상관분석을 실시

    지역별 주차공간과 높은 상관성을 보이는 요인
    유동인구 (0.85), 서비스업 점포 수 (0.72), 직장인구 (0.67)

  • 회귀분석1

    변수 선택 과정(단계적 선택법 적용)
    다중 선형 회귀 분석 결과(단계적 선택법 적용 후)

    통계 분석 기법 중 다중 선형 회귀 분석을 적용하여 주차면 수에 대한 회귀 모형 도출

    단계적 선택법(Stepwise Selection Method)을 적용한 결과 주차면 수에 유의미한 변수
    행정동 면적, 유동인구, 거주인구, 직장인구, 외식업 · 서비스업 점포 수

    회귀 모형의 최종 설명력(Adjusted R-Squared)은 85.72%

  • 회귀분석2

    다중 선형 회귀 모형 가정 진단
    - 선형성, 정규성, 등분산성 -
    다중 선형 회귀 모형 가정 진단
    - 독립성 -

    다중 선형 회귀 모형의 가정(선형성, 정규성, 등분산성, 독립성)을 진단하기 위한 확인 결과
    ① 선형성 ② 잔차의 정규성 ③ 등분산성 ④ 1개를 제외하고 큰 영향을 주는 관측치 없음

    다중 선형 회귀 모형의 가정을 만족하며 다중공선성 또한 발생하지 않음

분석결과

선정기준

각 주요 요인에 대한 점수 계산을 통해 총 점수가 높은 상위 지역 중 주차 공간이 부족한 지역

선정과정

각 주요 요인에 가중치를 부여한 후 순위에 따른 차등 점수를 계산하여 지역별 총 점수 비교 분석

대상 지역으로
광진구 자양1동 선정

거주인구에 비해 대중교통 이용 인구가 적음

공영주차장 주차 공간이 다른 상위권 지역보다 적음(주차공간 6,727대 중 공영주차장 140대, 민영주차장 6,587대)

분석결과

활용 효과

  • 주차 공간 관련 지자체 정책 근거 자료 생성
  • 주차 문제 해소로 교통 체증 및 불법 주차 문제 해소
1. 데이터 분석사례
공영 주차장 추가 후보 지역 선정을 위한 분석

가. 문제 및 현황
- 거주자 주차 구역의 불법주차로 화재 시 골목 진입 난 발생
- 주요 상권의 주차 문제 및 불법 주차로 골목 교통 체증 발생

나. 과제 선정 배경
- 주차 문제 해소를 위한 주차장 추가 필요

다. 분석 목표
지역별 인구 및 상권 정보와 공영 및 민영 주차장의 주차 공간 분석으로 공영 주차장 추가 입지 후보 지역 선정

라. 활용 데이터
- 서울시 주차장 통계
- 지역별 직장인구
- 서울시 공영주차장 정보
- 지역별 업종 점포 정보
- 지역별 유동인구
- 대중교통 이용 정보
- 지역별 주민등록 인구
※데이터제공처 : 서울열린데이터광장, 우리 마을 가게 상권분석 서비스, 국가통계포털

마. 지역별 현황 분석
- 지역별 주차 현황
- 지역별 인구 현황
- 지역별 대중교통 이용 현황
- 지역별 업종 분포 현황



2. 분석 과정
가. 분석 모델 개발
1) 공영 주차장 추가 후보 지역 선정을 위해 주차 공간에 대한 분석
2) 상관분석을 통해 각 변수들 가느이 유의성 검증 후 회귀분석을 통해 주요 요인 도출
3) 도출된 주요 변수와 주차면 수 및 대중교통 이용객 변수에 가중치를 부여
4) Scoring을 통해 공영 주차장 추가 후보 지역 선정

나. 상관 분석
1) 상관 분석 결과 시각화
- 분석 결과, 유동인구(0.85), 서비스업 점포 수(0.72), 직장인구(0.67) 순으로 지역별 주차공간과 높은 상관성을 보임.

다. 회귀분석
1) 다중 선형 회귀 분석결과(Outlier 제거 전) ▶ 다중 선형 회귀 분석 결과(Outlier 제거 후)
통계 분석 기법 중 다중 선형 회귀 분석을 적용하여 지역별 총 주차면 수에 대한 회귀 모형 도출
2) 변수 선택 과정(단게적 선택법 적용) ▶ 다중 선형 회귀 분석 결과(단게적 선택법 적용 후)
단계적 선택법을 적용한 결과, 외식·서비스·소매업종 점포수, 유동인구, 거주인구, 직장인구, 행정동 면적이 주차면 수에 유의미한 변수로 선정.
(회귀 모형의 설명력은 86.27%)
3) 다중 선형 회귀 모형 가정 진단(선형성, 정규성, 등분산성), 다중 선형 회귀 모형 가정 진단(독립성), 다중공선성 진단.
다중공선성이 발생하지 않으며 다중 선형 회귀 모형의 가정을 만족.



3. 분석 결과
가. 선정 기준
각 주요 요인에 대한 점수 계산을 통해 총 점수가 높은 상위 지역 중 주차 공간이 부족한 지역

나. 선정 과정
각 주요 요인에 가중치를 부여한 후 순위에 따른 차등 점수를 계산하여 지역별 총 점수 비교 분석

다. 분석 결과
주차공간 현황, 인구 현황, 대중교통 이용 현황, 업종 분포 현황을 토대로 대상지역으로 광진구 자양 1동 선정.
거주인구에 비해 대중교통 인구가 적음.
공영주차장 주차 공간이 다른 상위권 지역보다 적음.
(주차공간 6,727대 중 공영주차장 140대, 민영주차장 6,587대)

라. 활용 효과
1) 주차 공간 관련 지자체 정책 근거 자료 생성
2) 주차 문제 해소로 교통 체증 및 불법 주차 문제 해소

지역 특성을 고려한
택배 물량 예측

택배 물량과 지역 특성(인구, 소득, 소비)를 파악하고 이를 기반으로 택배 물량을 예측한다.

문제 및 현황

배송 기간 단축화, 택배업 종사자들의 과로사 문제 발생
택배 업체간 경쟁 가속화, 비대면 시스템 이용 급증

과제선정 배경

사전 물량 예측으로 필요인력 계획하여 업무량 과중 방지

분석목표

  • 지역별 인구/택배/소비소득 정보를 활용하여
  • 지역적 특징을 도출하고 이를 기반으로 유사 지역 군집화
  • 군집별/지역별 택배물량 예측

활용데이터

  • 택배 송장 정보

    읍면동 소득신용통계정보

  • 읍면동 소비신용통계정보

    자택/직장 정보

  • 시간대별 유동인구정보

    주민등록인구 및 세대현황

지역 현황

택배 현황

지역별 월 평균 택배물량 상위 20
지역별 월 평균 택배물량 상위 20

서울시 관악구 신림동이 월 평균 448,810 건이 택배 건수가 가장 많은 지역이고, 시군구 내 월 평균 물량이 40만이 넘는 읍면동 지역이 2개 이상인 지역은 관악구가 유일

경기도 군포시 부곡동 같은 월 평균 물량의 편차가 큰 곳이 있는 반면 인천시 남동구 구월동 처럼 편차가 적고안정적인 지역도 존재

소득 현황

지역별 20대 남자와 여자 평균 중위연소득금액 상위 20
지역별 20대 남자 평균 중위연소득액 상위 20
지역별 20대 남자와 여자 평균 중위연소득금액 상위 20
지역별 20대 여자 평균 중위연소득액 상위 20

택배 물량에 영향을 많이 미친다는 20대의 지역별/성별 소득 상위 20개 지역을 분석

20대 남성의 경우 경상남도 창원시 귀현동이 가장 소득이 높고, 서울에서는 영등포구가 소득이 높은 것으로 나타남

20대 여성의 경우 경상북도 구미시 임수동이 가장 소득이 높고, 서울에서는 용산구와 영등포구가 소득이 높음

전반적으로 공업/산업단지가 있는 지방도시에서 20대 소득이 높은 것으로 나타남

소비 현황

지역별 20대 남자와 여자 평균 3개월 카드 이용 금액 상위 20
지역별 20대 남자 평균 3개월 카드 이용 금액 상위 20
지역별 20대 남자와 여자 평균 3개월 카드 이용 금액 상위 20
지역별 20대 여자 평균 3개월 카드 이용 금액 상위 20

택배 물량에 영향을 많이 미친다는 20대의 지역별/성별 소비 상위 20개 지역을 분석

20대 남성의 경우 경상북도 경주시 양북면이 가장 높고, 서울의 경우 용산구 원효로3가의 카드이용금액이 높음

20대 여성의 경우 서울시 성북구 동소문동4가에서 가장 높고, 남성에 비해 전반적으로 상위 20개 지역에 서울특별시 지역이 밀집됨

인구 현황

지역별 주민등록상 인구 상위 20
지역별 주민등록상 인구 상위 20

서울시 관악구 신림동이 택배 물량과 비례하여 주민등록상 인구수가 가장 많고, 봉천동과 강서구 화곡동이 그 다음 순

신림동의 경우 인구수에 비해 세대수가 많고, 남녀 비율 중 남성 비율이 더 높은 것으로 나타나 1인 남성가구가 많은 것으로 추측됨

상위 20개 지역 중 경기도 시흥시 정왕동의 경우 남성 비율이 매우 높고, 서울시 노원구 상계동의 경우 여성 비율이 매우 높음

지역간 소득·소비 현황, 직장정보, 시간대별 유동인구정보에 대한 비교

성연령별 평균3개월카드소비금액(역삼동vs구로동) / 시간대별 유동인구(종로2가vs종로6가)
성연령별 평균3개월카드소비금액(역삼동 vs 구로동)
성연령별 평균3개월카드소비금액(역삼동vs구로동) / 시간대별 유동인구(종로2가vs종로6가)
시간대별 유동인구(종로2가 vs 종로6가)

소득·소비 현황 및 직장정보, 시간대별 유동인구 정보 지역별 차이를 탐색

강남구 역삼동의 거주민들의 소비금액이 구로구 구로동의 거주민들에 비해 평균적으로 높은 것을 확인

종로2가처럼 12시~18시 사이 유동인구가 없는 반면 종로6가의 경우 지속적으로 유동인구가 변화하며 인근지역간 차이가 있음을 확인

분석 과정

  • STEP
    01
    현황분석을 토대로 지역별 특성을 반영한 지역 군집 분석
    지역별 택배물량 / 유동인구 / 거주인구 / 소득 / 소비 / 자택직장 통계정보를 활용
    N 개 군집으로 분류
  • STEP
    02
    택배 물량 추세 및 자기상관관계 분석
    택배 일자별 전체물량의 추세를 분석하여 날짜 관련 파생변수 탐색
    N개 군집별로 택배당일접수 물량과 과거 물량(1일전~6일전, 1주전~3주전 동일요일)과의 상관성을 분석
  • STEP
    03
    군집별 택배 배달물량 회귀분석
    배달 인력의 계획 또는 변동에 대처하기 위해서 최소 2일이 필요하다고 가정
    1일전(D-1)까지의 접수물량으로 당일(D) 접수물량을 예측하고 이를 영업일 기준 다음날(D+1) 배달물량으로 추정
    군집별 택배물량 예측 모델을 만들고, 정확도 측정
  • 현황분석을 토대로 지역별 특성을 반영한 지역 군집 분석

    군집분석에 사용되는 지역변수 96개 정의
    군집분석에 사용되는 지역변수 분류1. 택배물량(지역변수 4종)
    택배 물량
    월_평균
    월_편차
    월_최소
    월_최대
    군집분석에 사용되는 지역변수 분류2. 행정인구(지역변수 6종)
    행정인구
    총 인구수
    세대수
    남자.인구수
    여자.인구수
    세대당 인구
    남녀비율
    군집분석에 사용되는 지역변수 분류3. 시간대_유동인구(지역변수 24종)
    시간대_유동인구
    00시 유동인구 12시 유동인구
    01시 유동인구 13시 유동인구
    02시 유동인구 14시 유동인구
    03시 유동인구 15시 유동인구
    04시 유동인구 16시 유동인구
    05시 유동인구 17시 유동인구
    06시 유동인구 18시 유동인구
    07시 유동인구 19시 유동인구
    08시 유동인구 20시 유동인구
    09시 유동인구 21시 유동인구
    10시 유동인구 22시 유동인구
    11시 유동인구 23시 유동인구
    군집분석에 사용되는 지역변수 분류4. 자택직장정보(지역변수 2종)
    자택직장정보
    직장인구비율
    자택인구비율
    군집분석에 사용되는 지역변수 분류5. 성별/연령대별 평균연소득금액(지역변수 12종)
    성별/연령대별 평균연소득금액
    남성 10대 평균연소득 상위소득자 남성 10대 평균연소득 남성 10대 평균가구소득 남성 10대 중위연소득
    남성 20대 평균연소득 상위소득자 남성 20대 평균연소득 남성 20대 평균가구소득 남성 20대 중위연소득
    남성 30대 평균연소득 상위소득자 남성 30대 평균연소득 남성 30대 평균가구소득 남성 30대 중위연소득
    남성 40대 평균연소득 상위소득자 남성 40대 평균연소득 남성 40대 평균가구소득 남성 40대 중위연소득
    남성 50대 평균연소득 상위소득자 남성 50대 평균연소득 남성 50대 평균가구소득 남성 50대 중위연소득
    남성 60대 평균연소득 상위소득자 남성 60대 평균연소득 남성 60대 평균가구소득 남성 60대 중위연소득
    여성 10대 평균연소득 상위소득자 여성 10대 평균연소득 여성 10대 평균가구소득 여성 10대 중위연소득
    여성 20대 평균연소득 상위소득자 여성 20대 평균연소득 여성 20대 평균가구소득 여성 20대 중위연소득
    여성 30대 평균연소득 상위소득자 여성 30대 평균연소득 여성 30대 평균가구소득 여성 30대 중위연소득
    여성 40대 평균연소득 상위소득자 여성 40대 평균연소득 여성 40대 평균가구소득 여성 40대 중위연소득
    여성 50대 평균연소득 상위소득자 여성 50대 평균연소득 여성 50대 평균가구소득 여성 50대 중위연소득
    여성 60대 평균연소득 상위소득자 여성 60대 평균연소득 여성 60대 평균가구소득 여성 60대 중위연소득
    군집분석에 사용되는 지역변수 분류6. 성별/연령별 평균소비금액(지역변수 12종)
    성별/연령별 평균소비금액
    남성 10대 평균 3개월 카드이용금액
    남성 20대 평균 3개월 카드이용금액
    남성 30대 평균 3개월 카드이용금액
    남성 40대 평균 3개월 카드이용금액
    남성 50대 평균 3개월 카드이용금액
    남성 60대 평균 3개월 카드이용금액
    여성 10대 평균 3개월 카드이용금액
    여성 20대 평균 3개월 카드이용금액
    여성 30대 평균 3개월 카드이용금액
    여성 40대 평균 3개월 카드이용금액
    여성 50대 평균 3개월 카드이용금액
    여성 60대 평균 3개월 카드이용금액

    현황분석을 통해 군집분석에 사용하기 위해 지역변수 96개 정의
    (택배정보, 행정인구정보, 시간대별 유동인구정보, 자택직장정보, 성별/연령별 평균연소득과 평균소비금액)

    (왼)최적 군집수 개수 계산 그래프, (오)군집 분석 시도 그래프
    (왼쪽)Elbow Method 최적 군집수 개수 계산 그래프(그룹별 세분화를 위해 11개의 cluster 선택), (오른쪽)군집 분석 시도 그래프

    Elbow Method 최적 군집 개수 계산 결과 최적 군집수는 3~4개로 확인되나 더 세분화를 시도

    최종 군집수 11개로 선택

    분석결과 1 – 군집별 특징

    1군집 (주거인구밀집지역)
    7군집 (고층빌딩/아파트숲 지역)

    1군집의 물량합계 비율은 전체 중 37%,
    7군집의 물량합계 비율은 전체 중 29% 로
    전체물량의 66%를 차지하여 비중이 매우 높다.

    2개 군집은 다음과 같은 특징을 지닌다.
    ① 여성 비율이 높음
    ② 해당 지역에 직장을 가지고 있는 비율이 높음
    ③ 평균 소득/소비가 높음

    (왼쪽1)군집별 월 평균 택배물량 그래프, (왼쪽2)군집별 거주인구정보표, (오른쪽)군집별 평균 소득정보 그래프

    분석결과 2 – 월평균 물량 상위 1,2 위 군집
    (1번,7번 군집)과 기타 군집 비교

    1군집 (주거인구밀집지역)

    월 평균 택배 물량과 거주인구가 가장 많다.
    직장과 자택인구 비율이 둘 다 매우 높고,
    일반주택 등이 밀집되어 있는 지역으로 분석됨

    7군집 (고층빌딩/아파트숲 지역)

    직장인구 비율이 가장 높고, 출퇴근시간대
    유동인구가 변화가 크다. 자택인구비율이
    1군집에 비해 상대적으로 적어 고층빌딩과
    아파트가 밀집되어 있는 지역으로 분석됨

    (왼쪽1)군집별 월 평균 택배물량 그래프, (왼쪽2)군집별 거주인구정보표, (오른쪽)군집별 각 시간대 평균유동인구 그래프
  • 상관분석

    2019년 일자별 전체 택배물량

    일일 전체 합계물량 600만 이상인 일자를 분석한 결과 추석/설날/개학(개강)/어린이날/월초 의 경우 택배물량에 큰 영향을 끼침

    2019년 설날(2/4(월)~2/6(수)) 과 추석(9/12(목)~9/14(토))은 평일이 많아 휴일이 길어졌고, 연휴가 끝난 직후에 접수가 몰림. 특히 추석직후에 물량이 가장 높은 것으로 나타남

    월 단위로 봤을 때 월초에 물량이 많고 월말에 물량이 줄어드는 추세가 있음

  • 군집별 택배 배달물량 회귀분석

    (왼쪽 순으로)N번 군집의 다중 선형 회귀 모델링 / 단계적 선택법 적용하여 모델 개선 / 결정계수와 모델 정확도와의 관계 그래프

    데이터를 결합한 후 학습용(2019.01~2019.10)/테스트용(2019.11~2019.12)으로 분리하여 모델링

    독립변수로 날짜정보, 택배물량 정보, 그리고 지역별 인구변화율평균(아침·점심·저녁·새벽) 정보를 사용

    다중 선형 회귀 분석을 적용하여 군집별 택배물량 예측 모델 생성하고 단계적 선택법(Stepwise Selection Method)을 적용하여 정 영향을 받는 최적화된 설명변수를 도출함

    분석결과 1 – 군집별 정확도

    군집별 정확도 현황표
    군집별 정확도 현황표
    순위 군직번호 군집명 예측 정확도(군집) 정확도 1순위 지역 일자별 평균물량 예측 정확도(지역)
    1 7 고층 빌딩, 아파트 숲 91.8% 경남 창원시 마산회원구 내서읍 4755 93.4%
    2 1 주거인구밀집지역 90.4% 부산광역시 해운대구 반여동 6112 94.0%
    3 4 주거형 번화가 90.0% 서울특별시 동작구 흑석동 2319 92.9%
    4 9 베드타운 87.5% 인천광역시 연수구 선학동 1312 92.4%
    5 10 구도심 생활지역 83.7% 경기도 양평균 서종면 640 90.6%
    6 5 대형전통시장 81.2% 강원도 삼척시 근덕면 252 89.2%
    7 2 대학교 인접 지역 79.8% 서울특별시 구로구 온수동 517 84.0%
    8 5 저가구수·고연령층 지역 78.5% 전라남도 광양지 진월면 99 88.0%
    9 11 지역 산업 75.2% 전라북도 정읍시 하복동 60 85.4%
    10 3 쇼핑상가 인접지역 73.0% 서울특별시 중구 광화동1가 552 82.6%
    11 8 직장 밀집·비거주 지역 67.3% 경상남도 김해시 상동면 230 75.5%

    분석결과 2 – 요일별 정확도

    (왼)요일별 정확도 평균표 / (오)일자별 전체 택배물량 실제값 VS 예측값 그래프
    요일별 정확도 평균 현황표
    요일 정확도 평균 정확도 편차
    월요일 70.0% 11.5%
    화요일 90.3% 4.8%
    수요일 90.0% 5.7%
    목요일 83.6% 8.6%
    금요일 90.5% 4.6%

    월요일이 오차율이 가장 크고, 오차율의 편차도 11.5 %로 가장 높음

    예측기간에 대한 학습이 부족하여 11월 중순 ~ 12월 중순 사이에 월요일 물량 오차가 크게 발생

    분석결과 3 – 군집별로 지역 일일 평균물량(X축)과 정확도(Y축)와의 관계

    일일평균물량 100이상 지역분포 그래프 / 일일평균물량 200이상 지역분포 그래프 / 일일평균물량 400이상 지역분포 그래프

    일일 평균물량이 많을수록 안정적이고 높은 정확도를 보임

    1, 4, 7번 군집은 물량에 관계없이 편차가 적고 높은 정확도를 유지함

분석결과

2020년 택배물량은 어떻게 변할까?

2019 대비 2020년 물량은 약 11.3% 증가할 것으로 예상되며, 2019년 일자별 전체 택배물량에 적용했을 때 2020년 일일 물량 600만 이상 물량이 발생하는 일자가 3배 이상 발생할 가능성이 있음

특히 추석 이후 월요일 물량이 급증할 것으로 예상되어 각별한 인력관리가 필요함

2019년 일자별 전체 택배물량 그래프 -> 2020년 일자별 전체 택배물량 예상 그래프

2015년부터 택배기사 1인당 일일 평균 배달물량은 지속적으로 증가하였고, 매년 평균 33.76개 씩 배달물량이 증가

2020년 택배기사 1인당 평균 일일배달물량은 약 298개로 이런 추세로 2021년 약 332개까지 증가할 것으로 예상됨

연도별 택배기사 1인당 일일배달물량 그래프
※자료 출처 : 택배연대노조, 민주노총 공공운수노조, 국토교통부, 택배노동자 과로사 대책위원회, 전국서비스산업노동조합연맹, 서울노동권익센터, 언론사 기사

카드 고객 군집 분석

고객 소비 데이터 분석을 통해 고객들의 소비 경향 분석

문제 및 현황

신용카드 사용자의 개인화,
비대면 서비스 및 이에 따른 소비 변화
온라인 플랫폼 발전으로
재택 근무와 워라벨 중시 성향 증가

과제선정 배경

새로운 소비 인사이트 탐색 필요

분석목표

  • 업종별 신용카드 소비 패턴을 분석하여
  • 다양한 소비계층을 탐색

활용데이터

  • 데이터 소개 : 업종, 시간대별 소비 경로에 대한 정보

    데이터 기간 : 2019년 7월초 ~ 12월말

    분석 대상 : 데이터 사용 기간 중 결제건수 184건 이상 294건 이하에 해당하는 고객 (약 65만명 대상, 약 1억5천 Rows)
    (1) 184건 : 1일 1건 이상 사용 가정
    (2) 294건 : 전체 데이터의 3σ(시그마) 이내로 제한(※3시그마를 사용하는 것은 데이터의 99.73%가 3시그마 내에 있고 3시그마 밖에 있을 확률이 약 0.3%밖에 되지 않아 통계적으로 의미 있다고 약속을 하여 사용하는 것)

지역 현황

업종별 고객 소비 현황 (업종 중분류 기준)

업종별 매출금액 Top15
업종별 매출금액 Top15
업종별 매출건수 Top15
업종별 매출건수 Top15

업종 중분류별 매출금액 : 1위 유통업영리(약 1조5600억원), 2위 일반음식, 3위 의료기관 순으로 각각의 매출금액비중은 전체 대비 각각 42.6 %, 14.6 %, 7.8 %

업업종 소분류별 매출건수 상위 : 1위 유통업영리(약 6천7백만 건), 2위 일반음식, 3위 여행업 순으로 각각의 매출건수비중은 전체 대비 각각 44.8 %, 20.1 %, 8.1 %

업종별 고객소비 현황에서 유통업영리,일반음식,의료기관부분이 고객소비의 비중이 가장 많고, 그 중 용역서비스부분은 매출금액대비 매출건수는 매우 적고, 음식료품부분은 매출금액 대비 매출건수가 매우 높게 확인이 됨.

업종별 고객 소비 현황 (업종 중분류 기준)

시간별 고객 소비 현황
시간별 고객 소비 현황
4단계로 시간대 구분
4단계로 시간대 구분

점심시간(12시-13시)18시-19시의 식사시간의 매출금액 및 건수가 높고, 일반적인 직장밀집지역의 유동인구 추이와 유사

시간대를 4단계(아침/점심/저녁/밤)으로 구분하여 시간대에 따른 업종 순위 변화 탐색

업종별 고객 소비 현황 (업종 중분류 기준)

시간대별 매출금액 순위
시간대별 매출금액 순위
시간대별 매출건수 순위
시간대별 매출건수 순위

일반음식의 경우 저녁의 매출건수는 점심대비 약 32% 감소하지만 매출금액은 약 32% 상승

자동차판매, 보험의 경우 아침, 점심 시간대가 매출이 높음

유통업영리는 아침시간대에도 2위(의료기관)의 3배에 가까운 매출액을 올리고 있으며, 밤 시간대에도 2위(일반음식)의 4배를 보이고 있음

휴게(주점,스넥 등)은 점심, 저녁이 매출이 높으며, 특히 저녁에 매출(3위)이 상승함

분석 과정

  • STEP
    01
    업종 중분류 통합
    중분류 매출이 400억원 미만인 중분류를 ‘기타’ 중분류와 함께 하나로 통합
    36개의 중분류를 14개로 통합
  • STEP
    02
    대상 고객 선정
    각 중분류별 매출이 평균적으로 비정상적으로 높은 고객 또는 비정상적으로 낮은 고객들을 특이치로 간주함
    이들 특이 고객 약 5%를 군집 분석에서 제외함
  • STEP
    03
    군집 분석
    적정 군집 개수 분석을 통하여, 40개의 군집으로 분석
  • STEP
    04
    군집분석 결과 프로파일링
    군집별 특성 프로파일링
  • 업종 중분류 통합

    업종 중분류 통합 표

    36개의 중분류에서 6개월간 매출 400억원 미만의 22개 중분류와 ‘기타’ 중분류를 ‘기타미분류’로 통합

    자판기 중분류의 경우 데이터가 없어 제외

    레져업소, 보건/위생, 보험, 여행업, 연료판매, 용역서비스, 유통업영리, 음식료품, 의료기관, 의류, 일반음식, 학원, 휴게 13개 중분류는 분석에 그대로 포함하며, ‘기타미분류’를 포함하여 14가지 분류로 분석을 진행

  • 대상 고객 선정

    고객별 매출금액 Top15

    대상고객선정

    1. 고객별로, 중분류별 매출을 0점부터 10점까지 등급으로 표시
    2. 매출 등급의 평균을 계산
    3. 매출 등급의 평균이 6점 초과 또는 1점 이하인 35,181명을 특이 고객으로 간주
    4. 특이 고객들을 제외한 622,856명의 고객(94.7%)에 대해 군집 분석을 실시

    개인별로 매출액이 높은 경우 : 6개월간 매출 10억원 이상을 낸 개인 4명

    총 658,037명의 고객에서 622,856명의 고객(94.7%)을 군집 분석 대상으로 지정

    ※매출액이 평균 수준을 크게 상회하거나, 크게 미달인 개인은 분석에서 제외

  • 데이터 변환

    고객별 소비 현황에 따른 업종별 데이터 변환 표

    고객별 소비 현황을 업종별로 pivoting 진행
    → row : 고객 622,856 명 / col : 고객랜덤번호 포함 중분류 14개

    → 중분류 매출금액으로 군집분석 진행

    최적 군집 개수의 선정

    (왼)군집수에 따른 inertia 변화 그래프, (오)군집별 고객수(Cluster n = 40) 그래프

    군집의 개수가 많을수록 분석의 성능은 더 개선되지만, 군집 수가 너무 많을 경우, 분석의 설명력은 떨어짐

    군집 분석의 적정성은 inertia 값(군집 중심점에서 군집 내 데이터간 거리의 제곱의 합을 계산한 값)이 적은 값일수록 적정한 것으로 평가

    Inertia값은 군집 개수가 증가할수록 감소하므로, inertia의 감소가 완만해지는 개수를 적정 군집 개수로 선정

    40개의 군집 수를 채택하여 분석 진행

    군집별 고객수 & 군집별 합계매출금액

    군집별 고객수 & 합게매출금액 그래프

    군집별 고객수는 0번 군집이 가장 많고, 합계금액은 16번 군집이 가장 많음

    상위 13개의 군집이 고객의 99%, 합계매출금액은 94%를 차지

    고객수 하위 군집 특징

    고객수 하위 군집 업종별 월 평균 사용금액 표

    고객수가 적은 군집의 특성을 살펴보면 특정 업종에서 비정상적으로 많게는 억단위, 적게는 천단위 금액으로 소비금액이 높음

    해당 기간동안 특정 이벤트가 있거나, 개인 카드가 아닌 법인카드 가능성 등으로 군집 분석 보다는 데이터 기반의 개인화를 통한 맞춤형 서비스를 진행하는 것이 효율적으로 보임

    → 고객수 상위 13개의 군집 선정 프로파일링 진행

    고객수 상위 군집 특징

    고객수 상위 13개 군집의 업종별 월 평균매출금액 표

    고객수 상위 13개 군집의 업종별 평균 매출금액을 토대로 군집별 특징 및 네이밍 진행

  • 군집 프로파일링

    군집 프로파일링 데이터 표
    군집 번호 고객 수 (명) 군집 이름 군집 특징
    0 193,697 용돈소비 월 소비금액이 가장 적으며 다른 군집에 비해 생활관련 소비는 낮은 반면 휴게, 레저업조의 소비금액이 높음
    16 139,644 필수소비 월 소비 금액이 낮고 전반적으로 특정 업조으로 편중되지 않음
    14 86,669 균형소비 필수소비와 소비패턴은 유사하지만 월 평균 소비 금액이 높음
    28 75,394 밥먹고 커피도 마시고 일반음식점, 휴게, 레저업소에 비율이 높은 외식형 소비층
    39 43,172 식당보다 유통매장 일반 음식점 소비가 낮은 반면 유통업의 소비가 높은 소비층
    22 23,109 지속치료환자 가구 의료기관의 소비가 월 평균 47만원 수준의 지속적인 치료를 받는 소비층
    27 17,133 유통매장 홀릭 식당보다 유통매장과 소비패턴은 유사하지만 월 평규 소비 금액이 높음
    4 11,084 교육 관심 유톡 학원 업종(대학등록금 포함)의 소비가 가장 높은 소비층
    35 7,781 취미 중심 요리(음식료품), 뷰티(보건/위생), 운동(레저업소) 등 다양한 취미 활동 관련 소비 금액인 높음
    29 6,994 맛집 탐방 압도적으로 음식관련 업종의 소비가 높고 여행, 주유 등의 소비가 높음
    8 5,438 패션, 쇼핑 의류 및 유통업의 소비가 가장 높은 소비층
    30 5,216 용역 서비스 이용 용역 서비스, 보험 등의 소비가 높은 소비층
    38 3,234 집중치료환자 가구 의료기관의 소비가 월 평균 146만원으로 가장 높은 소비층

    군집 별 소비 트렌드

    군집 별 소비 트렌드 그래프
    • 용돈소비 : 유통업과 일반음식의 비중이 높음
    • 필수소비, 균형소비, 식당보다 유통매장, 유통매장 홀릭, 패션/쇼핑 : 유통업 비중이 월등히 높음
    • 밥먹고 커피, 맛집탐방 : 일반음식 비중이 월등히 높음
    • 지속 치료 환자 가구, 집중 치료 환자 가구 : 의료 기관 비중이 높음
    • 교육 관심 : 여행업 비중이 높음
    • 취미 중심 : 기타미분류 비중이 높음
    • 용역 서비스 이용 : 용역서비스 비중이 높음

활용 효과

  • 소비 생활 패턴에 대한
    정책 및 의사 결정 지원
  • 기업의 고객 제공 서비스
    및 혜택 (Benefit) 개선