지역 분석을 통한
지역 활성화 요인 도출 및
활성화 후보 지역 선정
서울지역의 주요 행정동을 분석하여 활성화에 영향을 주는 특징(요인)을 파악하고 도출된 활성화 요인을 기반으로 활성화 후보지를 선정한다.
배경 지역별 균형 있는 발전 유도 필요
상권 영역
행정동별 대중교통 이용 내역
상권 업종별 매출
골목상권업종코드표
행정동별 직장 · 주민등록 · 생활인구
한국행정구역분류표
분석 모델 개발
상관분석
각 변수간 상관성을 확인하기 위해 상관분석을 실시
총 매출액과 높은 상관성을 보이는 요인
음식업소(0.77), 30대 유동인구(0.70), 생활서비스(0.68)
회귀분석
통계 분석 기법 중 하나인 다중 선형 회귀 분석을 적용하여 지역별 매출액에 대한 회귀 모형 도출
단계적 선택법(Stepwise Selection Method)을 적용한 결과, 매출액에 유의미한 변수
부동산 · 생활서비스 · 숙박 · 음식 · 의료 · 학문/교육 업종 선정, 30 · 50대 유동인구 및 상주인구
회귀 모형의 최종 설명력(Adjusted R-Squared)은 82.47%
군집분석
군집분석 중 K-Means Clustering 분석을 진행하기 위해 최적 군집 개수 도출
최적 군집 개수 산출 결과 3개의 군집 개수 도출
K-Means Clustering 분석을 통해, 회귀 모델에서 도출된 주요 인자들에 대한 유사한 특성을 가진 3개의 군집으로 그룹화
A군집 - 홍대 인근, 강남역 인근, 가로수길, 압구정 로데오거리 등
B군집 - 경리단길, 대학로 등
C군집 - 건대입구역 인근, 이태원역 인근 등
선정기준
특성화 거리의 성공사례가 되는 행정동 분석결과, 유사한 특징에 따라 나눈 군집 A와 B가 선정기준
군집 A : 가로수길 (강남구 신사동), 압구정 로데오거리 (강남구 압구정동),
인사동 문화의 거리 및 쌈지길 (종로구 종로1~4가동)
군집 B: 경리단길 (용산구 이태원2동), 대학로 ( 종로구 혜화동)
선정과정
A,B 군집별로 성공 사례의 주요 인자들을 평균 도출
평균과 일치율이 높은 순서대로 우선순위 부여
활성화에 영향 주는 추가 요인 조사결과를 추가 반영 후 최종 선정
대상 지역으로
강동구 길동, 동대문구 회기동 선정
A군집에서 강동구 길동 선정
스포츠 업종을 제외하고 전체적으로 많은 점포 수 보유
인근 천호동 로데오거리로 20대 유동인구 유출
B군집에서 동대문구 회기동 선정
관광, 여가, 오락 및 음식 업종을 제외한 타 업종 점포 수 적음
인근 다수의 학교로 10~20대 유동인구 높음
강동구 길동 :
오락 및 생활서비스업소가 401개로 평균(113개) 대비 3.5배, 50~60대 유동인구는 21,472명으로 평균(9,274명) 대비 2.3배 등
동대문구 회기동 :
오락·관광·음식 관련 업소는 569개로 평균(348개) 대비 1.5배, 그 외 업종은 평균의 0.4~0.8배, 20대 유동인구는 8,328명으로 *평균(4,155명) 대비 2배 등
버스노선 개선 및
추가 필요 대상 지역
선정 토대 마련
지역별 유동인구, 직장인구 등 인구 정보와 버스 승하차 및 운행노선 분석을 통해 버스노선 개선 또는 추가 필요 대상지역을 예측한다.
지역 특성을 고려한 버스노선 개선
버스 승하차 이용 정보
지역별 직장인구
지역별 유동인구
지역별 업종 점포 정보
지역별 주민등록 인구
분석 모델 개발
상관분석
각 변수간 상관성을 확인하기 위해 상관분석을 실시
지역별 버스 노선 수와 높은 상관성을 보이는 요인
버스 이용객 수 (0.76), 외식업 점포 수 (0.55), 소매업 점포 수 (0.54)
회귀분석1
통계 분석 기법 중 다중 선형 회귀 분석을 적용하여 지역별 버스 운행 노선 수에 대한 회귀 모형 도출
단계적 선택법(Stepwise Selection Method)을 적용한 결과, 버스 운행 노선와 유의미한 변수
행정동 면적, 거주인구, 외식업·서비스업·소매업 점포 수, 버스 이용객
회귀 모형의 최종 설명력(Adjusted R-Squared)은 62.912%
회귀분석2
다중 선형 회귀 모형의 가정(선형성, 정규성, 등분산성, 독립성)을 진단하기 위한 확인 결과
① 선형성 ② 잔차의 정규성 ③ 등분산성을 만족 ④ 큰 영향을 주는 관측치 없음
다중 선형 회귀 모형의 가정을 만족하며 다중공선성 또한 발생하지 않음
선정기준
예측 모델의 예측 결과보다 실제 버스 운행 노선수가 가장 많이 부족한 지역
선정과정
다중 회귀 분석을 통한 예측 모델에 현재 버스 운행 노선 데이터를 적용하여 예측 결과와 실제 버스 운행 노선 수를 비교 분석
대상 지역으로
동작구 상도1동 선정
주요 변수인 버스 이용객이 많은 지역(14위)에 속하며, 서울시 행정동 중 거주인구가 많은 지역(6위)에 속함
2018년 서울시 자치구별 교통이용 만족도 통계에서 서대문구 다음으로 가장 만족도가 낮은 자치구(2위)로 선정
공영 주차장 추가 후보지역
선정을 위한 분석
지역별 인구 정보 및 상권 정보와 공영 및 민영 주차장 주차 공간을 분석하여 공영 주차장 추가 입지 후보 지역을 선정한다.
주차 문제 해소를 위한 주차장 추가 필요
서울시 주차장 통계
지역별 직장인구
서울시 공영주차장 정보
지역별 업종 점포 정보
지역별 유동인구
대중교통 이용 정보
지역별 주민등록 인구
분석 모델 개발
상관분석
각 변수간 상관성을 확인하기 위해 상관분석을 실시
지역별 주차공간과 높은 상관성을 보이는 요인
유동인구 (0.85), 서비스업 점포 수 (0.72), 직장인구 (0.67)
회귀분석1
통계 분석 기법 중 다중 선형 회귀 분석을 적용하여 주차면 수에 대한 회귀 모형 도출
단계적 선택법(Stepwise Selection Method)을 적용한 결과 주차면 수에 유의미한 변수
행정동 면적, 유동인구, 거주인구, 직장인구, 외식업 · 서비스업 점포 수
회귀 모형의 최종 설명력(Adjusted R-Squared)은 85.72%
회귀분석2
다중 선형 회귀 모형의 가정(선형성, 정규성, 등분산성, 독립성)을 진단하기 위한 확인 결과
① 선형성 ② 잔차의 정규성 ③ 등분산성 ④ 1개를 제외하고 큰 영향을 주는 관측치 없음
다중 선형 회귀 모형의 가정을 만족하며 다중공선성 또한 발생하지 않음
선정기준
각 주요 요인에 대한 점수 계산을 통해 총 점수가 높은 상위 지역 중 주차 공간이 부족한 지역
선정과정
각 주요 요인에 가중치를 부여한 후 순위에 따른 차등 점수를 계산하여 지역별 총 점수 비교 분석
대상 지역으로
광진구 자양1동 선정
거주인구에 비해 대중교통 이용 인구가 적음
공영주차장 주차 공간이 다른 상위권 지역보다 적음(주차공간 6,727대 중 공영주차장 140대, 민영주차장 6,587대)
지역 특성을 고려한
택배 물량 예측
택배 물량과 지역 특성(인구, 소득, 소비)를 파악하고 이를 기반으로 택배 물량을 예측한다.
사전 물량 예측으로 필요인력 계획하여 업무량 과중 방지
택배 송장 정보
읍면동 소득신용통계정보
읍면동 소비신용통계정보
자택/직장 정보
시간대별 유동인구정보
주민등록인구 및 세대현황
현황분석을 토대로 지역별 특성을 반영한 지역 군집 분석
택배 물량 |
---|
월_평균 |
월_편차 |
월_최소 |
월_최대 |
행정인구 |
---|
총 인구수 |
세대수 |
남자.인구수 |
여자.인구수 |
세대당 인구 |
남녀비율 |
시간대_유동인구 | |
---|---|
00시 유동인구 | 12시 유동인구 |
01시 유동인구 | 13시 유동인구 |
02시 유동인구 | 14시 유동인구 |
03시 유동인구 | 15시 유동인구 |
04시 유동인구 | 16시 유동인구 |
05시 유동인구 | 17시 유동인구 |
06시 유동인구 | 18시 유동인구 |
07시 유동인구 | 19시 유동인구 |
08시 유동인구 | 20시 유동인구 |
09시 유동인구 | 21시 유동인구 |
10시 유동인구 | 22시 유동인구 |
11시 유동인구 | 23시 유동인구 |
자택직장정보 |
---|
직장인구비율 |
자택인구비율 |
성별/연령대별 평균연소득금액 | |||
---|---|---|---|
남성 10대 평균연소득 | 상위소득자 남성 10대 평균연소득 | 남성 10대 평균가구소득 | 남성 10대 중위연소득 |
남성 20대 평균연소득 | 상위소득자 남성 20대 평균연소득 | 남성 20대 평균가구소득 | 남성 20대 중위연소득 |
남성 30대 평균연소득 | 상위소득자 남성 30대 평균연소득 | 남성 30대 평균가구소득 | 남성 30대 중위연소득 |
남성 40대 평균연소득 | 상위소득자 남성 40대 평균연소득 | 남성 40대 평균가구소득 | 남성 40대 중위연소득 |
남성 50대 평균연소득 | 상위소득자 남성 50대 평균연소득 | 남성 50대 평균가구소득 | 남성 50대 중위연소득 |
남성 60대 평균연소득 | 상위소득자 남성 60대 평균연소득 | 남성 60대 평균가구소득 | 남성 60대 중위연소득 |
여성 10대 평균연소득 | 상위소득자 여성 10대 평균연소득 | 여성 10대 평균가구소득 | 여성 10대 중위연소득 |
여성 20대 평균연소득 | 상위소득자 여성 20대 평균연소득 | 여성 20대 평균가구소득 | 여성 20대 중위연소득 |
여성 30대 평균연소득 | 상위소득자 여성 30대 평균연소득 | 여성 30대 평균가구소득 | 여성 30대 중위연소득 |
여성 40대 평균연소득 | 상위소득자 여성 40대 평균연소득 | 여성 40대 평균가구소득 | 여성 40대 중위연소득 |
여성 50대 평균연소득 | 상위소득자 여성 50대 평균연소득 | 여성 50대 평균가구소득 | 여성 50대 중위연소득 |
여성 60대 평균연소득 | 상위소득자 여성 60대 평균연소득 | 여성 60대 평균가구소득 | 여성 60대 중위연소득 |
성별/연령별 평균소비금액 |
---|
남성 10대 평균 3개월 카드이용금액 |
남성 20대 평균 3개월 카드이용금액 |
남성 30대 평균 3개월 카드이용금액 |
남성 40대 평균 3개월 카드이용금액 |
남성 50대 평균 3개월 카드이용금액 |
남성 60대 평균 3개월 카드이용금액 |
여성 10대 평균 3개월 카드이용금액 |
여성 20대 평균 3개월 카드이용금액 |
여성 30대 평균 3개월 카드이용금액 |
여성 40대 평균 3개월 카드이용금액 |
여성 50대 평균 3개월 카드이용금액 |
여성 60대 평균 3개월 카드이용금액 |
현황분석을 통해 군집분석에 사용하기 위해 지역변수 96개 정의
(택배정보, 행정인구정보, 시간대별 유동인구정보, 자택직장정보, 성별/연령별 평균연소득과 평균소비금액)
Elbow Method 최적 군집 개수 계산 결과 최적 군집수는 3~4개로 확인되나 더 세분화를 시도
최종 군집수 11개로 선택
1군집의 물량합계 비율은 전체 중 37%,
7군집의 물량합계 비율은 전체 중 29% 로
전체물량의 66%를 차지하여 비중이 매우 높다.
2개 군집은 다음과 같은 특징을 지닌다.
① 여성 비율이 높음
② 해당 지역에 직장을 가지고 있는 비율이 높음
③ 평균 소득/소비가 높음
월 평균 택배 물량과 거주인구가 가장 많다.
직장과 자택인구 비율이 둘 다 매우 높고,
일반주택 등이 밀집되어 있는 지역으로 분석됨
직장인구 비율이 가장 높고, 출퇴근시간대
유동인구가 변화가 크다. 자택인구비율이
1군집에 비해 상대적으로 적어 고층빌딩과
아파트가 밀집되어 있는 지역으로 분석됨
상관분석
일일 전체 합계물량 600만 이상인 일자를 분석한 결과 추석/설날/개학(개강)/어린이날/월초 의 경우 택배물량에 큰 영향을 끼침
2019년 설날(2/4(월)~2/6(수)) 과 추석(9/12(목)~9/14(토))은 평일이 많아 휴일이 길어졌고, 연휴가 끝난 직후에 접수가 몰림. 특히 추석직후에 물량이 가장 높은 것으로 나타남
월 단위로 봤을 때 월초에 물량이 많고 월말에 물량이 줄어드는 추세가 있음
군집별 택배 배달물량 회귀분석
데이터를 결합한 후 학습용(2019.01~2019.10)/테스트용(2019.11~2019.12)으로 분리하여 모델링
독립변수로 날짜정보, 택배물량 정보, 그리고 지역별 인구변화율평균(아침·점심·저녁·새벽) 정보를 사용
다중 선형 회귀 분석을 적용하여 군집별 택배물량 예측 모델 생성하고 단계적 선택법(Stepwise Selection Method)을 적용하여 정 영향을 받는 최적화된 설명변수를 도출함
순위 | 군직번호 | 군집명 | 예측 정확도(군집) | 정확도 1순위 지역 | 일자별 평균물량 | 예측 정확도(지역) |
---|---|---|---|---|---|---|
1 | 7 | 고층 빌딩, 아파트 숲 | 91.8% | 경남 창원시 마산회원구 내서읍 | 4755 | 93.4% |
2 | 1 | 주거인구밀집지역 | 90.4% | 부산광역시 해운대구 반여동 | 6112 | 94.0% |
3 | 4 | 주거형 번화가 | 90.0% | 서울특별시 동작구 흑석동 | 2319 | 92.9% |
4 | 9 | 베드타운 | 87.5% | 인천광역시 연수구 선학동 | 1312 | 92.4% |
5 | 10 | 구도심 생활지역 | 83.7% | 경기도 양평균 서종면 | 640 | 90.6% |
6 | 5 | 대형전통시장 | 81.2% | 강원도 삼척시 근덕면 | 252 | 89.2% |
7 | 2 | 대학교 인접 지역 | 79.8% | 서울특별시 구로구 온수동 | 517 | 84.0% |
8 | 5 | 저가구수·고연령층 지역 | 78.5% | 전라남도 광양지 진월면 | 99 | 88.0% |
9 | 11 | 지역 산업 | 75.2% | 전라북도 정읍시 하복동 | 60 | 85.4% |
10 | 3 | 쇼핑상가 인접지역 | 73.0% | 서울특별시 중구 광화동1가 | 552 | 82.6% |
11 | 8 | 직장 밀집·비거주 지역 | 67.3% | 경상남도 김해시 상동면 | 230 | 75.5% |
요일 | 정확도 평균 | 정확도 편차 |
---|---|---|
월요일 | 70.0% | 11.5% |
화요일 | 90.3% | 4.8% |
수요일 | 90.0% | 5.7% |
목요일 | 83.6% | 8.6% |
금요일 | 90.5% | 4.6% |
월요일이 오차율이 가장 크고, 오차율의 편차도 11.5 %로 가장 높음
예측기간에 대한 학습이 부족하여 11월 중순 ~ 12월 중순 사이에 월요일 물량 오차가 크게 발생
일일 평균물량이 많을수록 안정적이고 높은 정확도를 보임
1, 4, 7번 군집은 물량에 관계없이 편차가 적고 높은 정확도를 유지함
2020년 택배물량은 어떻게 변할까?
2019 대비 2020년 물량은 약 11.3% 증가할 것으로 예상되며, 2019년 일자별 전체 택배물량에 적용했을 때 2020년 일일 물량 600만 이상 물량이 발생하는 일자가 3배 이상 발생할 가능성이 있음
특히 추석 이후 월요일 물량이 급증할 것으로 예상되어 각별한 인력관리가 필요함
2015년부터 택배기사 1인당 일일 평균 배달물량은 지속적으로 증가하였고, 매년 평균 33.76개 씩 배달물량이 증가
2020년 택배기사 1인당 평균 일일배달물량은 약 298개로 이런 추세로 2021년 약 332개까지 증가할 것으로 예상됨
카드 고객 군집 분석
고객 소비 데이터 분석을 통해 고객들의 소비 경향 분석
새로운 소비 인사이트 탐색 필요
데이터 소개 : 업종, 시간대별 소비 경로에 대한 정보
데이터 기간 : 2019년 7월초 ~ 12월말
분석 대상 : 데이터 사용 기간 중 결제건수 184건 이상 294건 이하에 해당하는 고객 (약 65만명 대상, 약 1억5천 Rows)
(1) 184건 : 1일 1건 이상 사용 가정
(2) 294건 : 전체 데이터의 3σ(시그마) 이내로 제한(※3시그마를 사용하는 것은 데이터의 99.73%가 3시그마 내에 있고 3시그마 밖에 있을 확률이 약 0.3%밖에 되지 않아 통계적으로 의미 있다고 약속을 하여 사용하는 것)
업종 중분류 통합
36개의 중분류에서 6개월간 매출 400억원 미만의 22개 중분류와 ‘기타’ 중분류를 ‘기타미분류’로 통합
자판기 중분류의 경우 데이터가 없어 제외
레져업소, 보건/위생, 보험, 여행업, 연료판매, 용역서비스, 유통업영리, 음식료품, 의료기관, 의류, 일반음식, 학원, 휴게 13개 중분류는 분석에 그대로 포함하며, ‘기타미분류’를 포함하여 14가지 분류로 분석을 진행
대상 고객 선정
대상고객선정
개인별로 매출액이 높은 경우 : 6개월간 매출 10억원 이상을 낸 개인 4명
총 658,037명의 고객에서 622,856명의 고객(94.7%)을 군집 분석 대상으로 지정
※매출액이 평균 수준을 크게 상회하거나, 크게 미달인 개인은 분석에서 제외
데이터 변환
고객별 소비 현황을 업종별로 pivoting 진행
→ row : 고객 622,856 명 / col : 고객랜덤번호 포함 중분류 14개
→ 중분류 매출금액으로 군집분석 진행
최적 군집 개수의 선정
군집의 개수가 많을수록 분석의 성능은 더 개선되지만, 군집 수가 너무 많을 경우, 분석의 설명력은 떨어짐
군집 분석의 적정성은 inertia 값(군집 중심점에서 군집 내 데이터간 거리의 제곱의 합을 계산한 값)이 적은 값일수록 적정한 것으로 평가
Inertia값은 군집 개수가 증가할수록 감소하므로, inertia의 감소가 완만해지는 개수를 적정 군집 개수로 선정
40개의 군집 수를 채택하여 분석 진행
군집별 고객수 & 군집별 합계매출금액
군집별 고객수는 0번 군집이 가장 많고, 합계금액은 16번 군집이 가장 많음
상위 13개의 군집이 고객의 99%, 합계매출금액은 94%를 차지
고객수 하위 군집 특징
고객수가 적은 군집의 특성을 살펴보면 특정 업종에서 비정상적으로 많게는 억단위, 적게는 천단위 금액으로 소비금액이 높음
해당 기간동안 특정 이벤트가 있거나, 개인 카드가 아닌 법인카드 가능성 등으로 군집 분석 보다는 데이터 기반의 개인화를 통한 맞춤형 서비스를 진행하는 것이 효율적으로 보임
→ 고객수 상위 13개의 군집 선정 프로파일링 진행
고객수 상위 군집 특징
고객수 상위 13개 군집의 업종별 평균 매출금액을 토대로 군집별 특징 및 네이밍 진행
군집 프로파일링
군집 번호 | 고객 수 (명) | 군집 이름 | 군집 특징 |
---|---|---|---|
0 | 193,697 | 용돈소비 | 월 소비금액이 가장 적으며 다른 군집에 비해 생활관련 소비는 낮은 반면 휴게, 레저업조의 소비금액이 높음 |
16 | 139,644 | 필수소비 | 월 소비 금액이 낮고 전반적으로 특정 업조으로 편중되지 않음 |
14 | 86,669 | 균형소비 | 필수소비와 소비패턴은 유사하지만 월 평균 소비 금액이 높음 |
28 | 75,394 | 밥먹고 커피도 마시고 | 일반음식점, 휴게, 레저업소에 비율이 높은 외식형 소비층 |
39 | 43,172 | 식당보다 유통매장 | 일반 음식점 소비가 낮은 반면 유통업의 소비가 높은 소비층 |
22 | 23,109 | 지속치료환자 가구 | 의료기관의 소비가 월 평균 47만원 수준의 지속적인 치료를 받는 소비층 |
27 | 17,133 | 유통매장 홀릭 | 식당보다 유통매장과 소비패턴은 유사하지만 월 평규 소비 금액이 높음 |
4 | 11,084 | 교육 관심 | 유톡 학원 업종(대학등록금 포함)의 소비가 가장 높은 소비층 |
35 | 7,781 | 취미 중심 | 요리(음식료품), 뷰티(보건/위생), 운동(레저업소) 등 다양한 취미 활동 관련 소비 금액인 높음 |
29 | 6,994 | 맛집 탐방 | 압도적으로 음식관련 업종의 소비가 높고 여행, 주유 등의 소비가 높음 |
8 | 5,438 | 패션, 쇼핑 | 의류 및 유통업의 소비가 가장 높은 소비층 |
30 | 5,216 | 용역 서비스 이용 | 용역 서비스, 보험 등의 소비가 높은 소비층 |
38 | 3,234 | 집중치료환자 가구 | 의료기관의 소비가 월 평균 146만원으로 가장 높은 소비층 |
군집 별 소비 트렌드