Skip to content

Woonggss/2019-data-project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 

Repository files navigation

🚴‍♂️ 따릉이 데이터 분석 및 전략 제안

2019년 2학기 교내 수업에서 진행한 term project 입니다. 주제 선정부터 implication까지 데이터 분석 프로젝트의 모든 과정을 수행하였습니다.

1. 주제 선정, 데이터 탐색, 데이터 가공 및 전처리

1.1. 주제 선정

따릉이는 서울시에서 운영하는 무인 공공자전거 대여 서비스입니다. 일상 속에 자리잡은 스마트 모빌리티의 대표적인 사례이며, 이용자 수가 매년 꾸준히 증가해왔습니다.

따릉이의 발전 방향에 대한 implication을 제시한다면, 사회적으로도 유용할 것이라고 생각했습니다. 따라서 "따릉이 이용자 분석을 통한 따릉이의 지속적인 성장 방안 제시"를 주제로 선정하였습니다.

1.2. 데이터 탐색

데이터를 탐색하면서, 분석 주제를 구체화하였습니다. 1.1과 1.2는 순서대로 정확히 나뉜 과정은 아니며, 데이터 분석 기법을 적용할 수 있도록 구체화 될 때까지 두 과정을 반복하였습니다.

따릉이 이용 데이터는 서울 열린데이터광장 에서 내려받아 활용하였습니다.

1.2.1. 현황 조사

데이터 활용 방안을 고안하기 위해, 현황 조사를 하였습니다. 조사에 따르면, 이용 시간대를 기준으로 평일 퇴근 시간대와 휴일 오후 시간대의 이용자가 많았습니다. 따릉이가 통근용으로 많이 활용되고, 또 한강 공원에서의 여가용으로도 활용이 많이 되고 있다고 판단하였습니다.

1.2.2. 분석 대상 및 분석 기법 선정

이에 따라 분석 대상으로 관련 있는 5개의 구(종로구, 중구, 영등포구, 서대문구, 마포구)를 선정하였습니다. 분석 기법은 다음의 두 가지를 채택하였습니다.

  • 따릉이 이용자 건수를 종속 변수로 두고, 여러 독립 변수들과의 관계를 알아보는 회귀 분석
  • 이용자들의 연령대 코드, 이용 건수, 운동량, 탄소량, 이동 거리, 이동 시간를 변수로 하여 clustering 분석

1.3. 데이터 가공 및 전처리

이후에는 각 구에 속한 행정동 별로 데이터를 가공하였으며, 활용 가능한 형태로 전처리하였습니다.

현황 조사(1.2.1) 에 근거해서, 행정동이 속한 5개의 구를 출근 지역과 퇴근 지역으로 나누고, 또 한강 지역과 한강이 없는 지역으로도 나누어 분석하기로 결정하였습니다.

2. 변수 설정

회귀 분석(1.2.2)을 수행하기 위해, 종속 변수인 따릉이 이용자 건수와 연관이 있을 것으로 기대되는 여러 가지 독립 변수를 설정하였습니다. 설정된 독립 변수들은 다음과 같습니다.

image

3. 회귀분석 및 Clustering 분석 해석

회귀 분석과 clustering 분석 결과를 도출하고, 각각 implication까지 제시하였습니다.

3.1. 회귀분석

설정한 변수와 조건을 바탕으로 회귀분석을 수행하였습니다. 데이터 가공 및 전처리(1.3)에서 나눈 기준으로 분석하였습니다. 아래 사진은 결과 슬라이드 중 일부입니다.(여기에서 다른 결과들도 확인할 수 있습니다) VIF를 계산하여 각 모델 내에서의 변수 간 다중공선성(multi-colinearity) 여부를 체크하였습니다.

image image image image

3.2. Clustering 분석

이용자들의 연령대 코드, 이용 건수, 운동량, 탄소량, 이동 거리, 이동 시간를 변수로 하여 clustering 분석을 수행하였습니다. 이후 고객 군집에 맞춘 새로운 마케팅 전략 implication을 제시하였습니다. 아래 사진은 결과 슬라이드 중 일부입니다.(여기에서 다른 결과들도 확인할 수 있습니다)

image image

4. 한계점 및 프로젝트 중 발전 사항

4.1. 한계점

일부 분석에서는 유의미하지 않은 p-value가 나온 변수를 도입하기도 하였습니다. 이는 데이터와 활용 가능한 변수가 부족했기 때문입니다. 최대한 domain knowledge에 부합하게끔 해석하여 보완하였습니다.

4.2. 프로젝트 중 발전 사항

데이터 전처리 시 도출된 단일 변수간의 상관관계와, 모델에서의 계수가 차이가 있었습니다. '1인 가구' 변수의 경우 단일 변수로는 종속변수(따릉이 이용 건수)와 양의 상관관계였지만, 모델에서는 음의 관계를 보였습니다. '주차장' 변수의 경우 종속변수와 상관관계가 낮았지만, 모델에서는 유의미한 변수로 채택되었습니다. 전처리 시에는 case를 나누지 않았지만(출/퇴근 지역, 한강 공원), case를 나눠서 모델을 만드는 과정에서 차이가 생긴 것으로 보였습니다.

이러한 차이를 설명하는 과정에서, 새로운 아이디어를 도출해 낼 수 있었습니다. '1인 가구' 변수의 경우에는 가구의 구성원 수보다는 연령대와 더 관련이 있을 것으로 판단하였습니다. 또한 '주차장'의 경우에는, 추가 조사 결과 기존 가설과는 달리 따릉이가 주말에 한강 공원에서의 여가 목적으로만 활용되지는 않는 것으로 파악하였습니다. 서울 내에 교통체증이 심하여 주차장에 차를 주차하고 따릉이로 약속 장소까지 이동하는 수요가 많다는 사실을 알게 되었습니다.

5. 회고 및 느낀 점

처음으로 수행한 프로젝트였던만큼, 다시 보니 고칠 점들이 여기저기 보여서 아쉽습니다. 데이터 분석 프로젝트의 모든 과정을 경험해 볼 수 있었습니다. 코드를 쳐서 모델을 잘 돌리는 것뿐만 아니라, 결과를 바탕으로 납득할 수 있는 해석을 하고 implication을 제안하는 것도 중요하다고 느꼈습니다. 교수님께서 프로젝트 중 전처리에 90% 이상의 시간이 소요된다고 하셨는데, 그 말씀을 확실하게 알 수 있었습니다. 막연하게만 느껴진 데이터 분야에 대해 구체적으로 알게 되었습니다. 프로젝트 이후에도 세미나에 참여하며 데이터 분야 공부를 지속하였습니다.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published