Top 12 지하철 데이터 분석 Quick Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 지하철 데이터 분석 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://toplist.pilgrimjournalist.com team, along with other related topics such as: 지하철 데이터 분석 지하철 승하차 데이터 분석, 파이썬 지하철 데이터 분석, 지하철 빅데이터, 데이터 분석 프로젝트, 파이썬 데이터분석 프로젝트, 지하철 공공데이터, 지하철 시간대별 혼잡도, 파이썬 데이터 분석 프로젝트 주제

3-5 지하철데이터 1

Table of Contents

도시의 동맥, 지하철을 진단하자! 수도권 고령자/청소년 지하철 이용 패턴 분석 – DACON

Article author: dacon.io
Reviews from users: 5047 Ratings
Top rated: 4.1
Lowest rated: 1
Summary of article content: Articles about 도시의 동맥, 지하철을 진단하자! 수도권 고령자/청소년 지하철 이용 패턴 분석 – DACON 따라서 저희는 수도권 전철에 대한 포괄적인 분석을 위해 “한국교통안전공단 교통카드 데이터”를 사용하여 COVID19 확산 전후의 지하철 이용 패턴을 분석하였습니다. 특히 … …
Most searched keywords: Whether you are looking for 도시의 동맥, 지하철을 진단하자! 수도권 고령자/청소년 지하철 이용 패턴 분석 – DACON 따라서 저희는 수도권 전철에 대한 포괄적인 분석을 위해 “한국교통안전공단 교통카드 데이터”를 사용하여 COVID19 확산 전후의 지하철 이용 패턴을 분석하였습니다. 특히 … Data Science Competition, datavisualization, DataScience, DataAnalyst, DataEngineer, DataScientist, MachineLearning, deeplearning, 데이터분석, 인공지능, 머신러닝, 딥러닝, 파이썬, 코드, 공유, AI, python, 통계, 수학, 경진대회국토교통부 | 빅데이터 | 포스트코로나 | 시각화 | 투표 및 심사평가
Table of Contents:

Article author: jerrys-ai-lab.tistory.com
Reviews from users: 43381 Ratings
Top rated: 3.1
Lowest rated: 1
Summary of article content: Articles about [ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1 이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 … …
Most searched keywords: Whether you are looking for [ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1 이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 … 기억보단 기록을
-향로-
Table of Contents:

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 - 1 — [ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1

Article author: dataonair.or.kr
Reviews from users: 36579 Ratings
Top rated: 3.9
Lowest rated: 1
Summary of article content: Articles about 7. 지하철 승하차 데이터 분석 따라하기_1 – DATA ON-AIR 누구나 쉽게 따라하는 데이터 분석. 7. 지하철 승하차 데이터 분석 따라하기_1. 관리자. Author: 관리자. 조회수: 1,540. 2020 데이터산업 백서 · 6. 데이터 정제 기법 … …
Most searched keywords: Whether you are looking for 7. 지하철 승하차 데이터 분석 따라하기_1 – DATA ON-AIR 누구나 쉽게 따라하는 데이터 분석. 7. 지하철 승하차 데이터 분석 따라하기_1. 관리자. Author: 관리자. 조회수: 1,540. 2020 데이터산업 백서 · 6. 데이터 정제 기법 …
Table of Contents:

7. 지하철 승하차 데이터 분석 따라하기_1 – DATA ON-AIR

Article author: steadiness-193.tistory.com
Reviews from users: 16197 Ratings
Top rated: 3.1
Lowest rated: 1
Summary of article content: Articles about 판다스 – 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 우선 1월의 데이터프레임을 맛보기로 봐보자. 우선 고려해야할 것은 사용일자 컬럼이다. 이 컬럼은 날짜를 나타내고, 숫자형으로 등록되어 있다. …
Most searched keywords: Whether you are looking for 판다스 – 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 우선 1월의 데이터프레임을 맛보기로 봐보자. 우선 고려해야할 것은 사용일자 컬럼이다. 이 컬럼은 날짜를 나타내고, 숫자형으로 등록되어 있다. 데이터 출처 https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do 서울시 지하철호선별 역별 승하차 인원 정보 데이터 이용하기-서울시 지하철호선별 역별 승하차 인원 정보 data.seoul.go.kr 1. 데이..
Table of Contents:

판다스 - 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리 — 판다스 – 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리

Article author: brunch.co.kr
Reviews from users: 15589 Ratings
Top rated: 3.7
Lowest rated: 1
Summary of article content: Articles about [월간 데이터 분석] 지하철 앉아서 가고 싶다!! 그리하여 처음 시도하는 월간 데이터 분석 첫 주제는 ‘지하철은 언제 어디서 사람이 많이 탈까’입니다. 이 주제를 생각한 계기는 학교 1교시 수업이 … …
Most searched keywords: Whether you are looking for [월간 데이터 분석] 지하철 앉아서 가고 싶다!! 그리하여 처음 시도하는 월간 데이터 분석 첫 주제는 ‘지하철은 언제 어디서 사람이 많이 탈까’입니다. 이 주제를 생각한 계기는 학교 1교시 수업이 … 3월호 | 안녕하세요 월간 데이터 분석 3월호를 가지고 왔습니다. 자체적으로 프로젝트라면 프로젝트를 매달 하려고 하니 학교 일정도 바쁘고 따로 하는 공부들도 있으니 내심 부담이 되었습니다. 그래도 계획하기를 정말 어려운 프로젝트를 하는 것이 아니라 통계기법, 머신러닝 기법 하나도 안 쓰더라도 해결하고자 하는 문제를 찾고 데이터를 구하고 분석해서 마지막에 해결책이나 방
Table of Contents:

Article author: smartreporter3.tistory.com
Reviews from users: 4926 Ratings
Top rated: 4.3
Lowest rated: 1
Summary of article content: Articles about [Python] 파이썬을 이용한 공공 데이터 분석 및 활용(2) 이번 프로젝트에서는 서울 열린 데이터 광장에서 제공하는 서울시 지하철 호선별 역별 승하차 인원 정보 데이터를 분석하고 지하철 역 위치 좌표 … …
Most searched keywords: Whether you are looking for [Python] 파이썬을 이용한 공공 데이터 분석 및 활용(2) 이번 프로젝트에서는 서울 열린 데이터 광장에서 제공하는 서울시 지하철 호선별 역별 승하차 인원 정보 데이터를 분석하고 지하철 역 위치 좌표 … **본 내용은 Alice 의 데이터 분석을 위한 라이브러리 과정을 수강하면서 , 직접 궁금한 것을 찾아보고 공부하며 정리한 내용임을 밝힙니다. 앞번 포스팅이 너무 지저분 하여서.. 출처를 명시했으니 좀더 깔끔하게..
Table of Contents:

프로젝트2 지하철_승하차_인원_분석_프로젝트

3 데이터 시각화

공지사항

최근글

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석

제리

2021년 1학기에 진행한 프로젝트인데, 그동안 다사다난하여 이제야 프로젝트 로그를 적는다.

이 프로젝트는 학교 기말과제로 제출하였고, 제목에도 있듯이 ‘빅데이터의 이해’라는 과목이었다.

해당 기말과제는 자유로운 주제로 데이터를 분석하는 것이었다.

단, 공공데이터를 이용해야 된다.

이 과목은 프로그래밍 언어를 가르치는 것은 아니다.

주로 빅데이터 이론에 대해서 배웠고, 분석 방법도 이론만 배웠다.

교양 과목이었지만, python 언어를 활용할 수 있기 때문에

다른 수강생들과 차이점을 두기 위해 python을 이용해서 분석하기로 마음을 먹었다.

참고문헌 포함하여 10페이지 안으로 보고서를 작성해야 되기 때문에

많은 내용을 담지는 못하지만, 대충 하는 성격은 못되어서 보고서에 담지 못한 내용까지 포함하여

블로그에 정리를 하려고 한다.

결과부터 말하자면 기말과제는 만점을 받았고, 학점은 A+을 받았다.

보고서에 적은 순서로 포스팅을 할 예정이다.

1. Project 목적

2. 배경 및 필요성

3. 데이터 수집 및 전처리

4. 데이터 분석

5. 결론

언어 : Python

사용 라이브러리 : pandas, folium, googlemaps

# 필요 라이브러리 import import pandas as pd import folium import folium.plugins as plugins import googlemaps

참고로 해당 프로젝트는 2021년 6~7월에 진행한 것이라서 지금이랑 코로나 상황이 많이 다르다.

500~1500명 정도로 지금보다는 확연히 적은 수이지만, 물론 이때도 심각하였고 거리두기를 강화해서 저녁 10시 제한이 걸려있는 상황이다.
[ Project 목적 ]
중학생 때부터 지겹도록 서울 지하철을 많이 타고 다녔다. 물론 지금도 지겹도록 타고 있다.

아침 출근시간, 저녁 퇴근시간을 보면 유동인구가 많은 역에는 역무원들이 추가로 배치되어 있는 것을 볼 수 있다.

구토나 음식물로 인하여 전철이 오염되거나 갑작스러운 상황을 미리 대비하기 위해 적은 직원들을 효율적으로 배치하고 집중 분배를 시킬 필요가 있다.

집중분배를 하기 위해 승·하차 인원 정보 데이터를 이용하여 언제, 어디에 사람들이 제일 많이 모이는지 확인한다.

특히 거리두기 강화로 저녁 10시에 승·하차인원이 급증하게 되는데 이때 어느 지하철역의 사람이 제일 많이 모이는지 확인한다.

이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 수 있도록 도움을 주고자 한다.

(물론, 이미 데이터 분석을 통해서 효율적으로 배치하고 있을 것이다.)
[ Project 배경 및 필요성 ]
옛날에도 자주 겪었고, 최근에 또 겪었던 일이 있다.

학교를 다닐 때 지하철 마지막 차를 많이 탔었는데 술을 먹고 타는 사람들이 굉장히 많았다.

그래서 마지막 차를 타면 높은 확률로 구토를 자주 본다.🤮🤮

이제는 사회적 거리두기 강화로 인하여 저녁 10시가 되면 식당 문을 닫아서 저녁 10시까지 빠르게 먹고 지하철을 타는 사람들이 많다. (이때는 저녁 10시였다.)

마지막 차처럼 술에 취한 사람도 많지만, 사람도 많아서 구토를 발견하면 너무 큰 피해를 준다.

지하철 안에서 구토를 하거나 음식물을 흘린 사람들은 휴지 같은 닦을 것이 없어서 못 치워서 주변 사람들에게 휴지가 있는지 물어봐서 치우는 게 정상이지만, 대부분은 다른 칸으로 가던가 그냥 나가버린다.

객실 내부의 청소는 보통 종착역에 도착했을 때 하기 때문에, 종착역 도착하기 전에 오염이 되면 좌석에 앉지도 못하고 냄새로 인하여 주변에 여러모로 피해가 많기 때문에 신속한 처리가 필요하다고 본다.

목적에도 말하였듯이 출퇴근 시간에 사람들이 많이 몰리는 지하철역에는 직원이 앞뒤로 1명씩 배치가 되어있는 것을 종종 본다. 하지만, 그렇지 않은 역이 대부분이고 지하철 운행하는 기관사분이 마이크를 통해 말을 하여도 통제가 전혀 되지 않는다. 이러면 다음 열차부터 계속 지연되어서 몇 백에서 몇 천이 피해를 보는 것이다.

이런 피해를 자주 당해서 언제 어디에 승객들이 많이 몰리는지 알려주어야겠다는 필요성을 느꼈다.

해결하기 위해서 직원을 더 뽑는 방안도 있다.

하지만 2021년 코로나19와 우대권 등의 관한 문제로 인하여 서울교통공사의 예상 적자가 1조 넘게 발생하였고, 적자는 점점 늘어나고 있다.

관련 뉴스 : https://www.news1.kr/articles/?4332941

큰 폭으로 적자가 증가하고 있다.

덩달이 직원도 감축하기 때문에 더 채용하거나 근무시간을 늘리는 것은 불가능하다.

그래서 남은 직원을 이용하여 효율적으로 운영시키는 것이 필요하다.

이것에 대해서 여러 조사를 하다가 서울교통공사가 적자라는 것에 대해 크게 와닿은 영상이 있었다.

인형을 팔았다는 사실을 이 영상 보고 알았지만, 적자가 심각하다는 것을 각인시킨 영상이었다.
[ 데이터 수집 및 전처리 ]
데이터 수집

데이터는 [서울시 지하철 호선별 역별 시간대별 승·하차 인원 정보]를 이용하였고, [서울 열린 데이터 광장]에서 수집하였다.

이 데이터는 티머니로부터 제공받았다고 한다.

http://data.seoul.go.kr/dataList/OA-12252/S/1/datasetView.do

2015.01부터 2021.05까지의 승·하차 인원 수가 적혀 있는 데이터이다.

데이터는 정형 데이터로 되어있고, 속성은 [사용 월, 호선명, 지하철역, 시간별 승·하차인원]으로 총 52개로 구성되어있다.

# 승하차 인원정보 (2021.05~2015.01) station_people = pd.read_csv(‘서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv’,encoding=’EUC-KR’) # info station_people.info()

컬럼이 너무 많아서 짤렸지만 03시~04시까지 있다.

# size station_people.shape

행은 44730개가 있고 총 52개의 열로 구성되어있다.

데이터 전처리 1 – 지하철역 위치

역 위치를 파악하여 지도를 통해 시각화를 하기 위해 folium라이브러리를 사용하였고, 지하철역 위경도를 뽑기 위해 googlemaps 라이브러리를 사용했다.

후에 설명을 하겠지만, 이런 식으로 시각화를 도와주는 라이브러리들이다.

시각화를 위해서는 우선적으로 지하철역의 위경도를 알아야 한다.

해당 데이터셋에 위경도 관련 정보를 없기 때문에 위경도가 있는 데이터셋을 찾아보려고 했으나, 마땅한 데이터가 없어서 포기하고 googlemaps 라이브러리를 이용해 위경도를 추가하였다.

※ 관련 내용은 밑 블로그 게시글을 참고

https://eunjin3786.tistory.com/304

# data read address_station = pd.read_csv(‘서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv’,encoding=’EUC-KR’) # 호선명이랑 지하철 역 정보만 추출 address_station=address_station.loc[address_station[‘사용월’]==202105,:] address_station=address_station[[‘호선명’,’지하철역’]]
서울 지하철역이 새로 생기는 것도 있고, 없어지는 것도 있기 때문에 제일 최근 값인 21년 5월에 승·하차 데이터가 발생한 지하철역을 가지고 왔다.

호선명은 역 이름이 같은 경우 구분하기 위해서 가져왔다. (양평 – 중앙선, 5호선)

# 정확한 위도와 경도를 얻기위해 역 추가 for i in address_station.index: station=”.join(list(address_station.loc[i,[‘지하철역’]])) if station[-1] != ‘역’: address_station.loc[i,[‘지하철역’]] = station+’역’

구글맵에서 위경도 값을 가져오기 때문에 검색을 위해서 정확한 지하철역 이름으로 했다.

my_key = “******************************************” maps = googlemaps.Client(key=my_key) lat = [] #위도 lng = [] #경도 # 위치를 찾을 장소나 주소를 넣어준다. places = list(address_station[‘지하철역’]) i=0 for place in places: i = i + 1 try: geo_location = maps.geocode(place)[0].get(‘geometry’) lat.append(geo_location[‘location’][‘lat’]) lng.append(geo_location[‘location’][‘lng’]) except: lat.append(”) lng.append(”) print(“%d번 인덱스 위치를 찾는데 실패했습니다.”%(i)) # 데이터프레임만들어 출력하기 df = pd.DataFrame({‘위도’:lat, ‘경도’:lng}, index=places) print(df)

위 코드 결과

208번 인덱스를 제외하고 나머지의 위·경도는 잘 찾은 모습이다.

address_station[‘위도’]=lat address_station[‘경도’]=lng # 동일한 역 처리 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’5호선’),[‘위도’]]= 37.526226 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’5호선’),[‘경도’]]= 126.8844202 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’중앙선’),[‘위도’]]= 37.4927357 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’중앙선’),[‘경도’]]= 127.4896358 # 위도 경도 못찾는 역 삽입 address_station.loc[(address_station[‘지하철역’]==’증산(명지대앞)역’),[‘위도’]]= 37.5819884 address_station.loc[(address_station[‘지하철역’]==’증산(명지대앞)역’),[‘경도’]]= 126.9101305

이름이 동일한 역의 위·경도를 수정하고 208번 인덱스(‘증산(명지대앞)역’) 위·경도를 추가했다.

# 서울시 중심부의 위도, 경도 입니다. center = [37.541, 126.986] # 맵이 center 에 위치하고, zoom 레벨은 11로 시작하는 맵 m을 만듭니다. m = folium.Map(location=center, zoom_start=10) # 컬러 딕셔너리 (6호선 색깔이 없어서 검정으로 대체) c_dic = {‘1호선’:’darkblue’,’2호선’:’green’,’3호선’:’orange’,’4호선’:’lightblue’,’5호선’:’darkpurple’,’6호선’:’black’,’7호선’:’darkgreen’,’8호선’:’pink’,’9호선’:’beige’,’중앙선’:’blue’, ‘9호선2~3단계’:’beige’,’경강선’:’cadetblue’,’경부선’:’cadetblue’,’경원선’:’cadetblue’,’경의선’:’cadetblue’,’경인선’:’cadetblue’,’경춘선’:’blue’,’공항철도 1호선’:’cadetblue’,’과천선’:’cadetblue’,’분당선’:’lightred’ ,’수인선’:’lightred’,’안산선’:’red’,’우이신설선’:’cadetblue’,’일산선’:’red’,’장항선’:’cadetblue’} # Choropleth 레이어를 만들고, 맵 m에 추가합니다. for i in address_station.index: folium.Marker( location = list(address_station.loc[i,[‘위도’, ‘경도’]]), popup = address_station.loc[i, ‘지하철역’], icon=folium.Icon(color=c_dic[address_station.loc[i, ‘호선명’]],icon=’star’) ).add_to(m) # 맵 m을 저장 m.save(‘map.html’)

folium 라이브러리를 이용해서 지하철역마다 위·경도가 제대로 들어갔는지 확인했다.

호선 색깔을 최대한 현실 반영해서 만들었다.

지하철역위치.html 0.61MB

결괏값은 이런 식으로 나오고 확대·축소도 가능하다.

서울 지하철이 얼마나 많은지 한눈에 확인이 가능하다.

앞으로 위·경도 정보는 시각화할 때마다 사용하기 때문에 저장

# csv 저장 address_station.to_csv(“서울교통공사_역주소_위경도.csv”,index=False)

데이터 전처리 2 – 날짜 지정

해당 데이터는 2015.01부터 2021.05까지의 승하차 인원수가 있다.

그래서 코로나 상황이랑 그전에 있었던 상황이 많이 다르기 때문에,

코로나가 급격히 유행이 되면서 사회적 거리두기가 2단계로 격상된 2020년 8월부터 2021년 5월까지의 데이터만 가지고 왔다.

# 2020.08 그 전 데이터는 제외 for i in station_people.index: if int(station_people.loc[i,[‘사용월’]])==202007: break station_people = station_people.loc[:6041,:] station_people.shape # csv 저장 station_people.to_csv(“서울시 지하철 호선별 역별 시간대별 승하차 인원 정보_202008까지.csv”,index=False)

공공데이터라서 null값도 없고, 정형이기 때문에 전처리는 여기까지 했다.

이제 승차인원이 많은 곳은 어디인지, 하차인원이 많은 곳은 어디인지, 시각화를 통해서 분석을 할 예정이다.

다음 포스팅에서 이어짐..

판다스 – 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리

반응형

데이터 출처

https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do

1. 데이터 불러오기

위의 2020년 1월부터 5월까지의 csv 파일을 subway 폴더에 저장해서

glob를 이용해 불러온다.

https://steadiness-193.tistory.com/27

우선 1월의 데이터프레임을 맛보기로 봐보자

우선 고려해야할 것은 사용일자 컬럼 이다.

이 컬럼은 날짜를 나타내고, 숫자형으로 등록되어 있다.

따라서 데이터를 불러올 때 parse_dates를 이용하는 것이 좋아보인다.

2. 데이터 합치기

이제 for loop를 이용해 리스트에 데이터프레임을 쌓고

concat을 이용해 합치면 된다.

단, csv 인코딩 문제가 있어서

불러올 때 encoding 파라미터를 이용해야, 글자의 깨짐이 없고 문제 없이 불러올 수 있다.

** 5월의 csv 파일은 utf-8로 해야 읽힌다.

encoding에 넣을 만한 코드는 아래와 같다.

euc-kr, cp949, latin_1, utf-8, utf-16

이제 df_list를 concat해주자

기존 인덱스가 유지되어 합쳐졌으니

인덱스를 초기화 해주자

3. 데이터 살펴보기

이제 이 데이터프레임의 정보를 살펴보면

총 6개의 컬럼이 있고, 사용일자는 datetime으로 잘 불려왔다.

누락값이 있지는 않은지 확인해보자

다행히 누락값은 없다.

4. 불필요한 컬럼 삭제 및 연/월/일 컬럼 추가

사실 등록일자 컬럼은 필요가 없으니 삭제하고

사용일자의 컬럼에서 연, 월, 일을 얻어 하나씩 컬럼을 추가해보자

https://steadiness-193.tistory.com/60

dt 연산자에 대한 내용은 위 포스팅 참조

마지막으로 한번 더 각 컬럼의 유형을 보면

연, 월, 일 컬럼이 정수형으로 잘 추가되었다.

5. 분석에 이용할 총 승객수 컬럼 추가

승차총승객수와 하차총승객수를 합친 total 컬럼을 추가했다.

반응형

[월간 데이터 분석] 지하철 앉아서 가고 싶다!!

안녕하세요 월간 데이터 분석 3월호를 가지고 왔습니다.

자체적으로 프로젝트라면 프로젝트를 매달 하려고 하니 학교 일정도 바쁘고 따로 하는 공부들도 있으니 내심 부담이 되었습니다. 그래도 계획하기를 정말 어려운 프로젝트를 하는 것이 아니라 통계기법, 머신러닝 기법 하나도 안 쓰더라도 해결하고자 하는 문제를 찾고 데이터를 구하고 분석해서 마지막에 해결책이나 방향성을 제시하는 과정을 매달 하자는 생각이었기 때문에 조금은 덜 부담 느끼면서 진행했던 것 같습니다.

그리하여 처음 시도하는 월간 데이터 분석 첫 주제는 ‘지하철은 언제 어디서 사람이 많이 탈까’입니다. 이 주제를 생각한 계기는 학교 1교시 수업이 많다 보니 운 좋게 앉을자리를 구하면 부족한 잠을 보충하거나 다른 것을 할 수 있는데 서서 가면 아침부터 벌써 힘들고 사람들이랑 계속 부딪히기 때문입니다. 사실 이 문제에는 정답이 이미 있습니다. 조금이라도 일찍 지하철을 타면 됩니다. 진짜 조금 일찍 타면 줄을 먼저 설 수 있고, 지하철 단위에서 일찍 타면 출퇴근 시간대라는 가정 하에 당연히 앞에 차일수록 탄 사람이 적겠죠. 하지만 한 수업 시간에 데이터 사이언티스트로 현업에 계시면서 금요일 저녁 강의를 하시던 교수님 얘기가 떠올랐습니다. 교수님께서 한 번은 비 오는 날과 카페 방문 횟수와의 상관성을 조사했는데, 비가 오는 날에 사람들이 카페를 덜 이용했다는 결과가 나왔다고 합니다. 그랬더니 다른 직원 분이 그 당연한 걸 왜 조사해서 시간 낭비하냐는 식으로 얘기했고, 교수님께서는 당연하다고 생각되는 것이던 아니던 데이터로 확실하게 검증하고 앞으로는 확실한 정보를 가지고 계획을 짤 수 있게 되었기 때문에 이것은 시간 낭비가 아니라 고 대답했다고 합니다. 사실 증거를 대보기 전에 당연히 그런 것은 없습니다. 이렇게 생각하는 것은 사후 판단 편향(hindsight bias)에 해당됩니다. 단어가 생각이 안 나서 검색했더니 나무 위키에서 이런 예를 들었는데, 딱 맞습니다.

나무위키 – 편향[https://namu.wiki/w/%ED%8E%B8%ED%96%A5]
그래서 한 번 더 보기도 하고 단지 저의 문제만 해결하는 것이 아니라 제 코드를 조금만 손 보면 다른 분들도 자신의 거주지역에 적용해 볼 수 있게 해 보자는 생각이었습니다. (이 주소에 코드를 올려놓고 설명이나 수정은 지속적으로 하도록 하겠습니다.)

아 혹시 앉아있던 사람이 내리는 걸 예측해서 거기 앞에 서성이고 싶으신 분들은 최규민 님이 재밌게 진행하신 ‘강남 출근길에 판교/정자역에 내릴 사람 예측하기’를 보셔도 좋을 것 같습니다.

이번 데이터는 감사하게도 ‘공공데이터 포털’에 있는 것이 쓸만하여 그 데이터를 사용했습니다. 이 데이터에는 1-8호선 정보만 있었고 단위가 시간이었기 때문에 7시라고 하면 7시부터 7시 59분의 시간 동안 일어난 모든 승하차 정보의 합입니다. 이런 점을 감안하면서 읽어주시면 좋겠습니다. 처음에는 데이터를 대충 둘러보고 제가 분석하기 좋을 것 같은 형태로 변환시켜주는 작업을 했습니다. 고민도 많이 하고 비효율적인 코드를 짜서 처리하는데 오래 걸리기도 하는 등 시행착오를 겪고 다시 효율적이고 제가 원하는 형태가 나오게 바꿨더니 저장할 때 인코딩이 또 문제가 되고… 그렇게 해서 전처리가 끝난 데이터로 다음과 같은 질문을 던져 봤습니다.

1. 시간대별 – 특히 출퇴근 시간대 + 막차 시간대 – 에 어디에 사람이 많이 탈까? ——전체적으로 유동인구보다는 내린 사람 대비 탄 사람이 얼마나 많은가에 중점을 뒀습니다. 저는 앉아야 하니까요^^

2. 주중, 주말에 차이가 있을까?

3. 역들은 대체적으로 양끝은 사람이 적고 가운데에 사람이 많은 정규분포를 따를까?

일단 1번과 2번 질문은 어느 정도 묶어서 생각했기 때문에 모든 분석은 주중인지 주말인지에 따라서 2가지로 분석했습니다. 또한 시간대는 5시부터 7시, 저녁 6시, 23시, 24시 이후였습니다. 먼저 첫차 시간대에 해당하는 5시를 보시겠습니다. 좌측이 주중, 우측이 주말입니다 – 앞으로도 이 형식을 유지할 것입니다. 모든 역에 대해 다룰 수 없기에 각 시간대별로 [승차 인원 – 하차 인원] 수(앞으로는 그냥 사람 수라고 해도 이 값을 의미합니다)가 많은 역 top 40을 뽑았습니다. 핑크색 선은 top 40 중 상위 10%에 해당하는 값, 빨간 선은 25%, 검정 선은 평균(중간값이 아닙니다), 파란색은 하위 25%에 해당하는 값입니다.

주중에는 신림, 신도림, 서울대입구, 구로디지털단지 비교적 가까운 4곳이 사람 수가 제일 많았습니다. 저기에 무슨 일이 있나요? 궁금한데 단순 검색으로는 원인을 알기 힘들더라고요. 주말 5시에는 다른 곳 다 필요 없습니다. 홍대입구가 미친 듯이 쏟아있습니다. 다들 신나게 놀고 첫차를 이용하시나 봅니다. 이태원도 어느 정도 같은 맥락이라고 봐도 되겠죠? 주말에도 신림, 신도림, 구로디지털단지, 서울대입구의 2호선 좌하단 연합은 굳건했습니다.

다음은 6시입니다.

주중 기준 5시에 비해 역당 500명 정도는 많다고 볼 수 있겠네요. 신림은 여전히 사람이 많았지만 아까부터 선두권에 있던 연신내, 쌍문, 수유 등이 상당히 높은 사람 수를 보였고 저희 집 근처인 까치산, 화곡, 우장산 트리오가 나름 높은 위치에 있네요. 주말에는 역시나… 홍대 당신은 대체… 어떻게 사람이 놀고 바로 첫차 타고 가겠습니까? 쉬다 보면 첫차보다 늦게 탈 수도 있죠.

거의 본격적인 등교, 출근 시간대인 7시 보시겠습니다.

같은 사진 올린 줄 알고 착각했을 정도로 비슷한 멱분포가 나왔습니다. 특히 상위권에는 계속해서 나왔던 역들이 또 나오고 있습니다. 그래서 그냥 넘어갈까 했는데 아까 말씀드린 까치산, 화곡, 우장산 트리오가 우장산역은 그래도 40위권에서 뒤쪽이라고 쳐도 까치산, 화곡은 탑 6 안에 두 개가 랭크되어있습니다. 어쩐지 우장산에서 자리를 못 잡으면 30분 정도 못 잡는 경우가 많았는데 다 이 트리오 덕분이었습니다. 주말에는 강세였던 홍대입구께서 조금 내려간 것을 볼 수 있습니다.

6-7시 타임에 대한 내용은 이따 다시 분석하겠습니다. 다음은 시간을 뛰어넘어 오후 6시(18시) 보겠습니다.

이 시간대는 앞서 봤던 시간대들과는 속성이 다릅니다. 앞서 봤던 시간대들은 출근+등교 시간이라고 볼 수 있고 사람들이 다양한 지역에 살기 때문에 상대적으로 여러 거주지에서 사람들이 탔다고 볼 수 있습니다. 하지만 이 시간대는 퇴근 시간이고 하교 시간은 아닙니다. 대학생들에겐 일반적으로 정해진 하교 시간이라는 개념은 없으니까요. 높은 순위에 있는 역들은 대체로 회사 밀집 지역인 것을 쉽게 알 수 있습니다. 주말에는 삼성역과 을지로입구 역이 수가 많기는 하지만 전체적으로 어떤 설명 거리를 찾지는 못했습니다. 보이는 경향성이 있다 싶으시면 알려주시는 것을 반영하겠습니다.

19시입니다.

역시 대체적으로 비슷하지만 6시에 비해 사람이 절반입니다. 아마도 야근을 늦게까지 할지언정 야근하지 않는 사람들은 대부분 6시에 귀가하고 7시에 귀가하는 분들은 그보다 적나 봅니다. 주말은 마찬가지로 좀 난해합니다…

23시입니다.

제 개인적으로 흥미로웠던 시간대는 이 시간대와 5,6시 시간대였습니다. 딱 보면 사람들이 어디서 노는지 알 거 같지 않나요? 또 한 가지 볼 만한 것은 주중에는 강남이 더 인기가 많고, 주말에는 홍대가 더 인기가 많았다는 점입니다. 강남은 주중이 더 재밌고 홍대는 주말이 더 재밌다고 이해해도 되겠죠? 저도 이 정보를 참고해서 놀아야겠습니다. 심지어 주중, 주말을 크게 구분해서 볼 필요도 없습니다.

이제 막차 시간입니다.

강남 근처만 피하면 나머지는 쾌적하게 앉아서 갈 수 있을 거 같습니다. 처음으로 0이 안 되는 수가 나왔죠? 하지만 주말에는 여러분이 그동안 봤던 그래프들에 비해 형태가 더 과격합니다. 주말에는 막차가 일찍 끊기기 때문에 막차 시간대에 사람들이 대부분 집으로 돌아갔다는 것을 알 수 있습니다.

아직 끝난 것은 아닙니다. 아까 오전 시간대의 묘미를 여러분들도 느끼셨을 것 같은데요, 그래서 주중 6시, 주중 7시, 주말 6시, 주말 7시에 랭크에 올랐던 지하철역들을 놓고 랭크에 기반해서 그래프를 그려봤습니다. 참고로 숫자가 높을수록 사람이 많은 것이고, 어디선 랭크에 올라갔고 다른 곳에선 그렇지 않은 역들이 많아서 그때는 0이라는 기준선에 있게 했습니다.

위에서 언급했던 신림, 쌍문, 연신내, 수유 등이 지속적으로 위쪽에 랭크되었다는 것을 확인할 수 있습니다. 하지만 이 그래프를 보면 위쪽에 뭐가 랭크되었다보다 눈에 띄는 것이 여러 삼각형들입니다. 그래서 역들 중 어느 정도 큰 삼각형을 그리는 역들을 골라 그래프를 그려봤습니다.
[강변 구의 구파발 낙성대 남구로 남한산성입구 단대오거리 대림 마들 미아 부평구청 상일동 신대방삼거리

신도림 신촌 이태원 잠실새내 홍대입구 화랑대] 19개 역이 선정되었습니다. 이를 좀 더 세분화해봤습니다.

왼쪽은 역삼각형에 가까운 모양, 오른쪽은 삼각형에 가까운 모양으로 나눠봤습니다.

역삼각형은 [구의 낙성대 마들 미아 부평구청 신도림], 삼각형은 [강변 구파발 남구로 남한산성입구 단대오거리 대림 상일동 신대방삼거리 신촌 이태원 잠실새내 홍대입구 화랑대]가 있었습니다.

평일 7시에 영향을 받는 역들도 있었지만 대부분 영향을 크게 받으면 주말 6시였습니다. 따라서 주말 오전에 이동하신다면 역삼각형에 속한 역들 주변에 거주하시는 분들은 일찍 이동하시고, 삼각형에 속한 역들 주변에 거주하시는 분들은 늦게 이동하시는 것이 좋아 보입니다. 물론 랭크만으로 모든 걸 설명할 순 없습니다. 오전 6시 1등 하는 역보다 오전 7시 20등 하는 역에 사람이 더 많으니까요!

이제부터는 각 호선별로 역마다 인원을 그래프로 그려봤습니다. 각 역마다 고유번호가 있는 것은 다들 알고 계신가요? 예를 들어 1호선이면 100에 가까울수록 앞쪽 역이고 200에 가까울수록 뒤쪽 역입니다. 그것에 기반해서 그래프를 그려봤습니다. 역이 갈라지거나 순환하는 경우도 있으나 그것까지 고려해서 시각화하긴 어려워서 역 번호순으로 했다는 점 고려하고 보시면 좋겠습니다. 상단 왼쪽부터 1호선 하단 마지막이 8호선입니다.

다들 7시 대 기준입니다. 대부분 중앙에 위치한 역들에서 타는 사람보다 내리는 사람이 많은데, 이를 무시하고 가운데가 더 높은 역들은 정말 피해야 되는 곳입니다. 내리는 사람도 많은데 타는 사람이 엄청 많다는 것을 의미하거든요. 각자 주로 이용하는 역을 기준으로 살펴보시고 우리 집 주변이 몇 번쯤 되나 확인 후에 지하철 앉아가기 전략을 짜시기 바랍니다. 마지막으로 본 목적이었던 저의 전략을 위해 방화역부터 발산역까지 7시에 사람이 얼마나 타는지를 확인해 봤습니다.

지옥입니다… 발산역까지 누적합은 4500명 가량으로 7시 대에 19대의 지하철이 온다는 것을 고려하면 대략 236석이 차 있는 것입니다. 지하철은 총 360석이라 124석 가량이 여유가 있다고 볼 수 있습니다. 그런데 우장산역에서 2000석이나 늘어나는 것이 보이시나요? 지하철당 100명이 추가로 타는 셈입니다. 남은 좌석은 24석입니다. 1-1부터 9-4까지 화곡역에 도착하기 전에 샅샅이 뒤져서 24석 중 하나를 차지해야겠군요. 다른 분들이 이 글을 보고 전략 세울 때 실수하실까봐 첨언하자면 6시 대에 가까울수록 사람이 적고 뒤로 갈수록 사람이 많기 때문에 7시 10분 정도라면 사실 이 걱정을 안 하고 타도 나름 여유롭게 자리를 구할 수 있고, 7시 50분 정도라면 이걸 알아도 이미 만석입니다. 그저 7시 00분부터 7시 59분까지 평균적으로 24석 정도가 남는다고 생각하면 되겠네요.

쓰다 보니 굉장히 길어졌습니다. 한 달 동안 시간 날 때 조금씩 한 결과물이라 고퀄리티는 아니지만 여러분이 보시고 조금 재밌다고 느끼셨다면 좋겠습니다.

다음 달에 또 다른 주제를 가지고 돌아오겠습니다. 감사합니다

So you have finished reading the 지하철 데이터 분석 topic article, if you find this article useful, please share it. Thank you very much. See more: 지하철 승하차 데이터 분석, 파이썬 지하철 데이터 분석, 지하철 빅데이터, 데이터 분석 프로젝트, 파이썬 데이터분석 프로젝트, 지하철 공공데이터, 지하철 시간대별 혼잡도, 파이썬 데이터 분석 프로젝트 주제

Top 12 지하철 데이터 분석 Quick Answer

도시의 동맥, 지하철을 진단하자! 수도권 고령자/청소년 지하철 이용 패턴 분석 – DACON

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1

7. 지하철 승하차 데이터 분석 따라하기_1 – DATA ON-AIR

판다스 – 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리

[월간 데이터 분석] 지하철 앉아서 가고 싶다!!

[Python] 파이썬을 이용한 공공 데이터 분석 및 활용(2)

Pandas를 이용한 지하철 데이터 분석

[논문]빅데이터 분석을 이용한 지하철 혼잡도 예측 및 추천시스템

지하철 데이터 분석

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석

판다스 – 지하철 공공데이터 분석 (2020년 1월 ~ 5월) : 전처리

[월간 데이터 분석] 지하철 앉아서 가고 싶다!!

Leave a Comment Cancel reply