👉🏻 사용할 데이터
https://www.kaggle.com/datasets/hmavrodiev/london-bike-sharing-dataset
London bike sharing dataset
Historical data for bike sharing in London 'Powered by TfL Open Data'
www.kaggle.com
- 런던 공유자전거 데이터
✅ 번역
- 마우스 오른쪽 → 한국어로 번역
- 혹은 Google translate - '이 페이지 번역하기' 기능
🧩 데이터 살펴보기
- About Dataset → Meta data시간
- 공유된 자전거 수
- 실제 온도
- 체감온도
- 습도
- 풍속
- 날씨 (범주형)
- 휴일 여부 (Boolean)
- 주말 여부 (Boolean)
- 계절
- 날씨 코드
👉🏻 커널
- 주피터 노트북을 활용해도 된다
- 이 영상은 입문자용이라 주피터노트북과 아나콘다 설치에 어려움이 있을 수 있다 판단하여 사용하지 않음
- 캐글에서 제공하는 커널 사용
- 캐글에서 제공하는 주피터노트북 같은 것
- 해당 대회 페이지에서 New Notebook 클릭
강사님은 아래와 같은 화면이 나왔는데 현재는 바로 넘어가는 듯 함
혹시 변경해야한다면 Notebook Options에서 변경 가능한 것 같다
✅ 제목 바꾸기
- 코랩이나 주피터 노트북에서 했던 것 처럼 변경 가능
✅ 기본 코드
- 파이썬에서 필요에 따라 라이브러리를 설치해야함
- 기본적으로 필요한 라이브러리들을 미리(기본적으로) 적어준 것
- Numpy
- 수적 연산
- Pandas
- 데이터 전처리
- 엑셀 같은 기능 활용
- os
- 경로 표시
✅ 실행
- shift + Enter키
🎮 시각화 라이브러리를 추가로 불러오기
- 그래프를 그리기 위한 matplotlib과 seaborn
- 결측치를 확인하기 위한 missingno
🎮 데이터 불러오기
- 판다스를 활용해 데이터를 불러오고 DataFrame으로 만들어주기
- 경로는 위에서 출력됐던 경로
- 옵션 - 시간 데이터를 자동으로 파싱하고 Datetime객체로 변환, 적용할 열은 timestamp
- df의 상위 다섯개 데이터를 불러와라
🎮 데이터 구조 확인하기
- 행이 17414개
- 열이 10개
- 처음에 파일을 불러올 때 timestamp를 날짜형으로 인식하도록 옵션을 넣어 놨음
- datetime으로 인식됨
- 정수형과 실수형으로 이루어져 있다
- 열 이름들이 나옴
- 분석 시작할 때 이런 것들을 확인하고 진행하면 된다
🎮 결측치 확인하기
- 결측치가 없다
🎮 결측치 시각화해보기
- 결측치가 있으면 흰색으로 나옴
🎮 변수 생성하기
- 머신러닝/딥러닝을 통해 시간대별 수요 예측이 목적
- 추가적인 변수를 생성하여 학습을 더 잘 할 수 있도록 해보기
- timestamp 데이터를 가지고 연/월/일/시간 데이터를 개별적으로 추출해보기
- 연도, 월, 요일(숫자로 표현, 0부터 시작), 시간이 열로 추출됨
🎮 year의 데이터 구성 보기
- 2015년 데이터 8643개
- 2016년 데이터 8699개
- 2017년 데이터 72개
- 컬럼 명만 바꿔서 여러가지 확인해볼 수 있다
- 균등하게 나오는 것을 확인할 수 있다
출처: https://youtu.be/GglLydACWho?si=YlnAZLLqe2CXxzrg
https://youtu.be/tdoV5dBDMFI?si=saxudZOQbAT8JuFA
'데이터분석 > Kaggle' 카테고리의 다른 글
[캐글로 시작하는 머신러닝, 딥러닝] 8. 머신러닝 (0) | 2024.01.13 |
---|---|
[캐글로 시작하는 머신러닝, 딥러닝] 7. 딥러닝 (0) | 2024.01.11 |
[캐글로 시작하는 머신러닝, 딥러닝] 5~6. EDA와 전처리 (0) | 2024.01.08 |
[캐글로 시작하는 머신러닝, 딥러닝] 1~2. 캐글 소개 (1) | 2023.12.20 |
[T아카데미강의] 1. 캐글 및 대회 이해 (0) | 2023.12.20 |