데이터분석/Kaggle

[캐글로 시작하는 머신러닝, 딥러닝] 3~4 .데이터 및 커널 소개, 데이터 불러오기와 기본적 탐색

묘걍 2023. 12. 29. 21:40

👉🏻 사용할 데이터

https://www.kaggle.com/datasets/hmavrodiev/london-bike-sharing-dataset

 

London bike sharing dataset

Historical data for bike sharing in London 'Powered by TfL Open Data'

www.kaggle.com

  • 런던 공유자전거 데이터

✅ 번역

- 마우스 오른쪽 → 한국어로 번역

- 혹은 Google translate - '이 페이지 번역하기' 기능

🧩 데이터 살펴보기

  • About Dataset → Meta data시간

  • 공유된 자전거 수
  • 실제 온도
  • 체감온도
  • 습도
  • 풍속
  • 날씨 (범주형)
  • 휴일 여부 (Boolean)
  • 주말 여부 (Boolean)
  • 계절
  • 날씨 코드

👉🏻 커널

  • 주피터 노트북을 활용해도 된다
    • 이 영상은 입문자용이라 주피터노트북과 아나콘다 설치에 어려움이 있을 수 있다 판단하여 사용하지 않음
  • 캐글에서 제공하는 커널 사용
    • 캐글에서 제공하는 주피터노트북 같은 것
  • 해당 대회 페이지에서 New Notebook 클릭

강사님은 아래와 같은 화면이 나왔는데 현재는 바로 넘어가는 듯 함

출처: 강사님 화면

혹시 변경해야한다면 Notebook Options에서 변경 가능한 것 같다

✅ 제목 바꾸기

  • 코랩이나 주피터 노트북에서 했던 것 처럼 변경 가능

✅ 기본 코드

  • 파이썬에서 필요에 따라 라이브러리를 설치해야함
  • 기본적으로 필요한 라이브러리들을 미리(기본적으로) 적어준 것
  • Numpy
    • 수적 연산
  • Pandas
    • 데이터 전처리
    • 엑셀 같은 기능 활용
  • os
    • 경로 표시

✅ 실행

  • shift + Enter키


🎮 시각화 라이브러리를 추가로 불러오기

  • 그래프를 그리기 위한 matplotlib과 seaborn
  • 결측치를 확인하기 위한 missingno

🎮 데이터 불러오기

  • 판다스를 활용해 데이터를 불러오고 DataFrame으로 만들어주기
  • 경로는 위에서 출력됐던 경로
  • 옵션 - 시간 데이터를 자동으로 파싱하고 Datetime객체로 변환, 적용할 열은 timestamp

  • df의 상위 다섯개 데이터를 불러와라

🎮 데이터 구조 확인하기

  • 행이 17414개
  • 열이 10개

  • 처음에 파일을 불러올 때 timestamp를 날짜형으로 인식하도록 옵션을 넣어 놨음
    • datetime으로 인식됨
  • 정수형과 실수형으로 이루어져 있다

  •  열 이름들이 나옴

- 분석 시작할 때 이런 것들을 확인하고 진행하면 된다

 

🎮 결측치 확인하기

  • 결측치가 없다

🎮 결측치 시각화해보기

  • 결측치가 있으면 흰색으로 나옴

🎮 변수 생성하기

  • 머신러닝/딥러닝을 통해 시간대별 수요 예측이 목적
  • 추가적인 변수를 생성하여 학습을 더 잘 할 수 있도록 해보기
  • timestamp 데이터를 가지고 연/월/일/시간 데이터를 개별적으로 추출해보기

- 연도, 월, 요일(숫자로 표현, 0부터 시작), 시간이 열로 추출됨

🎮 year의 데이터 구성 보기

- 2015년 데이터 8643개

- 2016년 데이터 8699개

- 2017년 데이터 72개

  • 컬럼 명만 바꿔서 여러가지 확인해볼 수 있다

- 균등하게 나오는 것을 확인할 수 있다

 

 

 

 

출처: https://youtu.be/GglLydACWho?si=YlnAZLLqe2CXxzrg

https://youtu.be/tdoV5dBDMFI?si=saxudZOQbAT8JuFA