데이터분석/Kaggle 7

[캐글로 시작하는 머신러닝, 딥러닝] 9. 모형별 비교

4개의 모형을 하나의 데이터 프레임으로 합친 뒤 확인해보기 👉🏻 데이터 프레임 만들기 - XGB, RandomForest, 딥러닝(DeepNeuralNetwork) 의 결과값을 DataFrame형태로 넣어준다 - 실제 테스트에 대한 관측값(실제값)이 들어있는 데이터를 compare에 넣어준다 - index는 reset - y_test에 대한 값을 DataFrame형태로 넣어서 인덱스를 리셋한 것 - 이 옆에 다른 결과 값들을 추가해줄 것 - compare에 xgb라는 열을넣을건데 그 안에는 우리가 만들었던 xgb를 넣을거다 - 그래프로 비교하기 위해 데이터프레임을 만든 것 👉🏻 그래프 그리기 - (강사님 그래프 기준) 약간의 차이는 있지만 유사한 형태로 분포되어 있다 출처: https://youtu.be..

[캐글로 시작하는 머신러닝, 딥러닝] 8. 머신러닝

👉🏻 지난시간에 딥러닝 돌린 결과 강사님 나 🧩 시각적으로 살펴보기 모델 학습 시킬 때 history변수에 넣었음 강사님 ver - 강사님 그래프 기준에서 15번 넘어가면 별 차이가 없음 - validation을 통해 중간중간 점검해보니 튀는 구간이 있지만 전반적으로 낮은 수준으로 유지됨 더보기 왜 강사님과 다른 결과가 나왔을까? 딥러닝 모델의 결과가 다르게 나올 수 있는 이유는 여러 가지가 있을 수 있습니다. 다음은 가능한 원인 몇 가지입니다: 랜덤 초기화 (Random Initialization): 딥러닝 모델은 초기 가중치를 랜덤으로 설정하고 학습을 시작합니다. 따라서 같은 코드와 데이터를 사용하더라도 모델이 다르게 초기화되면 결과가 다를 수 있습니다. 하드웨어 차이: 학습 중인 하드웨어 환경이나 ..

[캐글로 시작하는 머신러닝, 딥러닝] 7. 딥러닝

👉🏻 딥러닝 케라스를 통해서 딥러닝할 것 층을 쌓아서 진행 earlystopping을 통해 학습하다가 과적합이 되지 않도록 잡아줌 ✅ 층 쌓기 1. 모델명.add를 통해 2. 맨 뒤에 연결해주는 것 add할 때 마다 층이 쌓임 unit의 개수, 활성화함수(relu, tanzent, sigmoid ...), 입력변수(독립변수) 마지막 층은 시간대별 자전거 수요를 예측야하니까 한개로 결과가 나와야 한다(??) - 예측하려는 종속변수를 위 개수에 맞는 결과값이 나올 수 있게 설계 ✅ 학습시키기 patience: 과적합이 될 때 loss가 5번정도 흘러가면 멈춰달라 early_stopping: 과적합이 되기 전에 멈춰줌 epochs: 훈련을 얼마나 시킬건지 batch_size: 데이터를 얼마 단위로 훈련할건지 ..

[캐글로 시작하는 머신러닝, 딥러닝] 5~6. EDA와 전처리

👉🏻 그래프를 통한 탐색적 분석 🧩 seaborn을 통해 그래프 그려보기 boxplot으로 그리기 x축은 year, y축은 cnt ✅ 연도 별로 확인해보기 - 강사님이 하라는대로 하면 에러가 난다... - 윗줄은 하나의 subplot을 생성하는데 사용되고 밑 줄은 Seaborn라이브러리를 사용해 상자 그림을 그리는 것 a, b는 변수 플롯 객체(figure와 axes)를 나타냄 - 주된 이유는 boxplot()함수에 2개의 위치 인자가 전달되었는데, 이 함수는 0~1개의 위치 인자만 받아들인다고 한다 - 혹은 boxplot()함수가 하나의 subplot에 대해서만 동작하도록 설계되어 있어서 문제가 발생한다고 한다 그런데 첫 번째 줄로 subplot을 생성하고 a, b로 변수에 할당한 후 sns.boxpl..

[캐글로 시작하는 머신러닝, 딥러닝] 3~4 .데이터 및 커널 소개, 데이터 불러오기와 기본적 탐색

👉🏻 사용할 데이터 https://www.kaggle.com/datasets/hmavrodiev/london-bike-sharing-dataset London bike sharing dataset Historical data for bike sharing in London 'Powered by TfL Open Data' www.kaggle.com 런던 공유자전거 데이터 ✅ 번역 - 마우스 오른쪽 → 한국어로 번역 - 혹은 Google translate - '이 페이지 번역하기' 기능 🧩 데이터 살펴보기 About Dataset → Meta data시간 공유된 자전거 수 실제 온도 체감온도 습도 풍속 날씨 (범주형) 휴일 여부 (Boolean) 주말 여부 (Boolean) 계절 날씨 코드 👉🏻 커널 주피터..

[캐글로 시작하는 머신러닝, 딥러닝] 1~2. 캐글 소개

👉🏻 캐글 https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com 구글에서 관리하는 데이터 분석 경진대회 🧩 competitions https://www.kaggle.com/competitions Kaggle Competitions www.kaggle.com 진행중인 대회들 완료된 대회들 🧩 Datasets https://www.kaggle.com/datas..