👉🏻 탐색적 데이터 분석
Raw 데이터가 있으면
이 Raw 데이터를 관찰하고
인사이트를 얻는다!
✅ 피처
- 요소들이 존재함
- DataFrame 컬럼 하나하나를 피처라고 한다
- 키, 몸무게, 시력, 청력...
- 피처의 속성을 탐색하는 것
- 평균 키는 얼마인가?
- 표준편차는 어떻게 되나?
- 가장 큰 학생은 누구인가?
시각화를 통해 더 많은 인사이트를 얻음
- 눈으로 보면 상관관계 등이 더 잘 보인다
그 후 데이터에게 계속해서 질문함
- 몸무게가 제일 많이 나가는 10명은 누구인가? 등...
- 탐색적 데이터 분석이란?
- 데이터셋을 처음으로 살펴보고
- 데이터의 특성을 이해하며
- 패턴을 발견하는 과정
- 단계
- 데이터 불러오기
- pandas 등을 통해 데이터를 불러온다
- 데이터 탐색
- head(), info(), describe() 등의 함수와 메서드를 통해 데이터의 구조를 파악
- 결측치 및 이상치 처리
- 결측치(누락된 데이터)와 이상치(비정상적으로 크거나 작은 값)를 처리하는 것이 중요
- Pandas를 사용하여 결측치를 확인하고 필요하면 처리한다
- 시각화를 통한 데이터 이해
- 데이터의 분포, 패턴, 상관관계를 시각적으로 확인하는 것이 중요하다
- Matplotlib, Seaborn 과 같은 시각화 라이브러리 이용
- 변수 간 관계 확인
- 데이터 내의 변수 간의 관계를 파악하는 것이 중요하다
- 산점도 행렬 등을 사용해 변수 간의 상관 관계를 확인할 수 있다
- 집중적인 분석
- 분석의 목적과 데이터의 특성에 따라 추가적인 특정 분석을 진행한다
- 예를 들어 범주형 변수의 분포, 시게열 데이터의 추세 등
- 데이터 불러오기
https://youtu.be/8gaBzU69rtc?si=IDRrpA8gdOYExvks
'데이터분석 > 이것이데이터분석이다' 카테고리의 다른 글
02~03 :: Jupyter 노트북, Pandas 사용법 / Numpy, Matplotlib 사용법 (1) | 2023.12.15 |
---|---|
00 ~ 01 :: 왜 Data Science 인가? 탐색, 시각화, 목적 정리 및 분석 환경 구축하기 주피터 노트북, 아나콘다 설치 (0) | 2023.12.14 |