데이터분석/이것이데이터분석이다

04 :: 탐색적 데이터 분석 소개

묘걍 2023. 12. 18. 19:48

👉🏻 탐색적 데이터 분석

출처: 이데분 유튜브

Raw 데이터가 있으면

출처: 이데분 유튜브

이 Raw 데이터를 관찰하고

출처: 이데분 유튜브

인사이트를 얻는다!

 

✅ 피처

출처: 이데분 유튜브

  • 요소들이 존재함
  • DataFrame 컬럼 하나하나를 피처라고 한다
    • 키, 몸무게, 시력, 청력...
  • 피처의 속성을 탐색하는 것

출처: 이데분 유튜브

- 평균 키는 얼마인가?

- 표준편차는 어떻게 되나?

- 가장 큰 학생은 누구인가?

시각화를 통해 더 많은 인사이트를 얻음

- 눈으로 보면 상관관계 등이 더 잘 보인다

그 후 데이터에게 계속해서 질문함

- 몸무게가 제일 많이 나가는 10명은 누구인가? 등...

 


  • 탐색적 데이터 분석이란?
    • 데이터셋을 처음으로 살펴보고
    • 데이터의 특성을 이해하며
    • 패턴을 발견하는 과정
  • 단계
    1. 데이터 불러오기
      • pandas 등을 통해 데이터를 불러온다
    2. 데이터 탐색
      • head(), info(), describe() 등의 함수와 메서드를 통해 데이터의 구조를 파악
    3. 결측치 및 이상치 처리
      • 결측치(누락된 데이터)와 이상치(비정상적으로 크거나 작은 값)를 처리하는 것이 중요
      • Pandas를 사용하여 결측치를 확인하고 필요하면 처리한다
    4. 시각화를 통한 데이터 이해
      • 데이터의 분포, 패턴, 상관관계를 시각적으로 확인하는 것이 중요하다
      • Matplotlib, Seaborn 과 같은 시각화 라이브러리 이용
    5. 변수 간 관계 확인
      • 데이터 내의 변수 간의 관계를 파악하는 것이 중요하다
      • 산점도 행렬 등을 사용해 변수 간의 상관 관계를 확인할 수 있다
    6. 집중적인 분석
      • 분석의 목적과 데이터의 특성에 따라 추가적인 특정 분석을 진행한다
      • 예를 들어 범주형 변수의 분포, 시게열 데이터의 추세 등

 

 

 

 

 

 

 

https://youtu.be/8gaBzU69rtc?si=IDRrpA8gdOYExvks