데이터분석

1일 1개발공부˙Day 4

묘걍 2022. 9. 27. 22:16
오늘의 공부 : chapter 0~1 복습

01. 판다스

   - 데이터 분석 라이브러리 중 하나

   - 데이터 프레임이라는 자료구조 사용

01.1. 설치

pip install pandas

01.2. 불러오기

import pandas as pd

   - pd라는 이름으로 축약하여 사용

01.3. 데이터 프레임

pd.DataFrame()

- data= : 데이터 프레임에 넣을 데이터

- columns= : data의 column 중 데이터 프레임에 넣을 데이터

01.4.

.head() : 프레임의 상단 부분만 출력

.dtypes : 열 타입 정보 출력

.index : 인덱스 정보

.columns : 열의 형태 정보

.mean() : 평균값

01.5. 선택하기

df[ ] : ['column 이름'] 일 경우 특정 열을 선택

df[ : ] : 인덱스 선택

df[df[ ] 연산자] : 조건에 해당하는 데이터 선택

 


02. 넘파이

   - Numerical Python, 수치 계산을 위한 파이썬 라이브러리

   -판다스, matplotlib의 기본 데이터 타입으로 사용되기도

   - 배열 개념으로 변수를 사용, 벡터/행렬 등의 연산을 쉽고 빠르게

   - 기본 자료구조: 넘파이 배열 

02.1. 설치

pip install numpy

02.2. 불러오기

import numpy as np

   - np라는 이름으로 축약하여 사용

02.3. 넘파이 배열

배열명 = np.arange()

02.3.1

.reshape() : (a,b) 일 때 a*b 차원으로 생성해줌

.shape : 넘파이 배열 정보 확인

.dtype : 데이터 타입 확인

02.4. 다른 형태의 배열

np.zeros()

np.ones()

02.5. 데이터 연산

배열 +, -, *, / 배열


03. Matplotlib

   - 데이터 시각화 라이브러리

03.1. 설치

pip install matplotlib

03.2. 불러오기

%matplotlib inline

   - 현재 실행 중인 주피터 노트북에 그래프 출력하도록 하는 명령어

import matplotlib.pyplot as plt

   - plt라는 이름으로 축약하여 사용

03.3. 막대그래프

plt.bar(x,y) : 막대그래프 객체 생성

y = df[ ] : y축 데이터

x = df[ ] : x축 데이터

plt.xlabel() : x축 제목

plt.ylabel() : y축 제목

plt.title() : 그래프 제목

plt.show() : 그래프 출력

02.4. 산점도 그래프

plt.scatter(x, y, )

   - c, alpha, label 등 그래프를 꾸며주는 파라미터들 추가

plt.xlabel() : x축 제목

plt.ylabel() : y축 제목

plt.title() : 그래프 제목

plt.show() : 그래프 출력


04. 탐색적 데이터 분석 과정

ⓐ 데이터의 출처와 주제에 대해 이해하기

   - 생성, 수집 출처, 이름, 구성요소, 주제 등

ⓑ 데이터의 크기 알아보기

   - 양, 개수, 크기

   - 샘플링 (전체 데이터를 사용할 수 없거나 사용할 필요가 없는 경우 일부만 가져다 사용)

ⓒ 구성 요소(치퍼) 살펴보기

   - 피처: 데이터를 구성하는 요소

   - 피처의 구성

   - 피처 간 상관관계

   - 탐색 데이터 시각화

 


미니 퀴즈 풀어보기
미니퀴즈 1-1

Q: value_counts()와 unique()의 차이점(적용되는 데이터 타입, 기능, 결과값 반환)

A: value_counts()는 배열이 적용되며 데이터 셋 내의 해당 피처의 데이터 갯수를 출력한다

    unique()도 배열이 적용되는데 데이터 셋에서 해당하는 범주 내의 데이터들 중 유니크한 값들만 출력한다

정답: value-counts()는 series 객체에서 등장하는 모든 데이터 범주를 각각의 개수와 함께 반환

          unique()는 모든 데이터의 범주만을 반환

미니퀴즈1-2

Q: ① drinks['continent'].value_counts().index.tolist()

     ② drinks['continent'].value_counts().values.tolist()

Q: plt의 pie() 함수는 위 두 코드라인의 결과값을 사용

     fracs1과 labels는 어떤 의미를 가지는 파라미터?

A: fracs1은 데이터셋 속 해당 대륙 데이터의 수(??말바보 인증..)

    labels는 대륙 이름

정답: fracs1은 파이차트에 표현되는 각 영역의 값, plt는 이를 %로 출력

         labels는 파이차트에서 각 영역의 이름, 여기서는대륙 이름

미니퀴즈1-3

Q: means = result['mean'].tolist()
    mins = result['min'].tolist()
    maxs = result['max'].tolist()

    sums = result['sum'].tolist()
    각각은 어떤 값을 담고 있나?

정답: 평균값, 최소값, 최대값, 합계를 의미

 

Q: 해당 코드에서 matplotlib의 각종디자인 기능 찾아보기

A: 

align='center' : 중앙 정렬

alpha=0.5 : 투명도?

set_color('r') : 막대 그래프 색을 빨간색으로

 

'데이터분석' 카테고리의 다른 글

1일 1개발공부˙Day 5  (0) 2022.09.28
1일 1개발공부˙Day 3  (0) 2022.09.26
1일 1개발공부˙Day 2  (0) 2022.09.25
1일 1개발공부˙Day 1  (0) 2022.09.24