오늘의 공부 : chapter 0~1 복습
01. 판다스
- 데이터 분석 라이브러리 중 하나
- 데이터 프레임이라는 자료구조 사용
01.1. 설치
pip install pandas
01.2. 불러오기
import pandas as pd
- pd라는 이름으로 축약하여 사용
01.3. 데이터 프레임
pd.DataFrame()
- data= : 데이터 프레임에 넣을 데이터
- columns= : data의 column 중 데이터 프레임에 넣을 데이터
01.4.
.head() : 프레임의 상단 부분만 출력
.dtypes : 열 타입 정보 출력
.index : 인덱스 정보
.columns : 열의 형태 정보
.mean() : 평균값
01.5. 선택하기
df[ ] : ['column 이름'] 일 경우 특정 열을 선택
df[ : ] : 인덱스 선택
df[df[ ] 연산자] : 조건에 해당하는 데이터 선택
02. 넘파이
- Numerical Python, 수치 계산을 위한 파이썬 라이브러리
-판다스, matplotlib의 기본 데이터 타입으로 사용되기도
- 배열 개념으로 변수를 사용, 벡터/행렬 등의 연산을 쉽고 빠르게
- 기본 자료구조: 넘파이 배열
02.1. 설치
pip install numpy
02.2. 불러오기
import numpy as np
- np라는 이름으로 축약하여 사용
02.3. 넘파이 배열
배열명 = np.arange()
02.3.1
.reshape() : (a,b) 일 때 a*b 차원으로 생성해줌
.shape : 넘파이 배열 정보 확인
.dtype : 데이터 타입 확인
02.4. 다른 형태의 배열
np.zeros()
np.ones()
02.5. 데이터 연산
배열 +, -, *, / 배열
03. Matplotlib
- 데이터 시각화 라이브러리
03.1. 설치
pip install matplotlib
03.2. 불러오기
%matplotlib inline
- 현재 실행 중인 주피터 노트북에 그래프 출력하도록 하는 명령어
import matplotlib.pyplot as plt
- plt라는 이름으로 축약하여 사용
03.3. 막대그래프
plt.bar(x,y) : 막대그래프 객체 생성
y = df[ ] : y축 데이터
x = df[ ] : x축 데이터
plt.xlabel() : x축 제목
plt.ylabel() : y축 제목
plt.title() : 그래프 제목
plt.show() : 그래프 출력
02.4. 산점도 그래프
plt.scatter(x, y, )
- c, alpha, label 등 그래프를 꾸며주는 파라미터들 추가
plt.xlabel() : x축 제목
plt.ylabel() : y축 제목
plt.title() : 그래프 제목
plt.show() : 그래프 출력
04. 탐색적 데이터 분석 과정
ⓐ 데이터의 출처와 주제에 대해 이해하기
- 생성, 수집 출처, 이름, 구성요소, 주제 등
ⓑ 데이터의 크기 알아보기
- 양, 개수, 크기
- 샘플링 (전체 데이터를 사용할 수 없거나 사용할 필요가 없는 경우 일부만 가져다 사용)
ⓒ 구성 요소(치퍼) 살펴보기
- 피처: 데이터를 구성하는 요소
- 피처의 구성
- 피처 간 상관관계
- 탐색 데이터 시각화
미니 퀴즈 풀어보기
미니퀴즈 1-1
Q: value_counts()와 unique()의 차이점(적용되는 데이터 타입, 기능, 결과값 반환)
A: value_counts()는 배열이 적용되며 데이터 셋 내의 해당 피처의 데이터 갯수를 출력한다
unique()도 배열이 적용되는데 데이터 셋에서 해당하는 범주 내의 데이터들 중 유니크한 값들만 출력한다
정답: value-counts()는 series 객체에서 등장하는 모든 데이터 범주를 각각의 개수와 함께 반환
unique()는 모든 데이터의 범주만을 반환
미니퀴즈1-2
Q: ① drinks['continent'].value_counts().index.tolist()
② drinks['continent'].value_counts().values.tolist()
Q: plt의 pie() 함수는 위 두 코드라인의 결과값을 사용
fracs1과 labels는 어떤 의미를 가지는 파라미터?
A: fracs1은 데이터셋 속 해당 대륙 데이터의 수(??말바보 인증..)
labels는 대륙 이름
정답: fracs1은 파이차트에 표현되는 각 영역의 값, plt는 이를 %로 출력
labels는 파이차트에서 각 영역의 이름, 여기서는대륙 이름
미니퀴즈1-3
Q: means = result['mean'].tolist()
mins = result['min'].tolist()
maxs = result['max'].tolist()
sums = result['sum'].tolist()
각각은 어떤 값을 담고 있나?
정답: 평균값, 최소값, 최대값, 합계를 의미
Q: 해당 코드에서 matplotlib의 각종디자인 기능 찾아보기
A:
align='center' : 중앙 정렬
alpha=0.5 : 투명도?
set_color('r') : 막대 그래프 색을 빨간색으로
'데이터분석' 카테고리의 다른 글
1일 1개발공부˙Day 5 (0) | 2022.09.28 |
---|---|
1일 1개발공부˙Day 3 (0) | 2022.09.26 |
1일 1개발공부˙Day 2 (0) | 2022.09.25 |
1일 1개발공부˙Day 1 (0) | 2022.09.24 |