데이터분석

1일 1개발공부˙Day 3

묘걍 2022. 9. 26. 23:02

03. 국가별 음주 데이터 분석하기

나라(object)와 숫자로 이루어진 데이터들, 대륙은 23개정도의 빈 데이터가 있다

데이터를 처음 만났을 때는 .head()함수나 .describe()함수 등으로

데이터를 파악하는 것이 우선!

 

<피처간의 상관관계 탐색>

ⓐ 단순 상관분석

   - 두 변수간 선형적 관계를 상관 계수로 표현한 것

   - 피처가 1:1로 서로 동등한 위치에 있을 때

*피어슨 상관계수

method = 'pearson'

1에 가까울 수록 상관성이 높고

0에 가까울 수록 상관성이 낮다

 

 

ⓑ 다중 상관분석

   - 피처 여러개가 서로 어떤 연관이 있는지

 

 

<seaborn>

sns.heatmap

히트맵을 통해 상관관계 분석

위 행렬의 value를 집어 넣음

sns.pairplot

산점도 그래프

연관관계를 구하고 싶은 column들을 집어 넣어줌[[ ]]

분포 되어있는 점들이 선형이면 관계가 높다고 볼 수 있음

 

<결측 데이터 전처리>

fillna()

해당 데이터 프레임의 column에 결측 데이터가 있다면 ()안의 값으로 채워줘라

보통 na가 결측 값을 뜻함

파이차트

.value_counts()로 각 데이터가 몇개씩 있는지 살펴볼 수도 있지만

더 직관적인 방법은 파이차트를 그리는 것

 

plt.pie()

첫 파라미터:(각 대륙 별 데이터 갯수)

labels:(인덱스 리스트=대륙이름)

위 두가지는 필수 파라미터

 

대륙별로 groupby

agg() : 그룹마다 리스트로 정의해 놓은 연산을 각각 적용해서 리턴해줌

drinks 데이터 셋의 total_litres_of_pure_alcohol피처의 평균.mean()

대륙별로 groupby, t-l-o-a피처의 대륙별 평균

대륙별 평균이 전체 평균보다 큰 대륙 출력

.idmax(): 가장 큰 값의 인덱스, 여기서 인덱스는 대륙

 

plt.bar() : 막대그래프

plt.bar()를 리스트로 만드는데 그 중 마지막 bar의 컬러를 red로 하겠다

plt.plot() : 특정 값에(여기서는 평균) plot을 더해주겠다

 

<통계적 분석>

어떤 정보를 신뢰할 수 있을까?

질문에 대한 검증 방법

*t-test

   - 두 집단의 평균 간 차이 검증 방법(모집단의 평균)

   - 실제 정보를 모를 때 현재 데이터만으로 두 집단의 차이에 대해 검증

   - 검증 대상인 두 집단의 데이터 갯수가 비슷하면서 동시에 정규분포를 보일 때 신뢰도가 높다 (드뭄)

 

scipy

africa는 아프리카, europe는 유럽 대륙의 데이터 프레임만 가져옴

stats라는 서브 모듈에 ttest_ind()함수 사용, 아프리카와 유럽의 맥주소비량을 넣어줌

tTestResultDiffVar는 equal_var를 통해 분산이 같은지 여부에 대한 파라미터 추가

t-statistic: t 검정 통계량

p-value: 데이터를 새로 샘플링했을 때 귀무 가설이 맞다는 전제 하에 현재 출력된 통계량 이상이 또 나올 확률??

               낮으면 가설이 일어날 확률이 낮아서 이건 아니다 하는거임??????????? 따로 알아봐야겠다...

              처음부터 버릴 것을 예상하는 가설

0에 가까울 수록 두 값의 평균이 차이가 날 것이다 라는 결론~?

 

 

 

내일은 진도 더 나가지 말고 복습하면서

제대로 이해 안 된 부분들을 다시 봐야겠다..

'데이터분석' 카테고리의 다른 글

1일 1개발공부˙Day 5  (0) 2022.09.28
1일 1개발공부˙Day 4  (0) 2022.09.27
1일 1개발공부˙Day 2  (0) 2022.09.25
1일 1개발공부˙Day 1  (0) 2022.09.24