03. 국가별 음주 데이터 분석하기
나라(object)와 숫자로 이루어진 데이터들, 대륙은 23개정도의 빈 데이터가 있다
데이터를 처음 만났을 때는 .head()함수나 .describe()함수 등으로
데이터를 파악하는 것이 우선!
<피처간의 상관관계 탐색>
ⓐ 단순 상관분석
- 두 변수간 선형적 관계를 상관 계수로 표현한 것
- 피처가 1:1로 서로 동등한 위치에 있을 때
*피어슨 상관계수
method = 'pearson'
1에 가까울 수록 상관성이 높고
0에 가까울 수록 상관성이 낮다
ⓑ 다중 상관분석
- 피처 여러개가 서로 어떤 연관이 있는지
<seaborn>
sns.heatmap
히트맵을 통해 상관관계 분석
위 행렬의 value를 집어 넣음
sns.pairplot
산점도 그래프
연관관계를 구하고 싶은 column들을 집어 넣어줌[[ ]]
분포 되어있는 점들이 선형이면 관계가 높다고 볼 수 있음
<결측 데이터 전처리>
fillna()
해당 데이터 프레임의 column에 결측 데이터가 있다면 ()안의 값으로 채워줘라
보통 na가 결측 값을 뜻함
파이차트
.value_counts()로 각 데이터가 몇개씩 있는지 살펴볼 수도 있지만
더 직관적인 방법은 파이차트를 그리는 것
plt.pie()
첫 파라미터:(각 대륙 별 데이터 갯수)
labels:(인덱스 리스트=대륙이름)
위 두가지는 필수 파라미터
대륙별로 groupby
agg() : 그룹마다 리스트로 정의해 놓은 연산을 각각 적용해서 리턴해줌
drinks 데이터 셋의 total_litres_of_pure_alcohol피처의 평균.mean()
대륙별로 groupby, t-l-o-a피처의 대륙별 평균
대륙별 평균이 전체 평균보다 큰 대륙 출력
.idmax(): 가장 큰 값의 인덱스, 여기서 인덱스는 대륙
plt.bar() : 막대그래프
plt.bar()를 리스트로 만드는데 그 중 마지막 bar의 컬러를 red로 하겠다
plt.plot() : 특정 값에(여기서는 평균) plot을 더해주겠다
<통계적 분석>
어떤 정보를 신뢰할 수 있을까?
질문에 대한 검증 방법
*t-test
- 두 집단의 평균 간 차이 검증 방법(모집단의 평균)
- 실제 정보를 모를 때 현재 데이터만으로 두 집단의 차이에 대해 검증
- 검증 대상인 두 집단의 데이터 갯수가 비슷하면서 동시에 정규분포를 보일 때 신뢰도가 높다 (드뭄)
scipy
africa는 아프리카, europe는 유럽 대륙의 데이터 프레임만 가져옴
stats라는 서브 모듈에 ttest_ind()함수 사용, 아프리카와 유럽의 맥주소비량을 넣어줌
tTestResultDiffVar는 equal_var를 통해 분산이 같은지 여부에 대한 파라미터 추가
t-statistic: t 검정 통계량
p-value: 데이터를 새로 샘플링했을 때 귀무 가설이 맞다는 전제 하에 현재 출력된 통계량 이상이 또 나올 확률??
낮으면 가설이 일어날 확률이 낮아서 이건 아니다 하는거임??????????? 따로 알아봐야겠다...
처음부터 버릴 것을 예상하는 가설
0에 가까울 수록 두 값의 평균이 차이가 날 것이다 라는 결론~?
내일은 진도 더 나가지 말고 복습하면서
제대로 이해 안 된 부분들을 다시 봐야겠다..
'데이터분석' 카테고리의 다른 글
1일 1개발공부˙Day 5 (0) | 2022.09.28 |
---|---|
1일 1개발공부˙Day 4 (0) | 2022.09.27 |
1일 1개발공부˙Day 2 (0) | 2022.09.25 |
1일 1개발공부˙Day 1 (0) | 2022.09.24 |