4강. 훈련 세트와 테스트 세트로 나누어 사용하기

ML | DL/혼자공부하는머신러닝딥러닝

4강. 훈련 세트와 테스트 세트로 나누어 사용하기

묘걍 2023. 11. 8. 20:17

02-1. 훈련 세트와 테스트 세트

👀 완벽한 보고서

- k- 최근접 이웃 알고리즘은 규칙(패턴)을 찾는 것이라기보다는

단순히 훈련 데이터를 저장한 다음 가까운 이웃을 골라서 다수의 클래스를 따르는 방식

- 훈련 데이터를 가지고 있다면 사실상 정답을 가지고 있는 것

- 정답을 알고 있으니 답을 맞출 수 밖에 없는것

ex) 기출문제를 풀어서 시험을 대비했는데 시험에 기출문제와 완전히 동일한 문제가 나온 상황

- 풀이 방법과 상관 없이 답을 외워버리면 100점을 맞을 수 있다

- fit()메서드에 훈련한 데이터 말고 다른 데이터로 score()메서드에서 테스트해야 올바른 평가 방법

- 테스트 데이터를 따로 준비

👉🏻 지도학습과 비지도학습

🧩 지도학습

입력(input)과 타겟(target)이 있는 데이터(훈련 데이터)를 활용해서 학습
Supervised Learning
가르침이 있는 것
k-최근접 이웃 등...

🧩 비지도학습

target 데이터 없이 입력(input)만 있음
특성의 갯수 줄이기, 비슷한 샘플끼리 모으기 ...

🧩 강화 학습

알파고
어떤 행동을 수행한 후 행동의 결과를 피드백 받아 개선해나감
환경이 주는 부산 값을 최대화하기 위해(?) 수행하는 방식
에이전트(agent)

👉🏻 훈련 세트와 테스트 세트

- 테스트를 위해서 데이터를 더 구하면 좋음

- 데이터는 다다익선

- 현실에서 그렇게 하기 어렵다면 훈련 데이터의 일부를 덜어내서 테스트 데이터로!

- 슬라이싱 연산자 활용해 여러개의 원소 한 번에 선택

- train으로는 0번부터 34번 원소를

- test로는 35번부터 마지막 원소를

👉🏻 테스트 세트에서 평가하기

- k-최근접 이웃 클래스

- 인스턴스 생성

- fit()메서드에 train

- socore()에 test를 전달

- test에 있는 14개를 전부 맞추지 못함

🧩 샘플링 편향

- length, weight 리스트를 만들 때 단순히 도미 + 빙어를 쭉 늘어놓고 붙이기만 함

- 훈련/테스트 세트를 나눌 때도 35개는 훈련, 14개는 테스트로 나눔

- 이렇게 되면 훈련 세트에는 빙어가 하나도 없고, 테스트 세트에는 도미가 하나도 없음

- 두 클래스가 잘 섞여 있어야 함

👉🏻 넘파이

파이썬의 대표적인 배열 라이브러리
싸이킷런, 맷플롯립, 텐서플로도 넘파이에 크게 의존
입력 데이터가 넘파이로 전달될거라 기대
싸이킷런의 predict()메서드는 반환값을 넘파이로 리턴 (입력값도)
서로 다른 타입의 데이터를 넣을 수 없다

넘파이(Numpy)는 파이썬의 라이브러리로, 숫자 데이터를 다루는 데 매우 효과적이며, 데이터 처리와 계산에 유용한 도구를 제공합니다. 초보자도 이해하기 쉽게 설명해드리겠습니다.

1. 배열(Array): 넘파이의 핵심 요소는 배열입니다. 배열은 숫자 데이터를 담는 그릇처럼 생각할 수 있습니다. 파이썬의 리스트와 비슷하게 보이지만, 넘파이 배열은 효율적인 연산을 수행하는 데 특화되어 있습니다.

2. 다차원 배열: 넘파이 배열은 1차원 배열, 2차원 배열(행렬), 3차원 배열 등 다양한 차원을 가질 수 있습니다. 이것은 표 데이터, 이미지, 음성, 시계열 데이터 등 다양한 유형의 숫자 데이터를 다루는 데 유용합니다.

3. 원소 접근: 배열 내의 개별 원소에 접근하려면 인덱스(위치)를 사용합니다. 예를 들어, `arr[0]`은 배열 `arr`의 첫 번째 원소를 나타냅니다.

4. 벡터화 연산: 넘파이는 배열 간의 산술 연산을 효율적으로 수행할 수 있는 기능을 제공합니다. 이를 통해 반복문을 사용하지 않고도 배열에 있는 모든 원소에 대해 한 번에 연산을 수행할 수 있습니다.

5. 브로드캐스팅: 넘파이에서는 서로 다른 모양(shape)을 가진 배열 간에도 연산이 가능한 경우가 있습니다. 이를 브로드캐스팅이라고 부릅니다.

6. 배열 생성: 넘파이를 사용하면 배열을 생성하고 초기화하는 다양한 방법이 있습니다. 예를 들어, `numpy.array()` 함수를 사용하여 리스트나 튜플에서 배열을 만들 수 있습니다.

7. 유용한 함수: 넘파이는 다양한 수학 함수와 통계 함수를 제공합니다. 평균, 표준편차, 최댓값, 최솟값 등을 쉽게 계산할 수 있습니다.

8. 데이터 조작: 데이터를 정렬, 필터링, 변환, 슬라이싱 및 조작하는 다양한 메서드와 기능이 제공됩니다.

9. 데이터 분석과 머신러닝: 넘파이는 데이터 과학 및 머신러닝 라이브러리와 함께 사용됩니다. 판다스, 사이킷런, 텐서플로우 등과 함께 넘파이를 사용하여 데이터 분석 및 모델 개발에 활용됩니다.

요약하면, 넘파이는 파이썬을 데이터 과학 및 수치 계산에 적합한 도구로 만들어줍니다. 숫자 데이터를 다루는 데 효과적이고 편리한 방법을 제공하며, 데이터 분석, 머신러닝, 과학 연구 등 다양한 분야에서 사용됩니다. 초보자에게도 익히기 쉬우며, 파이썬에서 숫자 데이터를 다루는 데 필수적인 라이브러리 중 하나입니다.