[2주차01/07목요일] E02. Iris의 세 가지 품종, 분류해볼 수 있겠어요?

E02. Iris의 세 가지 품종, 분류해볼 수 있겠어요?

사이킷런(scikit-learn)

- 파이썬 라이브러리로 머신러닝의 다양한 알고리즘과 편리한 프레임워크를 제공한다.

- Scikit-learn 데이터셋 제공(붓꽃 등등)

판다스(pandas)

-파이썬 라이브러리로 표 형태의 2차원 배열 데이터를 다루는데 가장 많이 사용되는 도구

- 표 데이터를 활용한 데이터분석, 대형 데이터의 여러 통계량을 다루는데 최적

학습에 사용하는 training dataset

모델의 성능을 평가하는 데 사용하는 test dataset

feature : 머신러닝 모델에게 입력되는 데이터 , 주로 이름을 X로사용 (X_test, X_traint )

label, target : 머신러닝 모델이 맞추어야 하는 데이터, 주로Y로사용 (Y_test, Y_traint )

지도학습 (Supervised Learning) - 정답이 있고 그 정답을 맞추기 위해 학습하는 것

비지도 학습 (Unsupervised Learning) - 정답이 없는문제를 스스로 학습하는 것

지도학습 종류 2개 분류(Classification)와 회귀(Regression)

-분류 : 입력받은 데이터를 특정 카테고리 중 하나로 분류해내는 것

ex)환자의 나이, 병력, 혈당 등을 입력받아 암의 양성/음성을 판정하는 문제 (딱 떨어지는, 정확한 값)

-회귀: 입력받은 데이터에 따라 특정 필드의 수치를

ex) 당뇨병 진행도예측, 한국사람들의 평균키 ( 구분이 정확하지 않은 애매모호란 값)

앙상블(Ensemble)

1.Decision Tree

2.Random Forest

3.Stochastic Gradient Descent Classifier (SGDClassifier)

4.Support Vector Machine (SVM)

5.로지스틱회귀(Logistic Regression)

오차행렬(confusion matrix)

TN(True Negative), FP(False Positive), FN(False Negative), TP(True Positive)

데이터셋 소개 : 사이킷런 toy datasets

[2주차01/08금요일] 어떻게 표현하면 좋을까? 배열(array)과 표(table) (0)	2021.01.09
[2주차01/06수요일]F04.인코딩,디코딩, 파일과 디렉토리, 파일포맷3가지(CSV, XML JSON) (0)	2021.01.06
[2주차01/04월요일]F03.파이썬으로 코딩하기 (0)	2021.01.04

simyj