본문 바로가기
---

[2주차01/07목요일] E02. Iris의 세 가지 품종, 분류해볼 수 있겠어요?

by 카뮤 2021. 1. 9.

E02. Iris의 세 가지 품종, 분류해볼 수 있겠어요?

 

 

사이킷런(scikit-learn)

- 파이썬 라이브러리로 머신러닝의 다양한 알고리즘과 편리한 프레임워크를 제공한다.

- Scikit-learn 데이터셋 제공(붓꽃 등등)

 

판다스(pandas)

 -파이썬 라이브러리로 표 형태의 2차원 배열 데이터를 다루는데 가장 많이 사용되는 도구

 - 표 데이터를 활용한 데이터분석,  대형 데이터의 여러 통계량을 다루는데 최적

 

 

학습에 사용하는 training dataset

모델의 성능을 평가하는 데 사용하는 test dataset

 

feature : 머신러닝 모델에게 입력되는 데이터 , 주로 이름을 X로사용 (X_test, X_traint )

label, target : 머신러닝 모델이 맞추어야 하는 데이터, 주로Y로사용 (Y_test, Y_traint )

 

 

지도학습 (Supervised Learning) - 정답이 있고 그 정답을 맞추기 위해 학습하는 것

비지도 학습 (Unsupervised Learning) - 정답이 없는문제를 스스로 학습하는 것

 

지도학습 종류 2개 분류(Classification) 회귀(Regression)

-분류 : 입력받은 데이터를 특정 카테고리 중 하나로 분류해내는 것

            ex)환자의 나이, 병력, 혈당 등을 입력받아 암의 양성/음성을 판정하는 문제  (딱 떨어지는, 정확한 값)

 

-회귀: 입력받은 데이터에 따라 특정 필드의 수치를 

           ex) 당뇨병 진행도예측, 한국사람들의 평균키 ( 구분이 정확하지 않은 애매모호란 값) 

 

 

 

분류모델

앙상블(Ensemble)

1.Decision Tree

2.Random Forest

3.Stochastic Gradient Descent Classifier (SGDClassifier)

4.Support Vector Machine (SVM)

5.로지스틱회귀(Logistic Regression)

 

 

오차행렬(confusion matrix)

TN(True Negative), FP(False Positive), FN(False Negative), TP(True Positive)

 

 

데이터셋 소개 : 사이킷런 toy datasets

  • load_digits : 손글씨 이미지 데이터 (링크)

  • load_wine : 와인 데이터 (링크)

  • load_breast_cancer : 유방암 데이터 (링크

 


  • scikit-learn에 내장되어 있는 예제 데이터셋의 종류를 알고 활용할 수 있다.
  • scikit-learn에 내장되어 있는 분류 모델들을 학습시키고 예측해 볼 수 있다.
  • 모델의 성능을 평가하는 지표의 종류에 대해 이해하고, 활용 및 확인해 볼 수 있다.
  • Decision Tree, XGBoost, RandomForest, 로지스틱 회귀 모델을 활용해서 간단하게 학습 및 예측해 볼 수 있다.
  • 데이터셋을 사용해서 스스로 분류 기초 실습을 진행할 수 있다.

댓글