Big data Analysis 섬머스쿨 - Classification:General

JPL-Caltech Virtual Summer school - Big data Analysis(4)

강의 링크 : https://class.coursera.org/bigdataschool-001/wiki/Day_7

Classification

분류는 샘플들을 특성(attribute)를 기준으로 나누는 것이다.

핵심은 정확하게 분류시키는 것이다. 이는 지도학습을 이용한다.

Model Construction

샘플들이 각각 이미 분류되어 있다. 이들을 학습(training)과 확인(validation) 셋으로 나눈다.

모델은 classification rule이 될 수도, decision tree가 될수도, 수학적인 formular가 될수도 있다.

Model usage

unknown sample을 넣어서 실제로 사용할 수 있다.

independent test set을 이용하여 accuracy rate을 구 할 수 있다. accuracy rate를 통하여 모델의 사용여부를 판단한다.

Output은 : crispy 일 수도 probability 일수도 있다. (딱딱 떨어지는 라벨이 아니라 확률로 쓸수도 있음)

Output: Crispy vs Probabilistic

1. Crispy의 경우

crispy는 딱딱 떨어지는 라벨로 output이 나온다.

2. Probabilistic label

딸딱 떨어지는 라벨이 아니라, classifier는 각각 class에 속할 확률을 return 한다.

잘못 분류하면 큰일날떄 사용하면 좋다. (useful when some mistakes can more costly than others)

threshold를 쓸수가 있다.(80%이상 데이터만 출력 등등)

WTA(승자독점)으로 라벨을 결정할수도있다. 가장 높은 확률인 class로 classified class 결정 or threshold + WTA도 가능

즉 좀 더 유동적이다.

Classifier Evaluation

5가지 측면으로 성능을 평가 할 수 있다.

Accuracy(정확도) Speed(얼마나 빨리 분류하는지) Scalability(한번에 처리할 수 있는 데이터셋의 양과 attribute)

Robustness(noise 같은게 있을대 얼마나 잘 handle 하는지) Interpretability 등이 있다.

전처리 과정

노이즈를 제거하고, 빠진값을 정리한다.

관련성 분석에서는 중복데이터나 노이즈를 제거한다. 이때 두 데이터가 특정 패턴으로 같이 움직이면 좋다.

Accuracy Measures - 1

Classification Rate M: 제대로 분류된 비율

Error rate = 1 - M

Accuracy를 측정하기 위하여 Confusion Matrix를 만 들 수 있다. 이는 training, validation, test set 세개로 구성한다.

Completeness: The percentage of object of a given class correctly classified

Contamination : for each class, the percentage of objects of other classes incorrectly classified as objects belonging to that class

Precision : 1 - Contamination

Binary Classifier

이진 분류기에서는 class가 여러개가 아니라 True,False 두개이다 또는 positive, negative

Accuracy는 상황에따라서 얼마나 커야할지가 다르다. 만약에 암 분류라면? 90프로는 너무 낮다.

암진단 classifier의 예시

만약에 accuracy가 90프로면 쓸만한 암진단기 일까?? 답은 아니다.

False negative가 너무 비용이 크다.

우리가 원하는 ideal 한 classifier 는 리얼타임에 믿을만하고 높은 completeness를 가지며 Low contamination을 가지고, 적은 attribute 만으로도 분류가 가능하고, 과거의 데이터셋으로 스스로 학습하는 것이다. (현실적으로 힘들겠..)

저작자표시 비영리 변경금지

'ML with Caltech SURF' 카테고리의 다른 글

Big data Analysis 섬머스쿨 - Classification: Models and tools overview (0)	2016.06.28
Big data Analysis 섬머스쿨 - Classification:Neural Network (0)	2016.06.28
Big data Analysis 섬머스쿨 - Unsupervised Learning (0)	2016.06.23
Big data Analysis 섬머스쿨 - Supervised Learning (0)	2016.06.23
Big data Analysis 섬머스쿨 - 머신러닝 입문 (0)	2016.06.23

Do not repeat yourself(DRY)

Big data Analysis 섬머스쿨 - Classification:General

'ML with Caltech SURF' 카테고리의 다른 글

티스토리툴바

Big data Analysis 섬머스쿨 - Classification:General

'ML with Caltech SURF' 카테고리의 다른 글

'ML with Caltech SURF' Related Articles

티스토리툴바