이메일 : 스팸문자인지 스팸문자가 아닌지 검출하는 문제
종양 : 양성종양인지 악성종양인지 판단하는 문제
이전에 사용하던 linear regression을 이욯하여 위와 같은 데이터 셋의 분류 문제를 풀어본다
만약 h(x) >= 0.5, predict "y=1"
h(x) < 0.5, predict "y=1" 이라고 한다면 위의 데이터 셋에는 정확히 동작하는 것으로 보인다.
.
하지만 이렇게 데이터 셋이 추가되면 linear regression으로는 정확한 답을 예측하기가 쉽지 않기 때문에
이런 분류 문제에 맞는 다른 가설함수를 사용해야 하는 것을 알 수있다
앞으로 배울 ==Logistic Regression== 은 0 과 1사이의 값을 가지는 가설함수를 사용할 것이다.
0 <= h$\theta$(x) <= 1
Sigmoid 함수의 개형을 보면 z값의 수평축을 기준으로 z가 음의 무한대 방향으로 가면 g(z) = 0으로 수렴되고
z가 양의 무한대 방향으로 가면 g(z) =1 로 수렴되는 것을 알 수 있다
g(z) 그래프의 개형에 따라 z의 값이 양수이면 g(z) >= 0.5 의 값을 갖는다. 즉 $\theta$Tx>=0 이면, h(x) >=0.5 라고 할 수 있다
predicts y=1 : $\theta$Tx>=0
predicts y=0 : $\theta$Tx<=0
h(x) = g($\theta$+$\theta$0x1+$\theta$1x2) 이고 $\theta$ 의 값이 각각 -3,1,1 이라 하자
앞에서 우리는 z>=0 일 때 y=1로 예측하고 z<=일 때 y=0로 예측한다고 배웠다
즉 $\theta$Tx = -3 + x1 + x2 의 값의 부호에 따라 예측값이 정해지는 것을 알 수 있다.
위의 그림처럼 -3 + x1 + x2 의 값이 <0 이면 동그라미 영역에 속하는 것이고 >0이면 x영역에 속하는 직선이 만들어지는 것을
알 수 있다. 즉 파라미터 $\theta$ 의 값에 의해 경계가 만들어 지고 이 경계는 class를 분류하는 경계 즉 ==Decision Boundary== 라고 한다.