통계학의 개념 그리고 딥러닝에서의 사용


모수 먼저 통계적 모델링의 경우 적절한 가정을 통해 확률분포를 추정하는 것에 목표를 둔다. 하지만, 유한한 데이터를 통해 정확히 알아내는것은 불가능하기 때문에, 근사적인 확률분포를 추정한다. 모수를 어떠한 방식으로 추정하냐에 따라 방법론의 이름이 다르다. 모수적 방법론: 데이터가 특정 확률분포를 따른다고 먼저 가정하고 그 분포를 결정하는 모수를 추정하는 방법이다. 비모수 방법론: 특정 확률분포를 따른다 가정하지 않은체 데이터에 따라 모델 구조와 모수 개수를 유연히 바꾸는 방법이다. 확률분포 Types 각 값의 특성에 따라 참조하면 좋은 확률분포들이다.…
Read more ⟶

확률론과 이의 필요성 - in Deep Learning


확률론, 왜 필요한가? 딥러닝은 기본적으로 확률론 기반의 기계학습 이론에 바탕을 두고있다. 이유는 회귀, 분류 각각 다음과 같다. 회귀분석의 경우 L2 Norm은 예측 오차의 분산을 최소화하는 방향으로 학습한다. L2가 두 점의 거리를 계산하는것을 바탕으로 두면 어떤점을 시사하는지 알수있다. 분류문제의 경우 교차엔트로피는 모델 예측의 불확실성을 최소화 하는 방향으로 학습한다. 두 학습 모두 분산 혹은 불확실성을 최소화 하는것에 목표가 있으며, 이를 측정하는 방법을 알아야한다. 데이터에 대한 몽타주 데이터 공간에 다음과 같이 데이터가 분포해있다 생각해보자.…
Read more ⟶

Deep Learning이 어떻게 학습하는가?


신경망의 수식화 $O=XW+b \rightarrow$ O의 경우 output, x의 경우 input data, w의 경우 wight 그리고 b의 경우 bais를 나타낸다. Softmax 위의 수식에서 O 값을 특정 k 클래스에 속할 확률로 변환을 원하는 경우 softmax를 이용하게 된다. $softmax(o)=(\frac {exp(o_1)}{\Sigma^p_{k=1}exp(o_k)},…,\frac {exp(o_p)}{\Sigma^p_{k=1}exp(o_k)})$ 위의 함수를 통과하게 되면, 각 클레스에 대해 확률로 나오게 된다. One hot encoding 추론을 원하게 되는 경우 출력된 O 값을 one-hot encoding으로 넣게 된다. 둘간의 차이(Softmax와 one-hot encoding) 학습시에는 softmax를 이용하여 오차값을 계산하기 위해 클레스 별 확률을 구한다.…
Read more ⟶

Gradient descent - 2/2


Moore-Penrose 넘어로 이전의 선형회귀에서는 무어-펜로즈 방식을 사용하였다. 그러나 이를 이용하게 되면 “선형”회귀에서만 사용이 가능해져, 조금 더 universal 한 방법으로 바꾸어 보려 한다. 이를 위해 이번에는 목적식으로 $||y-X\beta ||_2$ 이며 이를 최소화 하는 값 $\beta$ 를 찾는것이다. 이를 찾기 위한 식은 다음과 같다. $$ \nabla_\beta ||y-X\beta ||2=(\delta{\beta_1}||y-X\beta ||2, … , \delta{\beta_d}||y-X\beta ||_2) \newline \to \delta_{\beta_k}||y-X\beta||2=\delta_{\beta_k} {\frac1n \sum^n_{i=1}(y_i-\sum^d_{j=1}X_{ij}\beta_j)^2}^{\frac12} \newline =-\frac{X^T_k(y-X\beta)}{n||y-X\beta||_2} $$ 위의 복잡한 식을 개념적으로 풀어 이해하면 밑에와 같다. $$ \beta^{(t+1)} \leftarrow \beta^{(t)}-\lambda \nabla_\beta ||y-X\beta^t|| $$…
Read more ⟶

Gradient descent - 1/2


미분이란? 변수의 움직임에 따른 함수값의 변화를 측정하기 위한 도구. 식으로는 아래와 같이 표현. $$ f\prime (x)=\lim_{h \to 0}\frac{f(x+h)-f(x)}h $$ 이를 그래프로 표현하면 다음과 같다. %20%20%20%20 - 먼저, $f\prime (x)$의 경우 기울기가 음수이다. - 이를 $x$에 빼게 되면 기존의 $x$ 보다 커지게 된다. - 이러한점은 그래프의 특성과 해당 지점의 미분값에 따라 다르게 된다. 이러한 미분의 특성을 이용하여 미분값을 더하게되면 경사 상승법, 빼게되면 경사하강법으로 부르며 사용한다. 미분의 코드화 var = init grad = gradient(var) # esp의 경우 grad값이 0이 아닌 "0"에 가까운 값으로 나오기 때문에 # 임이의 "사실상 0" 즉 매우 작은 값으로 할당해주어 0인지를 판단한다.…
Read more ⟶

첫 글 테스트


제발 좀 되라! $$ \begin{align} f(x)=w \cdot x + b \end{align} $$ 결과 utterances를 이용해 댓글 기능까지 구현하려 했으나 안되고 있음… 나머지 latex는 katex를 이용하여 해결.…
Read more ⟶