인공지능13 Cross-Entropy란? 딥러닝 모델을 활용하여 다양한 task를 해결하는 데 다양한 loss function이 사용된다. 그중 분류와 같은 task에서 정답과 예측 값의 확률 분포를 차이를 좁히는 방식으로 모델이 학습한다. 이때 사용되는 loss가 cross-entropy loss이다. 이번 포스팅에서 cross entropy에 대해 알아보자! Cross Entropy의 개념을 알기 위해선 먼저 알아야 할 개념이 있다.바로 "Entropy" 이다.1. EntropyEntropy(엔트로피)는 정보 이론에서의 정보량에 대한 기댓값을 의미한다.이는 정보의 불확실성을 나타내며 이 값이 높을수록 다양한 정보가 많아 확률이 낮다는 것을 의미한다.가령 (1) 주머니 속에 빨간 공, 파란 공, 노란 공, 초록공이 있는 경우와 (2) 빨간 .. 2024. 10. 2. [cs231n] 5강. Convolutional Neural Networks 이번 5강에서는 Vision Task를 효율적으로 해결하는 네트워크 구조인 Convolutional neural network의 역사와 작동 원리에 대해 알아본다. 지난 시간에 배운 내용은 위 그림과 같다.2개의 퍼셉트론 층을 쌓았다.단순히 선형 변환식을 겹쳐서 쌓아 최종 스코어를 얻었다.이는 명확하게 한계가 있다.각 이미지의 지역적 정보를 활용하지 못할뿐더러 각 입력이 모든 출력에 개입한다는 점이 그렇다.이러한 한계점을 CNN이 해결해준다. CNN의 등장 배경의 역사를 거슬러 올라가면 아주 오래전으로 거슬러 올라간다.(1957년)그러한 배경은 차치하고 CNN 등장에 가장 직접적인 역할을 한 것은 LeCun의 모델이다.위의 왼쪽 그림이 LeCun의 모델의 구조인데 사실 CNN과 거의 똑같다. 다만 스케.. 2024. 6. 19. [cs231n] 4강. Backpropagation and Neural Networks 이번 4강에서는 backpropagation의 작동 원리와 Neural network의 아키텍처에 대해 간략히 알아본다. 지금까지 배운 것은 다음과 같다.이미지에 대한 score를 구하고 이 값을 Loss function에 적용했다.그 후에 Data loss를 구하여 w(파라미터)에 대한 data loss의 기울기를 구했다.이때 gradient descent 방식이 사용되어 최적의 loss를 갖도록 파라미터를 업데이트 했다는 것이다. 위 그림에서 알 수 있듯이 입력 이미지로부터 loss까지 도달하기에 수 많은 weights(model parameter)가 있다.기울기를 구하는 건 알겠는데, layer를 거치면서 생기는 이 많은 weights의 기울기는 어떻게 한번에 구할 수 있을까?이 물음에 .. 2024. 6. 5. Inductive bias란? 딥러닝을 공부하다 보면 inductive bias라는 단어가 많이 나오곤 한다.이게 뭐길래 자주 쓰이는지, 또 어떠한 의미를 갖는지 이번 포스팅을 통해 알아보자. 1. Bias variance tradeoff of various network structure 모델에 예측에 대한 bias와 variance는 아래 그림과 같다.Bias는 학습 데이터 교체했을 때 모델의 정확도 어느 정도 차이 나는지Variance는 특정 데이터에 모델이 얼마나 민감하게 반응하는지 일반적으로 bias와 variance는 trade-off 관계를 갖는다.따라서 오른쪽 위, 왼쪽 아래의 경우가 일반적이다. 이러한 관계를 바탕으로 다중의 inductive bias를 갖는 모델을 설계하는 것은 모델의 sample efficienc.. 2024. 5. 28. [cs231n] 3강. Loss functions and Optimization 3장은 지난 2장에서 살펴본 Linear classifier의 score가 얼마나 잘 산출된 것인지 알아보는 Loss func와이 Loss func를 최소화시키는 parameter들을 얼마나 효율적으로 찾을 것인지 알아보는 optimization에 대한 내용이다. 앞서 우리는 linear classifier로 score를 산출할 수 있었다.(이미지 픽셀값에 가중치 W행렬을 곱하고, bias를 더하여 score를 구했다.) 3개의 이미지에 대한 각 class의 score는 아래의 그림과 같다고 가정하자.이 score의 합이 전체 데이터 셋에 대한 Loss에 기여하도록 해야 한다.이 강의에서는 multiclass SVM loss를 사용하여 예시를 들어준다.SVM loss에 따르면 고양이 이미지에 대한 Los.. 2024. 5. 28. [cs231n] 2장. image classification pipeline cs231n은 stanford univ에서 제공하는 neural network(NN), convolution neural network(CNN) 관련 deep learning 강좌다.이를 공부해 보고 정리해보고자 한다! 1장에서는 이 강좌에 대한 introduction part이다. 이 부분에서 컴퓨터 비전의 역사와 발전 양상을 다루고 있다.내용이 궁금한 사람은 아래의 링크에서 직접 보는 것을 추천한다.https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk2장은 computer vision task 중 가장 고전적이면서 근본적인 image classification를 다룬다.이 task에서 고려해야 할 한계점이.. 2024. 5. 24. [Paper Review] YOLACT: Real-time Instance Segmentation 이번 포스팅에서는 ICCV 2019에 나온 YOLACT 논문을 리뷰할 예정이다. 해당 논문은 '실시간'으로 이미지를 instance segmentation 문제를 해결하는 방법을 제시한다. Paper: https://arxiv.org/abs/1904.02689 YOLACT: Real-time Instance Segmentation We present a simple, fully-convolutional model for real-time instance segmentation that achieves 29.8 mAP on MS COCO at 33.5 fps evaluated on a single Titan Xp, which is significantly faster than any previous com.. 2024. 3. 27. 모델의 평가 방식: Evaluation Metric 우리가 열심히 만든 딥러닝 모델이 얼마나 성능이 좋은지 파악하려면 어떻게 해야 할까? 이번 포스팅에서 모델을 평가하는 평가 지표에 대해 알아보자. 먼저 Evaluation metric을 알아보기 앞서 Loss와 Metric의 차이를 알 필요가 있다. 간단히 설명하면 Loss와 metric은 다음과 같다. - Loss: 모델 학습 시 학습 데이터(train data)를 바탕으로 계산되어, 모델의 파라미터 업데이트에 활용되는 함수 - Metric: 모델 학습 종료 후 테스트 데이터(test data)를 바탕으로 계산되어, 학습된 모델의 성능을 평가하는데 활용되는 함수 즉, 학습 도중에 파리미터를 업데이트하는데 관심 있는 함수는 Loss function이 될 것이고, 학습이 끝나고 모델의 성능을 평가하는 데 .. 2024. 3. 13. Regularization(모델의 규제, 정칙화)에 대한 이해 이번 포스팅에서는 모델의 overfitting을 해결하기 위해 사용할 수 있는 기법 중 하나인, Regularizaion에 대해 알아보자. regularization은 앞서 언급한 대로, 딥러닝 모델의 overfitting 양상을 억제하는 기법 중 하나이다. 그렇다면 model이 overfitting 하다는 것은 무엇을 의미할까? (이에 대한 자세한 내용은 추후에 따로 포스팅할 예정이니 간단한 예를 들어 설명을 하겠다.) 오버피팅은 한국어로 과적합이라고 하며, train set은 매우 잘 맞히지만, validation/test set은 맞히지 못하는 현상을 말한다. 비유하자면 overfitting은 기출문제는 외워서 잘 맞히지만 새로운 응용문제로 시험을 볼 때는 잘 풀지 못하는 경우라고 할 수 있다. 더.. 2023. 12. 23. 이전 1 2 다음