본문 바로가기

전체 글68

1장 - 생성 모델링 생성형 AI를 구현하기 위한 기본서로 '만들면서 배우는 생성 AI'라는 책을 공부하고 리뷰하도록 한다. 1. 생성 모델링이란? 생성 모델링이란 거시적으로 다음과 같이 정의할 수 있다고 한다. "주어진 데이터 셋과 유사한 데이터를 정의하도록 모델을 훈련하는 머신러닝의 한 분야." 이게 무슨 의미인지 이해해보자. 말의 이미지가 들어있는 데이터 셋(주어진 데이터 셋)에서 모델을 훈련하면, 말 이미지와 유사한 말(과 같은) 이미지를 샘플링하여 원래의 말 이미지와는 다른 이미지를 만들어 낸다는 것이다. 가령 이미지 생성 task는 픽셀 값으로 모델이 훈련하기 때문에 훈련 데이터에서 픽셀 값의 분포 및 조합을 학습할 것이다. 이렇게 학습된 모델의 결과를 샘플링하여 새로운 데이터를 만들어내는 것이다. 그렇다면 모델이.. 2024. 3. 11.
Regularization(모델의 규제, 정칙화)에 대한 이해 이번 포스팅에서는 모델의 overfitting을 해결하기 위해 사용할 수 있는 기법 중 하나인, Regularizaion에 대해 알아보자. regularization은 앞서 언급한 대로, 딥러닝 모델의 overfitting 양상을 억제하는 기법 중 하나이다. 그렇다면 model이 overfitting 하다는 것은 무엇을 의미할까? (이에 대한 자세한 내용은 추후에 따로 포스팅할 예정이니 간단한 예를 들어 설명을 하겠다.) 오버피팅은 한국어로 과적합이라고 하며, train set은 매우 잘 맞히지만, validation/test set은 맞히지 못하는 현상을 말한다. 비유하자면 overfitting은 기출문제는 외워서 잘 맞히지만 새로운 응용문제로 시험을 볼 때는 잘 풀지 못하는 경우라고 할 수 있다. 더.. 2023. 12. 23.
[Paper Review] Image style transfer using CNN 이번 포스팅에서는 CVPR 2016에 나온 style transfer 논문을 리뷰할 예정이다. 해당 논문은 우리가 원하는 이미지를 원하는 그림 스타일(화풍)에 적용하는 방법을 제시한다. paper: https://openaccess.thecvf.com/content_cvpr_2016/html/Gatys_Image_Style_Transfer_CVPR_2016_paper.html CVPR 2016 Open Access Repository Leon A. Gatys, Alexander S. Ecker, Matthias Bethge; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2414-.. 2023. 12. 23.
활성화 함수에 대한 이해 딥러닝 공부를 시작하면 여러가지 개념이 뒤죽박죽 되어 정리되지 않는 경우가 생기기 마련이다. 개념 하나 그 자체만 생각하면 이해하기 쉬운데 그래서 그게 어떻게 딥러닝의 학습과 연관지어 생각할 수 있는지 의문이 든다. 딥러닝 초보자인 우리를 헷갈리게 하는 개념들 중 하나인 활성화 함수에 대해 이해해보도록 하자! 1. 활성화 함수란(activation function)? 활성화 함수가 무엇인지 알기 위해 먼저, 활성화라는 단어를 생각해볼 필요가 있다. '활성화'라는 것은 input에 대하여 output을 결정할 때 어떠한 조건에 따라 결정되는 것을 의미한다. 따라서 활성화 함수는 입력에 따라 출력을 결정하게 하는 함수를 의미한다. 활성화 함수가 달라짐에 따라 같은 입력에 대해서도 다른 출력을 낼 수 있는 것.. 2023. 12. 1.
5장. 오차역전파법 지난 챕터에서는 수치 미분을 통해 기울기를 계산하였다. 하지만 이는 계산 시간이 길다는 단점이 있다. 이를 해결하기 위해 이번 챕터에서는 '오차역전파'(backpropagation) 에 대해 알아보고, 이를 이해하기 위한 계산 그래프, 연쇄법칙(chain rule)을 이해하여 오차역전파에 적용되는 부분을 파악하자. 수치 미분은 구현하기 쉽고 단순하지만 계산 시간이 오래 걸린다는 단점이 있다. 가중치 매개변수를 해결하기 위해서는 손실 함수의 가중치 매개변수에 대한 기울기를 구해야 모델의 학습이 이뤄진다. 따라서 결국 기울기를 사용해야하는데 수치 미분은 사용성이 좋지 않으니 이를 효율적으로 계산하는 '오차역전파'가 등장하게 되었다. 밑시딥책에서는 오차역전파를 쉽게 이해시키기 위해 수식이 아닌 계산 그래프로 .. 2023. 11. 9.
The universal workflow of machine learning 이번 장은 케창딥 6장으로 일반적인 머신러닝 워크플로에 대해 소개해준다. 머신러닝 프로젝트를 위해 전체 스펙트럼을 큰 그림을 볼 필요가 있다. 따라서 전반적인 머신러닝 워크플로에 대해 알아보고 그 흐름에 대해 이해해보자! 새로운 머신러닝 프로젝트를 시작할 때, 어떻게 준비해야 하고 제품화시켜 사용자들에게 전달할 수 있을까? 모든 프로젝트가 그렇듯, 머신러닝 프로젝트의 시작도 문제를 정의하는 것에서 출발한다. 이후 문제를 이해하고 적절한 데이터 셋을 구성하여 모델을 개발한다. 이렇게 만들어진 모델을 테스트하여 좋은 성능을 내도록 develop하여 최종 모델을 최적화하면, 배포 환경을 선택하여 모델을 배치한다. 제품 환경에서 모델 성능을 모니터링하고 차세대 모델을 개발할 수 있도록 데이터를 계속해서 쌓아 학.. 2023. 10. 24.