본문 바로가기
Book Review/[만들면서 배우는 생성형 AI] 리뷰

2장 - 딥러닝

by 3n952 2024. 3. 18.

 

이번 포스팅에서는 '만들면서 배우는 생성형 AI' 2장 내용으로 딥러닝 모델링의 개괄적인 개념과 활용에 대해 알아보자

 

 

1. 딥러닝용 데이터

딥러닝 학습에 필요한 데이터는 매우 다양하다. 이미지, 텍스트, 오디오 뿐만 아니라 영상과 같은 비정형 데이터가 있다.

그렇다면 정형 / 비정형 데이터는 무엇이 다를까?

 

기존의 많은 머신러닝 알고리즘은 테이블 형태의 정형 데이터를 입력으로 받는다.

엑셀로 표현된 데이터가 대표적인 정형 데이터이다.

각 데이터 샘플의 특성이 열로 표현되고 이 특성이 출력에 어떻게 영향을 미치는 지 모델이 학습을 한다.

출처: https://brunch.co.kr/@bef6d2c23e1c413/44

 

반면 비정형 데이터는 특성의 열로 구성할 수 없는 데이터를 의미한다.

이미지의 픽셀, 음성의 진동수, 텍스트의 문자 하나에는 정보가 거의 없어 이를 표현하는 것은 비효율적이다.

가령 어떤 이미지의 234번째 픽셀이 황토색이라면 이것이 황토색 집인지 강아지의 털인지 구분할 수가 없다.

다만 이러한 픽셀이 모여 공간적인 정보가 담긴 고수준의 특성을 구성하게 한다면 이미지 task에 적합한 데이터가 될 것이다.

 

2. 신경망의 학습

딥러닝의 심층 신경망은 층(layer)을 연속으로 쌓아 구성한다.

층은 유닛을 가지며, 이전 층의 유닛과 가중치로 연결된다.

데이터의 입력은 심층 신경망의 층을 거치며 출력을 내는 정방향 계산을 수행한다.

정방향 계산으로 나온 출력(예측)의 성능을 향상시키기 위해 역전파를 수행하면서 가중치를 업데이트 한다.

이를 통해 궁극적으로 딥러닝 네트워크가 더 좋은 예측을 하게 되는 것이다.

전반적인 딥러닝의 학습 과정에 대해 이해하면 좋을 것 같다 !

https://sanmldl.tistory.com/49

 

딥러닝의 전반적인 학습 과정

딥러닝은 도대체 어떻게 사람을 흉내내서 문제를 해결할까? 딥러닝의 학습이 이뤄지는 과정에 대해서 큰 틀에서 쉽게 알아보자! 1. 딥러닝이란? 2. 데이터 기반의 학습 3. 손실 함수 4. 옵티마이저

sanmldl.tistory.com

 

그렇다면 이미지와 텍스트가 가지는 의미(공간, 문자)를 딥러닝은 어떻게 학습하여 표현할 수 있을까?

신경망의 가장 유용한 핵심 속성은 입력 데이터에서 특성을 스스로 학습하는 능력이라고 할 수 있다.

후속 층의 유닛은 이전 층의 저수준 특성을 결합하여 원본 입력의 정교한 의미(사람을 얼굴 모양 -> 눈 모양 -> 웃고있다)를 표현한다.

각 유닛에 무엇을 찾아야 하는지 등의 개념을 인간이 개입해서 알려줄 필요가 없다.

 

예를 들어 '사람이 웃고 있는 지 예측하는 심층 신경망'이 있다면 각 층에서 다음과 같이 고수준부터 저수준 특성까지 잡는 경우를 보자.

 

 

1. 유닛 A(갈색 유닛)는 입력 픽셀의 개별 채널에 대한 값을 받는다.

2. 유닛 B는 입력값을 결합하여 edge와 같은 저수준 특성을 추출한다.

3. 유닛 C는 저수준 특성을 결합하여 치아의 출현과 같은 고수준 특성을 추출한다.

4. 유닛 D는 고수준 특성을 결합하여 원본 이미지에 있는 사람이 웃고 있을 때 가장 큰 값을 출력한다.

 

3. 합성곱 신경망

이미지 데이터의 공간 구조를 잘 파악하기 위해서는 합성곱 신경망(conv net)을 사용해야한다.

이와 관련된 포스팅으로 이해해보자 !

https://sanmldl.tistory.com/28

 

합성곱 연산: Convnet / CNN 이해하기

딥러닝을 활용하는 분야 중 컴퓨터 비전은 초기 딥러닝의 부흥을 이끈 분야입니다. 현재 우리에게 널리 사용되는 구글, 네이버의 이미지 검색 / 카메라로 신분증 정보 입력하기 등이 있습니다.

sanmldl.tistory.com