LSTM(Long Short-Term Memory)
오늘은 드디어 언어모델에서 가장 중요하다면 할 수있는 LSTM을 설명하는 날이다. 현재 많은 언어모델에서 채용 되고 있으며 성능또한 우수한 기술이니 이 챕터를 시작하는 날만 손꼽아 기다렸다. LSTM의 내부구조는 그렇게 간단한 내용이 아니라 이 기술을 일반 텐서플로 책이나 간단하게 인터넷에서 모델설명만 본사람들은 당연히 블랙박스에 빠질 수 밖에 없다. 그렇기에 LSTM은 꼭 그 내부구조를 완벽하게 파악하는 것은 앞으로도 나 자신의 강력한 무기가 될 것이라고 생각한다. RNN의 한계 LSTM의 기술을 모르기 전까지 우리는 RNN을 사용해서 언어모델을 구축했었다. 하지만 RNN은 엄청나게 큰 문제가 한가지 존재한다. 바로 기울기 소실과 기울기 폭발의 문제다. 인공지능의 학습 과정은 기울기가 제일 큰 부분을 ..
2021.07.30