섹션4의 두번째 스프린트에서는 자연어처리(NLP)에 관하여 학습하게되었다.
NLP 스프린트에서는 다른 스프린트와는 조금 다르게 약간의 빌드업이 들어갔다.
첫번째 Note에서는 NLP 전반에대한 지식들, 자연어, 토큰화, 벡터화 등등 자연처처리에 들어가는 기본적인 지식들과
텍스트 전처리, 정규표현식, 불용어처리, 어간추출, 표제어추출 등 모델의 성능에 관여 하는 것들
벡터화 방법(등장횟수 기반), DTM, TF, TF-IDF 등등 를 학습할 수 있었다.
Note2에서는 분포기반의 벡터화 방법-Word2Vec, Fasttext, oov, 임베딩벡터에 관하여 학습을 하였고,
Note3 부터는 정말로 딥러닝의 핵심 알고리즘들인 RNN, LSTM, 어텐션 메커니즘에 대하여 학습하게 되었다.
Note4는 마지막으로 Transfomer에 대하여 학습하였다.
돌이켜 생각해보면 모두 Transfomer를 위한 빌드업이 아니었나 생각이든다.
Transfomer를 이해하기 위하여 seq2seq를 따로 정리해서 이해하였고,
LSTM, RNN 으로 꼬리를 물면서 다시 Note3로 돌아와 학습을 해야했다,
Transfomer의 개념이 최신 자연어처리 모델들에서 사용하고 있는 개념이다 보니 반드시 알아야 한다는 압박감도 들었고,
깊이 파고 들수록 수식과 방법이 많이 복잡한 모델이었다.
아직까지 완벽하게 이해했다 하지는 못하겠지만, 자연어처리의 흐름에 관하여 학습할 수 있었기에 너무 좋은 시간이었다.
딥러닝을 학습하기 전까지는 자율주행, 이미지 분류 등 컴퓨터 비전 분야가 자연어처리 보다는 흥미로웠지만,
자연어처리를 배우고나니 컴퓨터비전 못지않게 재미난 분야라는 것을 알 수있었고,
텍스트를 통하여 감성을 분석하던지, 기계번역, 챗봇, 텍스트로 표현할 수 있는 다양한 분야에서 활용할 수 있다는 것을 알게 되었다.
'부트캠프 회고' 카테고리의 다른 글
코드스테이츠 AIB_13 17주차 회고 (0) | 2022.08.08 |
---|---|
코드스테이츠 AIB_13 15&16주차 회고 (0) | 2022.07.28 |
코드스테이츠 AIB_13 13주차 회고 (0) | 2022.07.09 |
코드스테이츠 AIB_13 11&12주차 회고 (0) | 2022.06.28 |
코드스테이츠 AIB_13 9&10주차 회고 (0) | 2022.06.14 |