7주차
7주차 부터는 8주차에 진행할 프로젝트를 위하여 데이터셋을 정하는 것 부터 시작하여 타겟데이터가 불균형할 때 처리하는 방법, 데이터 랭글링, 모델을 해석하는 방법들에 관하여 학습하게 되었다.
7주차 초반부터는 프로젝트 데이터셋을 정하고 7주차에 학습하는 내용들을 내 데이터셋에 적용하는 과정들이 존재했는데, 프로젝트 진행속도와 맞지 않아서 그 부분에서 계속 막힘이 있었고, 프로젝트를 진행할 때도 약간의 영향이 있었다.
그 동안의 데이콘과 같은 경진대회를 참여할 때는 전처리와 분석하는 과정을 거치고 좋은 모델을 만들어 좋은 성능을 내어 랭킹을 올리려고 좋은 성능에만 집중했다면 7주차와 프로젝트를 거치면서 성능도 물론 준수해야 하지만 해석적인 측면에 더욱 집중했던 것 같다.
복잡한 모델을 해석하는 여러 방법을 학습했는데, 사용법도 어렵기도 했지만 모델을 실제로 해석하는 부분에서 좀 많이 어려운 부분이 있었다. 그래프가 말해주는 것을 직관적으로 해석하기가 어려웠고, 모델을 해석하는 부분은 더 학습이 필요해 보인다.
8주차(프로젝트)
8주차 프로젝트를 진행하면서 EDA과정과 모델 해석 부분에서 많은 시간을 소모했다. 실제로 데이터를 모델링하는 시간은 모델 학습이 진행되는 시간을 기다리는 것 외에는 크게 어려움이 없었지만, 과적합을 막고, 특성공학을 생각하고, 데이터에서 인사이트를 얻어내는 시간이 많이 필요했다. 만족스럽지 못한 데이터셋을 선택하고 바꾸는 과정에서 또한 시간 소모를 많이 했고, 실제 현장에서는 필요한 데이터를 수집하는 시간이 정말 많이 걸릴것으로 생각된다.
프로젝트에 사용한 데이터 셋 또한 좀 더 다양한 특성이 있었으면 더 좋은 결과를 얻을 수 있었을 것이라는 아쉬움이 남아있다.
프로젝트가 종료한 후에 다른 분들의 프로젝트 발표 영상을 확인해보았는데, 각자의 주제에서 다양한 인사이트를 얻은 것으로 보았다. 내 프로젝트와 비교해보았을 때 스스로의 아쉬움이 큰건 나는 EDA에 시간소모를 많이 한 만큼 비중을 많이 두었는데, 그것보다는 특성공학이나 모델링 파트에 비중을 많이 두신 분들이 있었다.
나 또한 특성공학과 모델링파트에도 시간을 많이 투자했다면 어떤 결과가 나왔을지 궁금하고 여러 시도를 하지 못한 것을 반성하게 된다.
다음주부터는 수집한 데이터가 아닌 데이터를 수집하거나, 데이터베이스를 설계하는 SQL과 데이터 엔지니어링에 가까운 것들을 학습하게 되는데, 처음 접하는 내용이고 흥미로운 주제이기 때문에 더욱 집중해서 학습해야겠다는 생각이 들었다.
'부트캠프 회고' 카테고리의 다른 글
코드스테이츠 AIB_13 11&12주차 회고 (0) | 2022.06.28 |
---|---|
코드스테이츠 AIB_13 9&10주차 회고 (0) | 2022.06.14 |
코드스테이츠 AIB_13 5&6주차 회고 (0) | 2022.05.17 |
코드스테이츠 AIB_13 4주차 회고 (0) | 2022.04.26 |
코드스테이츠 AIB_13 3주차 회고 (0) | 2022.04.18 |