프로젝트 외부 작업물 모음(데이콘)
현재 본인이 작업하였지만 외부에 게시된 프로젝트 모음입니다.
4학년 2학기때 3학점을 들으며, 남는 시간에 짧았지만 데이콘이라는 사이트에서
대회 데이터 분석 가공 및 베이스 라인 제공 등을 하는 업무를 하였었다.
원래는 11회 부터 14회 까지의 대회를 진행하였었는데
사이트가 이제야 안정이 되어서 기존에 작업을 해놓은 베이스라인 코드들이
업로드가 되어 있는 것을 확인하였다. (일단 11, 12회는 없었다. ㅠㅠ)
12회 제주 퇴근시간 버스승차인원 예측 베이스 데이터
https://dacon.io/competitions/official/229611/data/
해당 대회는 코드는 없지만 데이터를 만드는 방식이 마음에 들어서 기록한다.
많이 힘들었던 점은, 실제로 저 데이터는 가공의 가공을 거쳐서 만든 데이터다.
일단 가장 큰 문제는 가공되기 전 데이터는 버스 정류장 위도 경도가 없었다.
그리고 버스 이동 경로가 주최측이 준거랑 안맞았다…
그 이후는 생략한다…
게다가 바로 밑에 대회랑 동시에 진행을 하면서 데이터는 또 달라서 문제
13회 제주 퇴근시간 버스승차인원 예측 베이스 라인 중급 코드
https://dacon.io/competitions/official/229255/codeshare/710?page=1&dtype=recent&ptype=pub
일단 파이썬을 독학으로 배우던 때라서 덕 타이핑이 안 된 모습이 눈에 보인다.
덕분에 가독성 진짜 떨어진다는게 문제
그럼에도 해당 코드를 좋아하는 이유는,
해당 데이터가 베이스 라인으로 가공이 되어지는 과정이 좋았기 때문이다.
일단 data leakage 문제가 많을 수 밖에 없던 과거 데이터라서 해당 부분도 추가 하였어야 했고,
지도를 이용한 시각화, 적절한 기초 모델링으로 거의 초보자를 위한 baseline이라고 생각이 되었다.
해당 대회는 데이터는 좋았는데 대회 진행에서 문제가 많았다…
아마 이 썰을 풀면 거의 1시간은 족히 넘어갈거 같다.
세상에 돌+I가 그리 많다는 것을 깨닫는 순간이었다.
14회 금융문자 분석 Baseline code
https://dacon.io/competitions/official/235401/codeshare/629?page=1&dtype=recent&ptype=pub
이 대회를 마지막으로 할 줄을 몰랐는데, 하다 보니 최종 단계만 남기고 취직…
데이터의 전처리 과정 및 가공 과정은 애초에 말할 생각이 없으므로 넘어가겠으며
해당 baseline을 작성하면서 가장 크게 느낀 점은,
나중에 데이터 분석 할 때 docker 같은 가상 환경 할 줄 모르면 노답이겠구나 라는 생각 뿐
일단 mecab라는 패키지를 윈도우에서 못 써서 colab으로 한 것 자체가 제일 문제…
baseline이라 colab으로 해도 상관이 없었지만,
이 대회도 상당히 머리 아팠던 편…
auc로 결과를 냈는데도 무슨 0.99가 도배되는 기 현상 부터…
이 썰은 어쩌다 들은 주변 관계까지 포함해서 1시간짜리 썰