2021.12.09
1. 대회 시작
나는 오늘 종강을 했고 대회도 시작되었다.
2. 환경설정
서버에 접속하기 위해 vscode를 일단 열고... 그냥 ip주소를 치면 될 줄 알았는데 관리자 권한도 필요하고 ssh로 편하게 접근하고 한다고 난리였다.
물론 혼자 힘으로 해결 못해서 연구실 설배들에게 help쳤다.
3. 추가 DATA
https://github.com/clovaai/ClovaCall
GitHub - clovaai/ClovaCall: ClovaCall dataset and Pytorch LAS baseline code (Interspeech 2020)
ClovaCall dataset and Pytorch LAS baseline code (Interspeech 2020) - GitHub - clovaai/ClovaCall: ClovaCall dataset and Pytorch LAS baseline code (Interspeech 2020)
github.com
추가 data set을 찾던 중 선배가 대회 측이 사용한 data set의 출처마저 알아내 버렸다.
우리 대회 심사와 사이트의 녹음이 마감 날짜가 같기 때문에 data set출처일 것이라고 추측했다.
음성영역 주관 기관이 미디어젠이기 때문이라 살펴보다가 찾았다고 한다.
대단하다...
이후 서버에 서버 아이디를 만들고 super user, sudo 권한을 받았다.
2021.12.10
1. 휴리스틱의 힘
우리 교수님께서 인공지능을 전공으로 한다는 것을 휴리스틱을 기른다는 뜻이라고 했다.
그냥 딥러닝이나 할 때 감이 중요한거구나 했는데
선배가 CER만 보고 이상하다라고 하며 Inference Log를 보자고 했다.
나도 몰랐는데 우리의 코드에는 특정 한 문장에 대해 한 epoch마다 Inference 결과를 txt로 저장하는 코드가 있었다.
txt로 저장되니 직관적으로 성능을 알 수 있어서 좋았다.
2. 잘못된 Inference
그렇게 Inference Log를 살펴보니 target data에 대해 컴퓨터가 추론한 문장은 모두 공백이었다...
그냥 자주 쓰이는 토큰으로 채운 것인데 이것은 우리가 원한 학습 방식이 아니였다.
이는 선배가 또 다른 코드를 들고와서 모델을 바꾸어 해결했다.
전후 모델 차이는 나중에 알아봐야겠다.
3. 가상환경
screen, source env_등 실제로 환경설정을 마쳤다.
추가로 서버1에도 아이디를 만들었다.
4. 서버 사용
서버3번에서 github연결 하고 머했지?
이후 서버1에서 github연결을 도전했으나 안돼서 절망.
5. 전처리 코드
train_label.append(Data_list.iloc[i].text)
에서 csv파일을 열어서 각 열의 이름을 붙여 줬다.
file_name과 text열이라고 이름붙임.
함수 하나(my_list003.py) 만들었는데 string에 바로 append쓰면 안된다는 것을 배움
6. 일 년에 한 번 밤샘
이 날은 사실 대방어를 먹고는 아침 8시쯤 해 뜰 때까지 코딩을 한 날이다.
너무 피곤해서 선배에게 물어보니 매번 이런 건 아니고 일 년에 한 번 정도라고 했다.
다행이다.. 진로를 바꿀 뻔 했다.
'추가 활동' 카테고리의 다른 글
[교육] RC CAR 자율주행 교육 프로그램 (0) | 2021.12.31 |
---|---|
[대회] 2021 AI 데이터 해커톤 대회 타임라인식 보고서 3 (0) | 2021.12.16 |
2021 AI 데이터 해커톤 대회 타임라인식 보고서 2 (2) | 2021.12.13 |
[대회] 2021 AI 데이터 해커톤 대회: 시작 전 목표 설정 (0) | 2021.12.12 |
2021 AI 데이터 해커톤 대회 (0) | 2021.12.12 |
댓글