해커톤4 [대회] 2021 AI 데이터 해커톤 대회 타임라인식 보고서 3 21.12.15 1. 수정된 계획 이쯤에서 우리의 수정된 계획을 밝혀야겠지만 귀찮다. 다음에 해야지 대충 서버 1,2,3에 대해서 같은 모델에 데이터를 다르게 학습시킬 건데, 특히 서버 3은 대상 토큰이 달라서 freeze후 finetuning하는 고오급 기술이 들어간다. 계속 도전 중인데 잘 되면 좋겠다. 2. 효자 서버, 보험 서버 서버1의 실행시간이 100시간을 가뿐히 넘고는 CER도 평이하게 낮아지는 중이다. 한 에폭에 3시간 정도 걸리는데, 대회 때까지 서버1은 그냥 두면 될 것 같다. 그래도 데이터 하나를 사골 끓이는 것보다 데이터 여러 종류를 넣은게 잘 될 것 같은데 시간이 부족할까봐 걱정이다. 21.12.16 1. 압축풀기 실패 어제 새벽에 3시쯤 노트북 재부팅되는 소리에 깼는데 그냥 잤다.. 2021. 12. 16. [대회] 2021 AI 데이터 해커톤 대회 타임라인식 보고서 2021.12.09 1. 대회 시작 나는 오늘 종강을 했고 대회도 시작되었다. 2. 환경설정 서버에 접속하기 위해 vscode를 일단 열고... 그냥 ip주소를 치면 될 줄 알았는데 관리자 권한도 필요하고 ssh로 편하게 접근하고 한다고 난리였다. 물론 혼자 힘으로 해결 못해서 연구실 설배들에게 help쳤다. 3. 추가 DATA https://github.com/clovaai/ClovaCall GitHub - clovaai/ClovaCall: ClovaCall dataset and Pytorch LAS baseline code (Interspeech 2020) ClovaCall dataset and Pytorch LAS baseline code (Interspeech 2020) - GitHub - clo.. 2021. 12. 12. [대회] 2021 AI 데이터 해커톤 대회: 시작 전 목표 설정 https://aihub.or.kr/aidata/30705 자유대화 음성(소아, 유아) 한국인 중 소아남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터 aihub.or.kr 위 주소에서 필요한 data를 보충하기로 했다. 우리 대회는 8살부터 13살까지의 초등생 대상 data를 사용하는데, AI Hub는 10살 이전과 이후로 나뉘기 때문에 두 부분에서 해당하는 data만 뽑아 사용하기로 했다. 문제는, 10살 이전 유아 데이터는 대회에서 제공한 데이터와 비슷한 양으로 충분하지만, '일반남녀' 카테고리에서 뽑은 11살부터 13살까지 대상의 데이터가 터무니 없이 적었다. 이대로라면 데이터 불균형이 너무 심해질 것 같았다. 그리고 우리가 내린 대안은 .. 2021. 12. 12. 2021 AI 데이터 해커톤 대회 연구실에서의 첫 대회. 선배의 제안으로 함께 하게 되었다. 음성 관련 AI는 처음 다루는 것이지만 선배 믿고 도전하기로 했다. 특징은 대회 일정이 굉장히 타이트하다는 것이다. 인공합성 음성 제작은 심사가 까다로울 것 같은데 MOS(Mean Opinion Score) Test를 통해 진행한다고 한다. 우리는 3번 한국어 아동 음성 데이터와 6번 감성 및 발화 스타일별 음성합성 데이터 부문에 참가하기로 했다. 그렇지만 3번을 메인으로, 6번을 서브로 진행할 것이다. 2021. 12. 12. 이전 1 다음 반응형