Paper/모델 경량화

    Why Knowledge Distillation Work?

    Summary 왜 Knowledge distillation은 Soft Label을 사용하는가? Knowledge distillation (Teacher-Student Learning) 이미 학습 된 큰 모델을 학습 시키고자 하는 작은 모델이 따라하는 방식으로 학습이 가능하다. 학습된 모델로 unlabeled 데이터셋을 pseudo-label을 주고, 이를 바탕으로 학습하는 방법으로 사용한다. 피어세션에서 pseudo-labeling은 언제 사용하는 것이며, 정말 효과적일까 하는 질문이 있었다. (정확히는 soft lable을 활용해서 학습하는 것, pseudo label과는 약간은 다르다.) 멘토님과도 토의를 했었는데, 추가적으로 궁금한 부분이 있어서 논문을 한 번 찾아보았다. [Jianping Gou ..