파일 포맷과 이미지 크기에 따른 학습시간 변화

파일포맷에 따른 학습시간 비교 (tfrecord & png)

학습을 위한 데이터 파프이프라인 구축 과정에서 tfrecord로서의 변환이 학습시간에 얼마나 차이가 있는가를 보기 위해서 실험해본 결과 EfficientNetB5 모델을 기준으로 png 와 tfrecord 평균 120s/eopch 정도 차이가 났다. (tfrecord 가 더 빠름) DenseNet201 모델은 평균 10s/eopch 정도 차이가 났다. 모델 사이즈가 클 수록 그 영향은 더 큰 것으로 보인다.

이미지 크기에 따른 학습시간 비교

  • Model : DenseNet201 (input size : 224 x 224)
  • Original Size : 2500 x 2500
  • Down Size : 800 x 800

Original Size 그대로 네트워크에 입력했을 경우 평균 945s/epoch 이며 Down Size 한 후 입력한 경우 평균 106s/epoch 이다. 대략 9배 차이가 난다. 거의 픽셀 수와 비례한다고 볼 수 있다. 이미지 크기를 줄이는 것만으로도 엄청난 효율성을 얻을 수 있다. 이미지 크기는 어차피 네트워크에서 요구하는 input size로 Down sampling 되기 때문에 이 과정을 데이터 준비 단계에서 미리 전처리를 해준다면 훨씬 더 학습을 효율적으로 할 수 있다는 의미가 된다.

Categories:

Updated: