본문 바로가기

파이썬(Python)/간단한 연습

Kaggle(케글) dataset에 한글제목으로 파일 올리면 이름 깨지는 문제: 해결책 zip 만들어서 올리기

케글 dataset 만들때 한글로 된 파일제목 (예를 들면 1234가나다라5678.txt) 을 올리면, 업로드 표시창에는 제목이 정확히 들어간다. 그러나, 막상 dataset upload 가 끝나고, 이를 쓰려고 code 에다 연결하면 파일 이름이 (1234 5678.txt 아니면 12345678.txt) 이런식으로 한글 부분이 싹 사라진 걸 볼 수 있다.

 

그리고 한번에 1000개 파일 이상 바로 못올린다. 

 

해결법은 의외로 간단하다.

올리려는 파일과 폴더를 싹 압축하여 zip을 만들고 그걸 올리면, 정상적으로 들어간다.

그리고 파일 1000개 이상 넣고 zip 만들어 올려도 모든 파일이 다 들어간다.

 

간단한 거나 제목 훼손되어도 큰 지장없는 테스트파일은 막 올리는게 편하지만, 본격적으로 다루려면 zip 만들어 올리면 해결된다. 그러나 파일 수정도 zip 파일 단위로만 가능하기 때문에, dataset 에 올릴때 가능한 여러개의 낱개 단위로 올리는게 좋다.

 

예시)

folder 0~3 총 4개를 올린다 치면

모두 압축해서 folders_total (총 1개)로 올리지 말고

각각을 압축하여 folder 0.zip ~ folder 3.zip (총 4개)로 올리는 게 좋다.

그래야 folder 0에 문제가 생겼을때 그것만 빠르게 수정하여 업로드 가능하다.

folders_total로 올렸다면 folder 0을 수정한 뒤 전체를 압축하여 올려야 하는데, 이 때 케글 서버에서 그 거대한 파일을 처음부터 새로 다시 올리기 때문에 엄청 느려진다.(파일이 몇십메가 이상으로 크다면)

 

예제들

 

추천하지 않는 방법: 전체 압축해서 하나의 zip 파일로 올리기
추천하는 방법: 가능한 작은 폴더 단위로 쪼개어서 올릴것.