본문 바로가기

전체 글

(56)
엑셀 32767글자 제한은, 구글스프레드시트에서는 없다. 엑셀에서 셀 끝이 잘려서 화난김에 실험. 셀 값이 너무 길어서 끝이 잘리지 싶다면, 아예 csv 로 저장해서 텍스트 에디터 등으로 열어야 안전하다. 엑셀에서 한번 열었다가 저장하는 순간 답이없다. 엑셀로 열고싶으면 사본으로 열도록.
엑셀2022 인코딩 형식 변경해서 저장하기 ANSI인코딩(UCS2나 UTF16 일 것이다.)으로 저장하는 MS excel에서, utf-8 인코딩으로 저장하는 방법 설명. 다른 이름으로 저장하기 간다. 웹 옵션을 선택 인코딩 탭을 선택 아랫줄에서 한국어(이건 cp949 쓴다.) 대신 유니코드(utf-8) 적힌것으로 바꾸어 저장. 항상 utf-8 인코딩으로 저장하고 싶다면 아래처럼 선택 홈 >> 옵션 >> 고급 >> 쭉 내려가서 '웹 옵션' >> 인코딩 변경. 유니코드(utf-8) 선택.
xlsx 파일의 이론상 최대용량은 얼마일까? 2048 테라바이트 나옴ㅋㅋ csv는 저장형식이 반점(콤마)라서 한 셀당 글자길이 제약을 안받는듯? 형식으로 저장하는데 들어가는 수십 kB는 생략. 나중가면 무시가능한 오차가 되어버린다. 유형 값 2의 거듭제곱으로 1개 글자 최대크기 (UTF-8) 4 바이트 2^2 1개 셀에 가능한 최대 문자 32,767 개 2^15-1 ㄱ. 1개 셀에 들어가는 최대값 150,908 바이트 / 15만908 2^17-2^2 최대 행 개수 1,048,576 개 / 104만8756 2^20 최대 열 개수 16,384 개 2^14 ㄴ. 최대 셀 개수 17,179,869,184 개 / 171억 7986만 9184 2^34 xlsx 총 데이터 크기 = ㄱ * ㄴ 2,592,579,698,819,072 바이트 2,592조 579,6억 98,81만 9,072 2..
UnicodeDecodeError 만드는 바이트값 목록 UTF-8 (1~4바이트 가변) 인코딩 바이트 크기와 위치 가능 설명+오류값 판별법 1바이트 가능: \x00 ~ \xFF 전부 가능. \x00 ~ 2바이트 이상에서, 나머지 바이트 가능: \x80 ~\BF 불가능: \x00~\x7F \xC0~\xFF 바이트 값이 반드시 10xx xxxx 이어야 하므로 헥스코드2자리 중 앞자리가 8,9,A,B (1000 ~ 1011) 만 가능하다. 나머지 값인 0~7, C~F 가 들어가면 오류난다. 2바이트의 첫번째 바이트 가능: \xC0~\xDF 불가능: \x00~\xBF \xE0~\xFF 바이트 값이 반드시 110x xxxx 이어야 하므로 헥스코드2자리 중 앞자리가 C,D (1100,1101)만 가능하다. 나머지 값인 0~9, A,B,E,F 가 들어가면 오류난다. 3바..
한국어 인코딩 과정에서 나오는 주요 Unicode Decode Error 목록 내가 이 문제로 골머리를 좀 앓는다. 나 포함 Unicode Decode Error 와 다투는 많은 이들을 위해 도움이 되었으면 좋겠다. 1. 들어가기에 앞서, position number를 이해한다. byte_data = b'\x00\x01\x02\x03\x04 ... \0xFF' 라는 예시를 들겠다. 인코딩 오류를 볼때 아래의 개념을 쓴다. in position 0 == 0번째 위치 == 바이트값 \x00 in position 1 == 1번째 위치 == 바이트값 \x01 in position 2 == 2번째 위치 == 바이트값 \x01 in position 255 == 255번째 위치 == 바이트값 \xFF 실제 텍스트 데이터는 이보다 복잡하게 나올 것이다만. 바이트, 인코딩, 유니코드 사이의 관계 ..