본문 바로가기

업무 환경설정

윈도우 os에서 큰 csv 파일 읽기: 전용 프로그램 설치하여 사용.

작은파일은 엑셀로 열면 됨. (열었다가 저장하지 말것. 32767자 넘는 셀은 모조리 잘려나간다.)

 

어쨌거나 커다란(10메가바이트 이상) csv 파일을 utf-8 인코딩 쓴 걸 읽어야 하기때문에 전용 뷰어를 찾다가 아래 사이트에서 다양한 뷰어를 소개해줬길래 맨 위에 있는것부터 깔았다.

https://noticiarmoz.com/ko/como-abrir-arquivos-de-texto-e-csv-realmente-grandes/ 

 

정말 큰 텍스트 및 CSV 파일을 여는 방법

MS Excel은 1.048.576개의 행을 표시할 수 있습니다. 이것은 일반적인 사용에서 매우 많은 숫자처럼 보일 수 있지만 이것으로 충분하지 않은 많은 시나리오가 있습니다. 로그 파일을 보든 대용량 데

noticiarmoz.com


일단 LTFviewer 깔아서 열었는데 깨져서 보였다. utf-8로 인코딩 된걸 윈도우 특화에서 열면 보통 이러니까, 변환기능 없나 찾는데 없더라. 얘네 readme 에 써놨다.ㅠ

대신에 encoding을 cp949나 utf-16-le로 저장하면 csv가 커도(1기가 이상) 계속 읽어온다.
한번에 다 읽는게 아니라 일단 보여주면서 계속 읽어온다. 

더보기

 

INI 파일(구성 설정 유형)과 exe파일(실행 파일)을 같은 폴더에 두세요.
설치 없습니다.
5.2u 버전은 ANSI와 Unicode(정식명칭 UTF-16-LE)를 지원합니다. 
아직 Unicode big endian(정식명칭 UTF-16-BE)과 UTF-8은 지원하지 않습니다.
윈도우 NT 이상이 필요합니다.
Please keep the INI file and the executable file in the same folder. 
No Installation is needed.
LTFViewer 5.2u supports ANSI and Unicode.
It currently does not support Unicode big endian and UTF-8.
LTFViewer 5.2u requires Windows NT and up.

 

이 프로그램으로 csv 를 열어보려면, 저장을 "윈도우 기본값"인 "한국어"로 해야 한다. 인코딩이 ANSI라고 나올수도 있는데, 실제 인코딩은 euc-kr 또는 euc-kr의 확장형인 cp949 또는 utf-16-le 중에 무엇을 쓰는지 모르겠다.

 

이 참고자료에서는, ANSI가 선택되면 cp949를 쓸 거라고 말해준다.

https://umbum.dev/m/328

 

Encoding 정리. Unicode, ANSI, UTF, CP949

Unicode유니코드 자체는 특정 encoding 방식을 가리키는 말이 아니라, 순서(U+????)와 문자를 1:1로 매핑해놓은 하나의 코드표를 가리킨다. ANSI와 달리 전세계 글자를 하나의 코드표에 표현하기 위에 만

umbum.dev

 


utf-8로 저장된 csv 파일 읽어야 하니 다른 뷰어를 깔았다.

 

Emacs 깔았다. utf-8도 잘 열리는데 여는속도는 위에 뷰어보다 좀 느리다. 1기가쯤 되면 버벅댄다.

더보기

맨 위나 아래의 windows 버전 다운로드 창을 누른다.

거의 맨 아래로 내려간다.

다운받을 서버 둘중에 아무거나 고른다.

 

가장 최신버전인 emacs-28/ 폴더를 연다.

 

emacs-28.2-installer.exe / 2022-09-13 / 12:53 / 46M

을 다운받아서 설치한다. 윈도우 디펜더로 검사해봤는데 바이러스는 없었다.

 

설치 끝내고 이 프로그램을 실행시켜, csv 파일을 열면 utf-8이든 윈도우식 utf-16-le 나 cp949이든 다 잘 열린다.

.