Thursday, April 1, 2010

유니코드로 변환시 BOM 값의 중요성

어떤 텍스트 파일이 UTF-8인지 등을 알아내려면 첫 세 바이트의
BOM (Byte Order Mark) 를 확인하면 알 수 있는데,
EUC-KR encoding 된 것을 UNIX의 iconv를 이용해 UTF-8 로 변환할 경우,
텍스트 파일 초반의 BOM 값까지 자동으로 써지지는 않는다.

iconv 만으로 convert 한 파일은 맥파인더의 space 바를 눌러 보는
프리뷰에서는 깨져 보이는데 그것은 BOM 값이 틀려 있기 때문이다.

따라서 BOM은 알아서 별도로 써줘야 한다.
다음은 UTF-8 의 BOM 값이다.

set BOM to ((ASCII character 239) & (ASCII character 187) & (ASCII character 191))

참고자료 : 유니코드 사용시 No BOM 이란

No comments:

Post a Comment