Python의 CJK(Chinese-Japanese-Korean,동아시아문자처리) 라이브러리 정리


1. Cjklib 0.3.2 

Homepage: http://cjklib.org/0.3/

Python Package Index: https://pypi.python.org/pypi/cjklib/0.3.2


2. cjktools 1.6.0

Homepage: https://pypi.python.org/pypi/cjktools

Github: https://github.com/larsyencken/cjktools/


위의 2개의 CJK라이브러리를 조사해본 결과, Python2기반으로 작성되었으나, Python3로 변환되지 않았음.

cjklib의 경우는 중국어 중에서 만다린(보통화, 북경어), 상하이어, 광동어(홍콩어), 일본어, 한국어에 대한 지원이 있음을 확인했으나, 라이브러리 사용이 어렵게 느껴짐을 확인.


cjktools의 경우는 중국어와 일본어만 다루기 때문에 CJK(Chinese-Japanese-Korean)의 Korean이 없다는 것을 확인.


위의 라이브러리가 Python3로 변환되지 않은 것을 보고, 이번에 Python3를 공부할겸, Python3의 문자열 처리 및 Unicode Consortium의 unihan database 내용을 확인해보겠습니다.


CJK(Chinese-Japanese-Korean)의 개발에 대한 내용은 Adobe에서 활동하는 Ken Lunde의 책 "CJKV Information Processing"을 참조하여, 사용하기 편한 Python3 라이브러리를 만들어볼 계획입니다.

 

아래는 Python CJK라이브러리 조사전에 CJK에 관심을 가지게 된 트윗글



“Genuine Han Unification is not outside the realm of extreme possibilities.”— Fox William Mulder, FBI Special Agent

슬라이드의 마지막장에 있는 의미심장한 문구




Buy me a coffeeBuy me a coffee

CJKV 1st Edition을 지인을 통해 얻어서 보다 책 내용이 부실하다고 느낀데다, 옛날 내용이라고 느껴서 읽다 답답했습니다.

그래서 O'reilly사이트에서 CJKV 2nd Edition을 pdf파일로 구입을 하여 iPad와 맥북프로에 pdf파일 다운로드 받아서 보고 있습니다

itistory-photo-1


2nd Edition에서는 1판보다 정확한 내용과 최신 내용이 반영되어 있어서 괜찮더군요.

그렇긴 해도 CJKV책을 쓴 저자가 일본어를 배우고 일본쪽을 좋아하는 언어학자라서 그런지 한자를 설명해도 일본어쪽에서 설명하는 내용이 조금 거슬리더군요.

영어를 배우고 언어학 지식을 쌓아서 한국어 처리가 강화된 책을 썼으면 이런 생각을 자주 해봅니다^^


ps1. (1판에서 한국에서 만들어진 한자(Korean-Made Chinese Characters)를 국자(國字, gugja)라고 표현하다 2판에서는 한국에서 만들어진 문자(Korean-Made Ideographs)를 한국식한자(韓國式漢字, Hanguksik Hanja)로 표현합니다. )


ps2. 책 내용이 방대하다보니 다 읽진 않았지만, 한국어 처리부분과 중국어 처리부분을 정리해서 CJKV 책보다 더 좋은 책을 만들고 싶은 오기가 발동했습니다.


ps3. 중국어와 일본어를 어설프게 알고 있으니 제가 추측했던 내용과 다른 내용이 꽤 많더군요. 언어공부를 열심히 해야겠습니다.

Buy me a coffeeBuy me a coffee

+ Recent posts