일본日本 고지엔広辞苑[광사원,こうじえん ]사전에서 한자(漢字/汉字)정의

The authoritative Japanese dictionary Koujien (1983) defines Han characters to be: …characters that originated among the Chinese to write the Chinese language. They are now used in China, Japan, and Korea. They are logographic (each character represents a word, not just a sound) characters that developed from pictographic and ideographic principles. They are also used phonetically. In Japan they are generally called kanji (Han, that is, Chinese, characters) including the “national characters” (kokuji) such as touge (mountain pass), which have been created using the same principles. They are also called mana (true names, as opposed to kana, false or borrowed names).



Buy me a coffeeBuy me a coffee

Python의 CJK(Chinese-Japanese-Korean,동아시아문자처리) 라이브러리 정리


1. Cjklib 0.3.2 

Homepage: http://cjklib.org/0.3/

Python Package Index: https://pypi.python.org/pypi/cjklib/0.3.2


2. cjktools 1.6.0

Homepage: https://pypi.python.org/pypi/cjktools

Github: https://github.com/larsyencken/cjktools/


위의 2개의 CJK라이브러리를 조사해본 결과, Python2기반으로 작성되었으나, Python3로 변환되지 않았음.

cjklib의 경우는 중국어 중에서 만다린(보통화, 북경어), 상하이어, 광동어(홍콩어), 일본어, 한국어에 대한 지원이 있음을 확인했으나, 라이브러리 사용이 어렵게 느껴짐을 확인.


cjktools의 경우는 중국어와 일본어만 다루기 때문에 CJK(Chinese-Japanese-Korean)의 Korean이 없다는 것을 확인.


위의 라이브러리가 Python3로 변환되지 않은 것을 보고, 이번에 Python3를 공부할겸, Python3의 문자열 처리 및 Unicode Consortium의 unihan database 내용을 확인해보겠습니다.


CJK(Chinese-Japanese-Korean)의 개발에 대한 내용은 Adobe에서 활동하는 Ken Lunde의 책 "CJKV Information Processing"을 참조하여, 사용하기 편한 Python3 라이브러리를 만들어볼 계획입니다.

 

아래는 Python CJK라이브러리 조사전에 CJK에 관심을 가지게 된 트윗글



“Genuine Han Unification is not outside the realm of extreme possibilities.”— Fox William Mulder, FBI Special Agent

슬라이드의 마지막장에 있는 의미심장한 문구




Buy me a coffeeBuy me a coffee

대한민국의 주소체계에서 시/도, 시/군/구. 읍/면/동, 리까지 지명이 같으니 리(里)의 한자(漢字)만 다른 동네가 존재함을 확인하였음.

법정동 조회하다 한자만 다른 지명을 발견하여 놀라웠다.

 법정동주소

 법정동

 충청북도 청주시 상당구 미원면 기암리(岐岩)

 기암리(岐岩)

 충청북도 청주시 상당구 미원면 기암리(基岩)

 기암리(基岩)

 충청북도 청주시 청원구 오창읍 화산리(華山)

 화산리(華山)

 충청북도 청주시 청원구 오창읍 화산리(花山)

 화산리(花山)

 경상북도 경산시 진량읍 평사리(坪沙)

 평사리(坪沙)

 경상북도 경산시 진량읍 평사리(平沙)

 평사리(平沙)


리(里)의 경우 길게는 조선시대경, 짧게는 토지조사를 일제히 시작했던 구한말, 일제시대에 생겼을 것이다.

리(里)를 한자를 병용해서 사용했을때에는 구분이 되었으나, 이제 한자를 병용으로 쓰지 않고 한글 전용으로 쓰는 경우가 많음. 

위의 예처럼 시/도, 시/군/구. 읍/면/동, 리까지 지명이 같으나 리(里)의 한자(漢字)만 다른 동네를 구분하는데 엄청 힘든 경우가 있을 것이다.


위의 경우는 우편번호를 제대로 적으면 해결될것이나, 우편번호도 제대로 안적었을 경우 우편물 배달이나 행정적인 일을 할때 혼란이 있을 것 같다는 생각이 들었음.


동음이의의 지명을 바꾸면 되지 하지만, 이미 오래전부터 관행적으로 쓰던 리(里)의 이름을 하루아침에 쉽게 바꿀수도 없을 것이고.

한자 전용일때 생긴 지명이 한글 전용 시기에서 엄청나게 처리하게 힘들게 되었다는 걸 보여준다는 것일까?

Legacy 처리의 어려움을 여기서 생각해봤음.

Buy me a coffeeBuy me a coffee

+ Recent posts