Member-only story

中日韓統一表意文字 — Unicode歷史沙石(之一)

I.T. 9 遊戲日誌
5 min readMar 4, 2020

眾所周知,現今東亞地區所用嘅漢字都係係源自於幾千年前嘅中國,然後各自互相影響同發展。

喺發明Unicode嘅年代,電腦並未有好發達,儲存空間真係要慳得一個就一個,所以點樣將個字集縮細就係主要考慮之一。(1990年代 — 386用嘅RAM大概HK$1000/1MB一條、一般Harddisk大概100至500MB左右)

所以催生咗中日韓統一表意文字/Han Unification/Unihan計劃。

設計考慮

當年各個漢字使用圈都已經為自己嘅語言制定咗自己嘅編碼方式。例如台灣為繁體中文制定嘅Big5、中國為簡體中文制定嘅GB2312、日語嘅Shift JIS、韓語嘅KS X 1001等等。如果將上面各種舊制嘅碼位(code point)都對應到一個獨立嘅Unicode碼位,就應該2個byte共65536個位都唔夠位擺。既然漢字有咁多重複,噉就不如整理一下,將一模一樣嘅字都用同一個碼位啦?

呢個就係Unihan計劃,而實行起上來就依呢兩種原則。

寫法差異(表意文字認同原則)

不過對字型或筆畫有啲執著嘅你應該會發現,即使同一個字,唔同國家嘅標準寫法都會唔一樣。Unihan嘅解決方案就統一咗佢,然後係留俾字型去處理。

就例如以下嘅字,都係同一個碼位,但個寫法各有些微差異。

雖然碼位一樣,但為唔同語言而造嘅字型所顯示嘅樣都唔一樣。

向前兼容( 字源分離原則

Unicode係希望以舊編碼所記錄嘅資料,轉換成Unicode之後,可以一碼不差地轉返去舊編碼,即係所謂嘅向前兼容。

所以有啲字,雖然其實只係書法上嘅差異,但因為喺傳統編碼已經分配咗唔同嘅碼位,所以Unicode都為咗上述原因而迫住要。例如戶、户、戸呢幾隻字…

三個戶字碼位都唔一樣。「/」係該字型冇收錄。

不過

--

--

I.T. 9 遊戲日誌
I.T. 9 遊戲日誌

Written by I.T. 9 遊戲日誌

「IT9,你的資訊真的很有用」 你好 我就係IT9 Trust me I am IT9 // fb@it9gamelog, youtube@it9gamelog

Responses (1)