Member-only story

中日韓統一表意文字 — Unicode歷史沙石(之一)

I.T. 9 遊戲日誌

5 min readMar 4, 2020

眾所周知，現今東亞地區所用嘅漢字都係係源自於幾千年前嘅中國，然後各自互相影響同發展。

喺發明Unicode嘅年代，電腦並未有好發達，儲存空間真係要慳得一個就一個，所以點樣將個字集縮細就係主要考慮之一。(1990年代 — 386用嘅RAM大概HK$1000/1MB一條、一般Harddisk大概100至500MB左右)

所以催生咗中日韓統一表意文字/Han Unification/Unihan計劃。

設計考慮

當年各個漢字使用圈都已經為自己嘅語言制定咗自己嘅編碼方式。例如台灣為繁體中文制定嘅Big5、中國為簡體中文制定嘅GB2312、日語嘅Shift JIS、韓語嘅KS X 1001等等。如果將上面各種舊制嘅碼位(code point)都對應到一個獨立嘅Unicode碼位，就應該2個byte共65536個位都唔夠位擺。既然漢字有咁多重複，噉就不如整理一下，將一模一樣嘅字都用同一個碼位啦？

呢個就係Unihan計劃，而實行起上來就依呢兩種原則。

寫法差異（表意文字認同原則）

不過對字型或筆畫有啲執著嘅你應該會發現，即使同一個字，唔同國家嘅標準寫法都會唔一樣。Unihan嘅解決方案就統一咗佢，然後係留俾字型去處理。

就例如以下嘅字，都係同一個碼位，但個寫法各有些微差異。

向前兼容（字源分離原則）

Unicode係希望以舊編碼所記錄嘅資料，轉換成Unicode之後，可以一碼不差地轉返去舊編碼，即係所謂嘅向前兼容。

所以有啲字，雖然其實只係書法上嘅差異，但因為喺傳統編碼已經分配咗唔同嘅碼位，所以Unicode都為咗上述原因而迫住要。例如戶、户、戸呢幾隻字…

中日韓統一表意文字 — Unicode歷史沙石(之一)

設計考慮

寫法差異（表意文字認同原則）

向前兼容（字源分離原則）

不過

Written by I.T. 9 遊戲日誌

Responses (1)

中日韓統一表意文字 — Unicode歷史沙石(之一)

設計考慮

寫法差異（表意文字認同原則）

向前兼容（ 字源分離原則）

不過

Written by I.T. 9 遊戲日誌

Responses (1)

向前兼容（字源分離原則）