Member-only story
中日韓統一表意文字 — Unicode歷史沙石(之一)
眾所周知,現今東亞地區所用嘅漢字都係係源自於幾千年前嘅中國,然後各自互相影響同發展。
喺發明Unicode嘅年代,電腦並未有好發達,儲存空間真係要慳得一個就一個,所以點樣將個字集縮細就係主要考慮之一。(1990年代 — 386用嘅RAM大概HK$1000/1MB一條、一般Harddisk大概100至500MB左右)
所以催生咗中日韓統一表意文字/Han Unification/Unihan計劃。
設計考慮
當年各個漢字使用圈都已經為自己嘅語言制定咗自己嘅編碼方式。例如台灣為繁體中文制定嘅Big5、中國為簡體中文制定嘅GB2312、日語嘅Shift JIS、韓語嘅KS X 1001等等。如果將上面各種舊制嘅碼位(code point)都對應到一個獨立嘅Unicode碼位,就應該2個byte共65536個位都唔夠位擺。既然漢字有咁多重複,噉就不如整理一下,將一模一樣嘅字都用同一個碼位啦?
呢個就係Unihan計劃,而實行起上來就依呢兩種原則。
寫法差異(表意文字認同原則)
不過對字型或筆畫有啲執著嘅你應該會發現,即使同一個字,唔同國家嘅標準寫法都會唔一樣。Unihan嘅解決方案就統一咗佢,然後係留俾字型去處理。
就例如以下嘅字,都係同一個碼位,但個寫法各有些微差異。
向前兼容( 字源分離原則)
Unicode係希望以舊編碼所記錄嘅資料,轉換成Unicode之後,可以一碼不差地轉返去舊編碼,即係所謂嘅向前兼容。
所以有啲字,雖然其實只係書法上嘅差異,但因為喺傳統編碼已經分配咗唔同嘅碼位,所以Unicode都為咗上述原因而迫住要。例如戶、户、戸呢幾隻字…