睡人亭

文字コード入門

台湾の文字コード

BIG5(大五碼)

1984年に資訊工業策進会が公布した13,461字の文字表です。当時の五大コンピュータ関連メーカーが調整して制定されたためにBIG5の名称で呼ばれます。公的な規格ではありませんが、台湾では実質的な標準規格として普及してきました。

文字表

文字表は、16進数4桁の番号が割り振られています。符号化に際しては、文字番号をそのまま2byteにエンコードして利用しています。

第一水準・第二水準とも、総画数(同一画数内は部首順)に並んでいます。

A140~A3BF
非漢字408文字(単位用漢字9字を含む)が収録されています。
A440~C67E
「第一水準」漢字5,401文字が収録されています。
C940~F9D5
「第二水準」漢字7,652文字が収録されています。
Big5:第一水準文字表の一部
0 1 2 3 4 5 6 7 8 9 A B C D E F
A440
A450
A460
A470
A4A1
A4B0
A4C0
A4D0 廿
A4E0
A4F0
Big5:第二水準文字表の一部
0 1 2 3 4 5 6 7 8 9 A B C D E F
C940
C950 巿
C960
C970
C9A1 氿
C9B0
C9C0
C9D0 奿
C9E0
C9F0

CNS 11643-1986

1986年に経済部中央標準局が公布した13,735字の文字表です。BIG5とは異なり、こちらは正式な国家規格として制定されました。規格のWebサイト

BIG5と同じく16進数4桁の文字番号を持ち、「第一字面」と「第二字面」から構成されます。BIG5との互換性を持っていますが、BIG5で複数登録されていた漢字は一文字に纏められています(前ページの表参照)。

第一字面と第二字面の重複字
文字重複している番号
A461C94A
DCD1DDFC

また、BIG5の画数部首配列を一部訂正したことにより、BIG5の文字配列とは異なる個所が多く見られます。

Unicode2.1のCJK統合漢字領域に収録されていますので、日本語オペレーティングシステム+アプリケーションがUnicode2.1に対応していれば利用可能です。

文字一覧はこちら(第一字面)こちら(第二字面)(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)

通用漢字標準交換碼

1988年に行政院主計処電子処理資料中心発表した6,319字の漢字表です。俗に「第十四字面」とも呼ばれるのは、CNS 11643の「第十四字面」として使われることを想定したためです。

16進数4桁の文字番号を持ち、第一部と第二部で構成されています。

2121~6246
「第一部」漢字6,148文字が収録されています。
6247~6435
「第二部」漢字171文字が収録されています。

CNS 11643「第一・第二字面」の異体字が多く収録されており、その多く(4,197文字)がUnicode2.1のCJK統合漢字領域に収録されることになります。そのため、JISの新旧字体と並び、Unicodeのコードセパレート問題を生じる要因となりました。

第十四字面 第一部の一部
0 1 2 3 4 5 6 7 8 9 A B C D E F
2120 丿
2130 广
2140
2150
2160
2170

CNS 11643-1992

1992年に経済部中央標準局が公布した48,711字の文字表で、CNS 11643-1986の改訂版になります。

「第一字面」「第二字面」
CNS 11643-1986と同じになります。
「第三字面」
「第十四字面」の「第一部」と同じになります。
文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)
「第四字面」
2121~6E5Cに漢字7,298文字が収録されています。
総画数順に並んでいます。
「第十四字面」の「第二部」漢字171文字を全て含みます。
文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)
「第五字面」
2121~7C51に漢字8,603文字が収録されています。
総画数順に並んでいます。
文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)
「第六字面」
2121~647Aに十四画以下の漢字6,388文字が収録されています。
文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)
「第七字面」
2121~6655に十五画以上の漢字6,539文字が収録されています。
「第六・七字面」まとめて総画数順に並んでいます。
文字一覧はこちら(京都大学人文科学研究所 安岡孝一氏のWebサイト掲載のもの)
罕用字体表
1986年に教育部から公布された18,480字の漢字表で、「常用国字標準字体表」「次常用国字標準字体表」以外に使われる場合のある漢字を収録 しています。
「第一~第五字面」には「罕用字体表」18,480文字を全て含んでいます。
「第六・第七字面」は「異体国字字表」の漢字を収録しています。
異体国字字表
1984年以降教育部が改訂を続ける漢字表で、「常用国字標準字体表」「次常用国字標準字体表」の異体字を収録しています。

Unicodeとの関係

CNS11643の1~15面収録文字とUnicodeとの対応については、以下の通り。

公式サイトの全字庫現況→CNS11643與Unicode對應表を参照。

  • CNS11643収録文字:102637
  • UnicodeのBMP領域収録文字:39141
  • 拡張第二面(B・C)収録文字:43239
  • 拡張第15面(私的領域)収録文字:20257