表外漢字の正字化_01
常用漢字・人名用漢字を旧字体にする処理は非常に不完全ながら無理矢理ひと段落したことにし、続いてそれ以外の漢字を考えることにした。
新潮日本語漢字辞典を参照して
- 0213で大量にコード化された文字のうち、拡張新字体にあたる文字のリストアップ
- 不適切なJIS例示字形のリストアップ
- 異体字のうち字形・字体に大きな差がないにもかかわらず別コードの存在する(つまり入力ミスしそうな)文字のリストアップ
などを心がけたのだが、大きな失敗を犯した。
新潮日本語漢字辞典には、各種のJISコードは表示されているのだが、ユニコードの記載はない。
これを深く考慮せずシフトJISコードをメモしていたのだが、私の環境ではJIS X0208の範囲でしかシフトJIS入力が出来ないという事実を失念していた。
さらに、ユニコードが振られてあってもJISコードの振られていない異体字も存在することにまで気がまわらなかった。
結局、私がリストアップしたメモにあるコードは何の役にも立たないということが判明した。
で(気をとりなおして)、どこから手をつけていいのか苦慮したのだが、まず、表外漢字字体表(印刷標準字体)に合わせるべく変更された04JISの例示字形を道案内に、その変更処理をしつつ、部分字形を同じくするであろうところの拡張新字体を捜し出し、処理することから始めることにした。
なお、Pr5フォントの標準字形(JIS90)に対する処理を主に考える必要上、04に大量追加された(04JIS変更とリンクした)人名用漢字もこの段階で処理する。
また、JIS X0208_83入れ換えの22字やJIS X0213で新たにコードが追加されたいわゆる互換基準の29字も処理することになる。
タイトルは正字化としたが、その後の紆余曲折もあり、実質的には(私なりの)「いわゆる康煕字典体化」となっている。(以下、青字部分は書き換え・追加)
まず01回目、プレス発表の並び順に関連文字を……。
※090121画像サシカエ
※090121画像追加
●扱った表外字(04以前の人名用以外)
逢/迂/迦/逗/遡/遜/腿/辿/槌/鎚/辻/遁/謎/這/樋/逼/蓬/迄/鑓/漣-漣/迩-邇
芦/沪-濾/枦-櫨/䡎-轤/舮-艫/鈩-鑪/馿-驢/魲-鱸/粐/煽/扈/滬
扁/篇/翩/蝙/褊/諞/騙/唳/捩/綟/綮