IVS本へのツッコミ・付録の「文字コード表」編
- 『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)へのツッコミ第2弾。この本は、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。
「USC」が215回出現
フォントの問題
- 「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う(下図を参照)。
- ちょっとわけがわからない。
- 「IPAmj明朝」欄の0x02から0x1b(制御文字領域)に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。
- フォールバックで別のフォントが表示されているのだと思う。
- 「0x0」〜「0xf」→「0x00」〜「0x0f」。
「常用漢字」情報の問題
「非推奨」問題
正規化バケ
- Unicode正規化について解説している本なのに(というか、市販されている書籍でこんなのを見たのははじめてだが)、CJK互換漢字が正規化バケで全滅(上の画像は、その一部)。
- おそらく、CJK互換漢字を含むプレーンテキストをAdobeアプリにペーストした結果、正規化形式C(NFC)を喰らって統合漢字に化けたのだろう(CJK互換漢字がやられたようだな)。
「JIS X 0208非漢字」の基準が不明
- 上の画像の「非」は「JIS X 0208非漢字」の意味だが、0x21から0x7eまでの文字のうち0x3f(?)と0x5c(\)だけが「JIS X 0208非漢字」とされている理由がわからない。
「区分」欄について
- 「NEC選定IBM拡張文字」かつ「JIS X 0213第3水準」であるような文字の場合、「区分」欄にどちらの情報を優先して記載するかの基準がグシャグシャ(上の画像中の文字は、すべてCP932にもJIS X 0213にも含まれるもの)。
- 47区以前だと「NEC選定IBM拡張文字」、84区以降だと「JIS X 0213第3水準」となっているような(?)。
「JIS面区点」欄について
- CP932で重複符号化されている文字の場合、「JIS面区点」欄に最初の1回だけしか記載がない理由がわからない。
- たとえば「∵」(U+2235)は3回出てくるが、「JIS面区点」欄に「1-02-72」と入っているのは1回目のみで、2回目以降は空欄。
- これでは、たとえばCP932の0xfa5bについて調べようとしたとき、「JISに入っていない」ように見えてしまう。
p.159
コードページ932(CP932と略)は、いわゆるJIS X 0208:1990をベースにMS-DOSの時代に各メーカーが独自に追加した文字を整理統合し《以下略》
- 「文字コード表」の前文からの引用。
- どうでもいいことだが、ネタとして突っ込んでおく。その「いわゆる」って、必要か?
p.160
- ここからは、(順序は掲載順とは逆になるが)2つの文字コード表のうち「文字符号対応表(JIS X 0213から)」(pp.160-217)について。
- 1-01-13「´」と1-01-15「¨」が飛んでいる。