IVS本へのツッコミ・付録の「文字コード表」編

  • Unicode IVS/IVD入門』(田丸健三郎、小林龍生)へのツッコミ第2弾。この本は、巻末に付録として2つの文字コード表を掲載しており、ページ数では全体の約半分に及ぶのだが、これらの表にもいろいろ問題があるように思う。

「USC」が215回出現

  • 2つの文字コード表のうち「文字符号対応表(CP932とJIS文字コード)」(pp.218-325)のほうから見ていくこととする。
  • まず、全ページで(100ページ以上に渡って)「UCS」が「USC」になっている。

フォントの問題

  • 「IPAmj明朝」欄の表示に使われているのはIPAmj明朝ではなくIPAex明朝だと思う(下図を参照)。
  • ちょっとわけがわからない。


  • 「IPAmj明朝」欄の0x02から0x1b(制御文字領域)に記号や罫線素片が入っているが、IPAmj明朝にもIPAex明朝にも、このような文字は入っていない。
  • フォールバックで別のフォントが表示されているのだと思う。
  • 「0x0」〜「0xf」→「0x00」〜「0x0f」。

常用漢字」情報の問題

  • 「国語施策」欄には「常用」などの記載があるが、常用漢字の情報が2010年版ではなく1981年版に基づいている。
  • たとえば2010年に常用漢字に入った字である「牙」は「印標」、「麺」は「簡慣」、「亀」は空欄となっている。
  • 非常に危険だし、2013年に出版された文字コードの専門書で、これはないと思う。

「非推奨」問題

  • 「国語施策」欄の「非推(非推奨)」は、JIS83で入れ替えられたペアのうち略字側(が簡易慣用字体や個別デザイン差でない場合)に付いているようだが、人名用漢字がまったく考慮されていない。
  • このため、たとえば人名用漢字の「遥」まで「非推奨」になってしまっている。
  • あんまりだと思う。

正規化バケ

  • Unicode正規化について解説している本なのに(というか、市販されている書籍でこんなのを見たのははじめてだが)、CJK互換漢字が正規化バケで全滅(上の画像は、その一部)。
  • おそらく、CJK互換漢字を含むプレーンテキストをAdobeアプリにペーストした結果、正規化形式C(NFC)を喰らって統合漢字に化けたのだろう(CJK互換漢字がやられたようだな)。

JIS X 0208非漢字」の基準が不明

  • 上の画像の「非」は「JIS X 0208非漢字」の意味だが、0x21から0x7eまでの文字のうち0x3f(?)と0x5c(\)だけが「JIS X 0208非漢字」とされている理由がわからない。

「区分」欄について

  • NEC選定IBM拡張文字」かつ「JIS X 0213第3水準」であるような文字の場合、「区分」欄にどちらの情報を優先して記載するかの基準がグシャグシャ(上の画像中の文字は、すべてCP932にもJIS X 0213にも含まれるもの)。
  • 47区以前だと「NEC選定IBM拡張文字」、84区以降だと「JIS X 0213第3水準」となっているような(?)。

「JIS面区点」欄について



  • CP932で重複符号化されている文字の場合、「JIS面区点」欄に最初の1回だけしか記載がない理由がわからない。
  • たとえば「∵」(U+2235)は3回出てくるが、「JIS面区点」欄に「1-02-72」と入っているのは1回目のみで、2回目以降は空欄。
  • これでは、たとえばCP932の0xfa5bについて調べようとしたとき、「JISに入っていない」ように見えてしまう。

p.218

  • 0x2c(コンマ)が飛んでいる。

p.159

コードページ932(CP932と略)は、いわゆるJIS X 0208:1990をベースにMS-DOSの時代に各メーカーが独自に追加した文字を整理統合し《以下略》

  • 文字コード表」の前文からの引用。
  • どうでもいいことだが、ネタとして突っ込んでおく。その「いわゆる」って、必要か?

p.160

  • ここからは、(順序は掲載順とは逆になるが)2つの文字コード表のうち「文字符号対応表(JIS X 0213から)」(pp.160-217)について。
  • 1-01-13「´」と1-01-15「¨」が飛んでいる。

p.164

p.165

pp.200-204

  • 1面84区以降の常用漢字表康煕別掲字がすべて重複(14区・15区のものは重複していない)。画像はその一部。

p.201

  • 1-86-88から1-88-13の間で多くの文字が抜けている(面区点番号が連続していないとおかしい)。
  • 康煕別掲字の重複については、前項で述べたとおり。いちばん上の「渴」も(ペアが別の列にあるので見えないが)重複。「猪」と「琢」もJIS X 0213で追加された旧字体だが、常用漢字表康煕別掲字ではなく人名用漢字許容字体なので(?)、重複していない。
  • 1-87-05は旧字体の「漢」だが、新字体の「漢」に化けている。おそらくAdobeアプリに手動でコピペした際に正規化バケしたのだろう。