IVS本へのツッコミ・第2章まで

カバー

われわれ日本語の処理にかかわるわるIT技術者にとって

  • 「かかわるわる」→「かかわる」。

はじめに

われわれ日本語の処理にかかわるわるIT技術者にとって

  • 「かかわるわる」→「かかわる」。

p.12

(文字情報基盤整備事業の説明として)

具体的には、図2-1 行政システムで使用する文字に示す7万近くの文字を対象としています。

  • 戸籍統一文字と住基統一文字の総数を単純に足すと7万字を超えるし、重複を除くと6万字程度。いずれにせよ「7万近く」ではない。
  • 図2-1の数字が古い。戸籍統一文字は「56,040字」ではなく「56,044字」、住基統一文字は「21,039字」ではなく「21,170字」。

p.13

  • 「漢字情報テーブル」という言葉がこの図の中にのみ出てくるが、これは文字情報基盤整備事業ではなく汎用電子情報交換環境整備プログラムの用語では?
  • 戸籍統一文字と住基統一文字の数字が古い(汎用電子の図だと思えば、数字が古いのは当然)。
  • 汎用電子の「67,951字」は登記固有文字を含む数だが、文字情報基盤では(少なくとも今のところは)登記固有文字は対象外では?

開発されたフォントは、先の漢字7万時を収容しており、「IPAmj明朝」として独立行政法人 情報処理推進機構のWebサイトよりダウンロードできます。

  • 「漢字7万時」の「時」→「字」。
  • IPAmj明朝のグリフ数は非漢字も含めて約6万。漢字は7万も入っていない。

p.17

IVS(Ideographicn Variation Sequence)を含む文字を制限する

  • 「Ideographicn」→「Ideographic」。

サロゲートペアを含む候補の表示、入力することができるが、異体字セレクターを含む文字を変換候補に表示しない。

このほか、Windows 8では、入力文字を制限しない設定で「いばら」と入力するとJIS X 0208:1990とJIS X 0213:2004の両方の字形の「茨」が表示されますが、地名として「いばらき」と入力した場合は、正しいJIS X 0213:2004の字形との組み合わせのみが候補として表示されます。このように、Microsoft IMEは、「変換文字制限をしない」に設定することで、可能性のある組み合わせを全て表示するということではなく、「正しい」組み合わせのみを表示し、誤変換とならないようにしています。

  • 「茨城」または「茨木」という地名において、「JIS X 0213:2004の字形」のみを「正しい」としている根拠が不明。改定常用漢字表は、「茨」の違いを「デザイン差」(字体の上からは全く問題にする必要のないもの)としている。

p.20

JIS X 0213:2004で字形が変更された文字は168字ありました。Windows Vistaでは、JIS X 0213:2004に対応するために、Windowsの標準日本語フォントの文字122字の字形を変更しました。

  • Vistaにおける変更は「122字」ではない。JIS04で変更された168字の範囲に限っても、MS明朝ではバージョン2.31→バージョン5.0で135字の字形が変更されている。「122字」はMS明朝バージョン5.0とバージョン2.5(JIS90互換フォントパッケージ)の差、あるいはMS明朝がOpenTypeフィーチャ「jp90」で置換の対象としている文字数。

Windows 8の標準日本語フォントにおける異体字への対応は、Windows Vistaで字形を変更した122(−1)字のみとなっています。

  • 「122(−1)字」ということは、121字だと思うが、実際にMS明朝・MSゴシックがサポートしてるIVSは122字。また、メイリオがサポートしているIVSは127字。

Unicode IVDには2010年7月の時点でHanyo-Denshi、Adobe-Japan1の二つのコレクションが登録されており、14,999の符号位置に対して、それぞれ合計13,045、14,679の字形が登録されています。

  • http://www.unicode.org/ivd/data/2012-03-02/IVD_Sequences.txtで数えると基底文字は15,020字だが、「14,999字」はどこから来た数字?
  • それから、正確に言うと、Adobe-Japan1コレクションの「14,679」は字形(グリフ)ではなく登録されているシーケンスの数(同じグリフが複数のシーケンスで登録されている場合がある)。

p.21

(「表2-4 搭載フォントの違い」における「Windows 8」の「バージョン」欄)


■Version 6.11(Meiryo、Meiryo UI)

  • Version 6.12では?

p.22

OpenTypeフォントがサポートする最大文字数は、一つのフォントファイルあたり16ビット整数の最大値である65,535字です。

  • 「16ビット整数の最大値」は65535だが、「OpenTypeフォントがサポートする最大文字数」は65,536字では?

p.23

メイリオ」フォントは、Meiryo & Meiryo Italic.ttc、およびMeiryo Bold & Beiryo Bold Italic.ttcの二つより構成されています。

  • 「Beiryo Bold Italic」→「Meiryo Bold Italic」。

p.24

注1) YaHei ― 簡体字のフォント。主に中国本土、シンガポールで使用されている字体を収容。
注2) JhengHei ― フォント。主に香港、台湾で使用されている字体を収容。

  • JhengHeiの「フォント」は、たぶん「繁体字のフォント」と言いたかったのではないかと思う。

pp.26-29

これまで紹介してきたように、Windows 8におけるUnicode IVSサポートは、OS内部の処理における異体字セレクターのサポート、そしてJIS X 0208:1990の字形を表示する上で必要となる122(−1)字の追加グリフのサポートに留まります。

  • 「122(−1)字」は「喩」を含むものと思われるが、「55A9 E0102」は「JIS X 0208:1990の字形」ではない。
  • 「122(−1)字」ということは、121字だと思うが、実際にMS明朝・MSゴシックがサポートしてるIVSは122字。また、メイリオがサポートしているIVSは127字。
  • MS明朝におけるIVSサポートで「122(−1)字」に含まれていない(が、実際にはサポートされている)と思われるのが「濹」であり、この字は「表2-7 Windows 8におけるJIS X 0208:1990字形と異体字セレクター」にも含まれているが、その説明がない。
  • 「122(−1)字」の「−1」は「筵」だと思うが、その説明がない。

表2-7 Windows 8におけるJIS X 0208:1990字形と異体字セレクタは、マイクロソフトWindows Vistaで字形をJIS X 0213:2004字形に変更した文字、そしてWindows 8Unicode IVDの仕組みにより表示を可能にした文字とその異体字セレクターの一覧です(MS122は、Windows Vistaで字形変更した文字)。

  • マイクロソフトWindows Vistaで字形をJIS X 0213:2004字形に変更した文字《中略》の一覧です」とあるが、表2-7は「マイクロソフトWindows Vistaで字形をJIS X 0213:2004字形に変更した文字」を網羅していない。たとえば補助漢字グリフから0213グリフに変更された「晷」などが入っていない。
  • 「MS122は、Windows Vistaで字形変更した文字」とあるが、「Windows Vistaで字形変更した文字」は122文字ではない。MS122は、MS明朝バージョン5.0とバージョン2.5(JIS90互換フォントパッケージ)で字形の異なる文字、あるいはMS明朝がOpenTypeフィーチャ「jp90」で置換の対象としている文字。


  • Windows 8におけるJIS X 0208:1990字形と異体字セレクター」というタイトルの表なのに、字形欄のフォントがリュウミンで、何が「Windows 8における」なのかわからない。
  • 表に掲載されている文字のうち、どれが「Windows 8Unicode IVDの仕組みにより表示を可能にした文字」なのかがわからない。「MS122欄に○が入っている文字」(122字)から「筵」を除いて「濹」を加えた122字がそうなのだが、それが示されていない。
  • JIS90欄の意味が不明。「Windows 8においてMS明朝が用いる異体字セレクタ」でも「JIS90グリフを指示するための異体字セレクタ」でもない。
  • タイトルに「JIS X 0213:2004で字形変更された168字のうち」とあるが、そうではない「喩」と「濹」が、註もなしに入っている。
  • 「喩」と「濹」の字形欄のグリフがJIS04グリフになっている。
  • 「喩」と「濹」の異体字セレクタが掲載されていない。
  • 異体字セレクタを付けても(Adobe-Japan1フォントでも)表示が変わらない「蟹牽膏屡棘橙祟靄」のJIS90欄に異体字セレクタが掲載されている理由が説明されていない。

p.31

図2-11 IVSを含む文章の例では、「邉」、「邊」、「斎」、「龍」の異体字をユーザー定義文字(外字)を使用することなく、ドキュメントの中で使用しています。

  • 『「邉」、「邊」、「斎」、「龍」』→『「辺」、「邉」、「邊」、「斎」、「龍」』。

  • どうでもいいことだが、それは「文章」ではないだろう。

p.48


p.54

Windows標準フォント(MS明朝、MS P明朝、MSゴシック、MS Pゴシックメイリオ、Meiryo UI)がサポートするUnicode IVSを使用する文字は、Adobe-Japan1コレクションを使用したJIS90字形の122字に限定されます。

  • メイリオ、Meiryo UIのIVSサポートは、122字ではなく127字(プラス分の5字は「JIS90字形」ではない)。
  • MS明朝、MS P明朝、MSゴシック、MS PゴシックのIVSサポート122字のうち「濹」は「JIS90字形」ではない(JIS X 0208に含まれていない)。