「Unicode Technical Standard #37」の改訂案

866 :デフォルトの名無しさん:2008/10/16(木) 22:26:47
http://www.unicode.org/reports/tr37/tr37-4.html
まあ現状追認のためにはそうするしかないだろうけど
http://d.hatena.ne.jp/NAOI/20080718
あとこの20字をIVSにねじ込んで独立した符号位置の追加提案なしで済ませたいんだろうけど
ますますカオスに…

  • たぶん>>866さんは今回の改訂案を、「IVSにおける包摂規準の縛りをゆるくする」方向のものだと解釈しているのだろうけれど、変更箇所を読んだ印象としては、そのあたりのニュアンスは微妙なかんじ。*1 以下、今回の改訂案で追加されているテキスト(黄色地)とその直前の部分を引用。

IVSes are subject to the usual rules for variation sequences: unregistered IVSes (which are not in the database) should not be used in text interchange, and registered IVSes should be used only to restrict the rendering of their unified ideograph to the glyphic subset associated with the IVS in the database. Furthermore, variation selectors are default ignorable. This implies that registrants must ensure that the glyphic subset associated with an IVS is indeed a subset of the glyphs which are acceptable for the base character alone. Stated another way, this implies that all the shapes in the glyphic subset of an IVS must be reasonable possible renderings of the base character of that IVS. One possible way to determine this is to consider the unification rules for Han ideographs; see [Unicode], section 12.1 Han, and [ISO 10646], annex S. However, the unification rules do not need to be applied strictly: for example, can be considered a reasonable possible rendering of U+5036 , even though U+5036 and U+4FF1 are distinguished in the coding as a result of the source separation rule. The same considerations apply to other traditional glyph variants, which may or may not be distinguished by the unification rules.

  • で、適当に和訳。――IVSは、異体字シーケンスの通常の規則に従う。未登録の(データベースに存在しない)IVSは、テキストの交換に用いるべきでない。また、登録済みのIVSは、統合漢字の描画を、データベース中のIVSと関連付けられたグリフのサブセットに限定するためだけに用いるべきである。加えて、異体字選択子はデフォルト・イグノアブルである。したがって登録者は、あるIVSと関連付けられたグリフのサブセットが実際に基底文字単独のために認められるものであることを保証しなければならない。換言すればこれは、IVSにおけるグリフのサブセット中のすべての形状は、そのIVSの基底文字の考えうる正当な描画でなければならないことを意味している。それを決定する方法のひとつは、漢字の包摂規準を考慮することである(Unicodeの12.1節「漢字」およびISO 10646の附属書Sを参照)。しかし、包摂規準は厳密に適用される必要はない。たとえば、「俱」はU+5036「倶」の考えうる正当な描画であるが、原規格分離規則により、U+5036とU+4FF1は符号化において区別されている。同様のことが他の伝統的グリフ・ヴァリアントにも当てはまり、包摂規準によって区別される場合とされない場合がある。(08.10.19 コメント欄のご指摘により一部修正)

*1:また、今回の改訂案における「変更点(Modifications)」の項には「グリフのサブセットが漢字の包摂規準に拘束されることを明確化」とある。