CJK互換漢字がやられたようだな



Adobe-Japan1 IVS「CJK互換漢字がやられたようだな」*1

Hanyo-Denshi IVS「ククク、奴は四天王の中でも最弱」*2

CJK互換漢字Srandardized VariantNFCごときで置換されるとは、我ら重複符号化四天王の面汚しよ……」*3


CJK互換漢字Srandarized Variantの提案書 ftp://std.dkuug.dk/ftp.anonymous/JTC1/SC2/WG2/docs/n4246.pdf
それに対する反論(JSC2の関口正裕氏) ftp://std.dkuug.dk/ftp.anonymous/JTC1/SC2/WG2/docs/n4247.pdf *4
それに対する回答 ftp://std.dkuug.dk/ftp.anonymous/JTC1/SC2/WG2/docs/n4309.pdf

提案者であるKen Lundeさんによる解説1 http://blogs.adobe.com/CCJKType/2012/12/standardized-variants.html
提案者であるKen Lundeさんによる解説2 http://blogs.adobe.com/CCJKType/2012/12/standardized-variants-2.html
提案者であるKen Lundeさんによる解説3 http://blogs.adobe.com/CCJKType/2012/12/standardized-variants-3.html

*1:半年くらい前にツイートしたネタに図と註を付けた焼き直しエントリ。CJK互換漢字をSafariのフォーム、Macのメールアプリ、Adobeアプリなどにペーストすると、化けてしまう。たとえば「神」は「神」になる。

*2:CJK互換漢字がペーストで化けるのは、主にNFCというUnicode正規化のせいだが、4種類の正規化形式のどれでも化ける。MacファイルシステムであるHFS Plusはこの問題を回避するために、「互換漢字などを置き換えないよう手を加えたNFD」を採用している。

*3:IVS(異体字シーケンス)のコレクションには、現在Adobe-Japan1とHanyo-Denshiの2種類があり、たとえば旧字体の「神」は、その両方に重複して登録されている。これらは正規化で置き換えられてしまうことはないが、もともとIVSは互換漢字を救うという発想の枠組みではなく、CJK互換漢字で表現できる「神」のような文字をわざわざ(常に)IVSで表現するという運用は期待できない。そこで、「CJK互換漢字が正規化で置き換えられてしまう問題」にフォーカスした提案として登場したのが、CJK互換漢字Standardized Variant。これは、「CJK互換漢字は将来的には一律にこの形式で表現するようにしましょう」という発想のソリューションで、その考え方はわかるのだけれど、要するに、ただでさえ複雑に重複しているところに、また重複を増やす提案でもあるわけで、どうなのだろうというかんじ。

*4:この文書(関口氏による反論)中の「IT企業のエンジニアのひとりとして働いてるけど、互換漢字が正規化のせいで消えたなんて話は聞いたこともないぜ(大意)」という一節にぶち切れた感銘を受けた@monokano先生が、正規化によって失われたCJK互換漢字の恨めしい心情を定期的にツイートする@AfterNormalize(Lost in N11n)を開発し、提供している。