Unicode to CP932のフォールバック・マッピング

  • Unicode to CP932のテーブルをtwitterで教えてもらった*1。このテーブルで目を引くのは、Latin-1 Supplementブロックに限って、数多くのフォールバックが定義されていること。で、この部分を図にしてみた(フォントはMSゴシック)。


  • 2つずつ横に並べた文字のうち、左がオリジナルのUnicodeテキストで、右がそれをCP932に変換したもの。CP932の欄の白地は通常のマッピング、グレー地はマッピングなし、黄色地がフォルーバック。「Þ→T」や「ß→s」のような大胆な例も含まれる*2
  • フォールバックは、ゲタよりはマシかもしれない。しかし、たとえばOutlookやWinMailは、「ß」を警告もなしに「s」に変換して送信してしまう。それしか手段がないならともかく、UTF-8で送れば問題ないのに。というわけで、このフォールバック・テーブルの存在は、一応心に留めておいたほうがいいかもしれない。

*1:http://twitter.com/nalsh/status/20858059316

*2:円記号についてはグリフが変わっていないが……という話をはじめると長くなるので、今回はパス。