« Movable Type 3.3 Beta 1 日本語版 と BlogWrite | メイン | Livedoor ブログのAtomAPIで障害発生中 »
2006年06月06日
波ダッシュ、チルダの件
ずっと昔からの問題となっていたわけですが、最近やっとチラホラと表舞台?で広く取り上げられつつある(というかそう期待している)波ダッシュとShift_JIS(CP932)の件なのですが...。
特に最近になって問題が表面化したのは、APIやRSS関連で、下記のようなケースが増えてきたからではないでしょうか。
(1)サーバー側でEUC-JPベースでデータを保存、または開発コードを作成。
(2)クライアント側がWindows(つまりShift_JIS)環境。
(3)両者のやり取りはUTF-8で行なわれる。
XML-RPCとかAtomAPIとかもろにこのようなケースに当てはまる事あ多く、実際BlogWriteでは以前から内部的に非常に美しくない様々な対処をしています。
■Livedoorブログ
「~」が「?」になってしまいます。ちょっと前までは、「~」が「〜」になってしまうだけで、少なくとも無理やり置換する事で対処出来ました。「〜」は普通にWindowsでは扱えず(左のは数値参照で表示させています)、「?」「・」「〓」に化けたりします。
ところが、いつの頃からかLivedoorブログ側で変更があったようで、投稿した段階かデータを取得した時点で既に「?」になってしまっています。これ BlogWrite側では復帰出来ない(本来の「?」と区別がつかない)感じ。
■Seesaaブログ
ちょと前まで、livedoorブログと同じく「~」が「〜」または化けた状態になってしまっていた。
という事で、仕方がないので、両者に対応するため、「~」をBlogWrite側で事前に、数値参照「~」に置換して送信していました。 所が、Seesaaブログでは何時の頃からか、「~」が表示されないという現象が起きるとの報告を最近ユーザーの方から頂きました...。数値参照を表示させない仕様になったようです。理由はわかりません。しかし、「~」自体は化けることはなくなったので、これに関しては内部で対処されたのでしょう。
という事で、Livedoorブログでの問題に対処しようとすると、Seesaaブログで問題が... Seesaaブログも数値参照を非表示にするなんて意味わからない...。
もうお手上げ状態。
大体において、Perlの例えば、Jcode.pm等を素で使ってEUC-JP <=> UTF-8変換した日本語をWindows環境で読み書きしたりすると化ける訳で、私の場合、Danさんには本当に申し訳ないですが、2年ほど前から自分が開発するPerlのアプリでは一切Jcodeの利用を取りやめ、代わりにUnicode::Japaneseを利用させてもらっています。
Jcode.pm等をメンテされてこられた開発者の立場のDanさんの仰っている事は100%納得できる訳で(対処しろとか言うつもりもまったくないです。Jcodeが悪いわけじゃないですから)すが、利用者としてはより実際問題として問題の起きない方を利用したい(して欲しい)となるのも同様に御理解いただきたいところであります。
なので、Livedoorさんも化けない方法を模索していただきたいなぁと思ったりしています。
関連リソース
http://www.kawa.net/works/jcode/uni-escape.html
http://as-is.net/blog/archives/000735.html
http://ja.wikipedia.org/wiki/%E6%B3%A2%E3%83%80%E3%83%83%E3%82%B7%E3%83%A5
http://www.asahi-net.or.jp/~wq6k-yn/code/wavedash.html
投稿者 BlogWrite担当 : 2006年06月06日 18:43
トラックバック
このエントリーのトラックバックURL:
http://www.witha.jp/b/mt-tb-hate-spam.cgi/380
コメント
BlogWrite、愛用させていただいています m(_ _)m
うちのブログは MovableType を EUC-JP でセッティングしているんですが、この間まで「~」は十字架みたいな文字に化けていました。なので、投稿後に MT の管理画面から当該文字を修正していたんですが、いつからかはわからないんですが、気がついたら「~」は文字化けしなくなってました。ただ最近は「-(全角のハイフン)」が十字架になっているようです。一応、情報としてご報告させていただきます。(投稿する時にこれらの文字は代用の効く他の文字で書くようにしていますので、実運用では問題になっていません)
投稿者 かげ : 2006年06月07日 23:44
かげ様、お返事が遅くなってしまい申し訳ありません。(1日数百通くるスパムコメントに埋もれてしまって発見が遅れました...済みません)
「-」も同じく受信時に置換しているのですが、ブログ側がEUC-JPだと確かに投稿しただけで表示上化けてしまうかもしれません...。お手数をおかけして申し訳ありません。
頭の痛い問題です...。
投稿者 BlogWrite担当 : 2006年06月09日 15:19

