わたしのブログ

わたしのブログ

PR

サイド自由欄

カレンダー

キーワードサーチ

▼キーワード検索

フリーページ

2010.11.11
XML
カテゴリ: ブログ
楽天ブログデータの吸い上げの続きです。

gzipに圧縮されたデータに対応できたので、再度楽天ブログのページをダウンロードしようとしてみたところ、トップページを吸い上げたところでリンク先の参照中になにやらエラーが発生してしまいました。

ダウンロードしたページをエディタを開いてみてみると、漢字が文字化けしています。
よくよく見ると

meta http-equiv="Content-Type" content="text/html; charset=UTF-8"

(htmlタグは楽天ブログの編集画面で入力できないようなので "<"と">"は削除しています)

という行が目に付きました。

普段はブログのエディタで編集しているので気がつきませんでしたが、ブログのデータはUTF-8で管理されているようです。
昔は漢字といえば SJISかEUCだったのですが、最近はUTF-8がはやりのようです。



なにやら UTF-8の漢字コードがまざったテキストを CStringに代入して処理しているところで、おかしくなっています。

うーむ…

UTF-8をSJISに変換してから作業をすすめれば問題は解消しそうですが、HTML内で漢字コードをUTF-8と宣言してしまっているようなので、勝手に漢字コードを変換してしまうと、そのままファイルを再利用できなくなります。

ちょっと挫折です…






お気に入りの記事を「いいね!」で応援しよう

最終更新日  2010.11.15 03:27:00
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

© Rakuten Group, Inc.
X
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: