アフィリエイト広告を利用しています
ファン
検索
<< 2024年04月 >>
1 2 3 4 5 6
7 8 9 10 11 12 13
21 22 23 24 25 26 27
28 29 30
最新記事
写真ギャラリー
最新コメント
タグクラウド
カテゴリーアーカイブ
プロフィール
はすからさんの画像
はすから
日別アーカイブ

広告

この広告は30日以上更新がないブログに表示されております。
新規記事の投稿を行うことで、非表示にすることが可能です。
posted by fanblog

2024年04月30日

ネットの謎文字コード訂正.mac

私は秀丸を愛用しています。
以下のマクロを作ったので、後日の自分の為、ここに晒しておこうと思います。
(文字コードとか勝手に変えられてしまわないよね?)
謎フォント1.png 例えば気になったネット記事を保存しておきたいと思うことがある。今回気になったのはこの記事。↓

https://toyokeizai.net/articles/-/746752?page=1

この記事内容はまぁ置いといて、いつもの通り、PRINT EDIT WE というアドオンを用いて、不用な広告を除外して、目的の記事だけPDFで保存出来ました。
しかし、その記事で検索をかけてもヒットしない場合があります。

謎フォント2.png 例えばこの記事を書いた「舟津昌平」という人の「舟」の字は——、

謎フォント3.png コピペしてテキストデータに表示させると、表示がおかしい。


謎フォント4.png それで、「舟」の字でPDF上で検索をかけても、「そんな文字はありません」と言われる


これは要するに、見た目が一緒でも文字コード上では別文字になっているからです。
ブラウザ上ではよろしいように表示されてますから気がつきませんが、保存して資料とし、後日検索してヒットしないのでは、困ります。それになんか、わたし、こういうの許せませんw

と言う訳で、こうした異文字?を置換する秀丸エディタのマクロを作りました。作りは単純ですが、この文字を集めたところを、褒めて欲しいなぁ(^_^)

後日、更に異文字を見つけたらUPDATEしていくつもりです。


さぁそういうわけで、作ったマクロが以下です。↓

----------<キリトリ線>-----------------------------
//ネットニュースのコピペの際、中国フォントなのか、独自のコードを使って表記している文字列データを、日本の当該コードに置き換えるためのマクロ。見つけた分のみ。完ぺきではない;
//見つけたのは???????????????????????????????????????????????????????????????????;
//これらの文字コードを調べて、検索文字列に代入して全置換をしている。なお、このマクロファイルはUTF-16形式で保存しないと秀丸は理解してくれない。;
replaceall "\u2EA0" , "民" , regular, nohilight;
replaceall "\u2EC4" , "西" , regular, nohilight;
replaceall "\u2ED1" , "長" , regular, nohilight;
replaceall "\u2EED" , "歯" , regular, nohilight;
replaceall "\u2F00" , "一" , regular, nohilight;
replaceall "\u2F06" , "二" , regular, nohilight;
replaceall "\u2F08" , "人" , regular, nohilight;
replaceall "\u2F0A" , "入" , regular, nohilight;
replaceall "\u2F12" , "力" , regular, nohilight;
replaceall "\u2F1F" , "土" , regular, nohilight;
replaceall "\u2F24" , "大" , regular, nohilight;
replaceall "\u2F25" , "女" , regular, nohilight;
replaceall "\u2F26" , "子" , regular, nohilight;
replaceall "\u2F2D" , "山" , regular, nohilight;
replaceall "\u2F2F" , "工" , regular, nohilight;
replaceall "\u2F30" , "己" , regular, nohilight;
replaceall "\u2F3C" , "心" , regular, nohilight;
replaceall "\u2F3F" , "手" , regular, nohilight;
replaceall "\u2F40" , "支" , regular, nohilight;
replaceall "\u2F42" , "文" , regular, nohilight;
replaceall "\u2F45" , "方" , regular, nohilight;
replaceall "\u2F47" , "日" , regular, nohilight;
replaceall "\u2F49" , "月" , regular, nohilight;
replaceall "\u2F4B" , "欠" , regular, nohilight;
replaceall "\u2F50" , "比" , regular, nohilight;
replaceall "\u2F52" , "氏" , regular, nohilight;
replaceall "\u2F54" , "水" , regular, nohilight;
replaceall "\u2F55" , "火" , regular, nohilight;
replaceall "\u2F5A" , "片" , regular, nohilight;
replaceall "\u2F62" , "甘" , regular, nohilight;
replaceall "\u2F63" , "生" , regular, nohilight;
replaceall "\u2F64" , "用" , regular, nohilight;
replaceall "\u2F6F" , "石" , regular, nohilight;
replaceall "\u2F70" , "示" , regular, nohilight;
replaceall "\u2F76" , "米" , regular, nohilight;
replaceall "\u2F81" , "肉" , regular, nohilight;
replaceall "\u2F82" , "臣" , regular, nohilight;
replaceall "\u2F83" , "自" , regular, nohilight;
replaceall "\u2F85" , "臼" , regular, nohilight;
replaceall "\u2F8F" , "行" , regular, nohilight;
replaceall "\u2F92" , "見" , regular, nohilight;
replaceall "\u2F94" , "言" , regular, nohilight;
replaceall "\u2F96" , "豆" , regular, nohilight;
replaceall "\u2F99" , "貝" , regular, nohilight;
replaceall "\u2F9A" , "赤" , regular, nohilight;
replaceall "\u2F9B" , "走" , regular, nohilight;
replaceall "\u2F9C" , "足" , regular, nohilight;
replaceall "\u2F9D" , "身" , regular, nohilight;
replaceall "\u2F9F" , "辛" , regular, nohilight;
replaceall "\u2FA5" , "里" , regular, nohilight;
replaceall "\u2FA6" , "金" , regular, nohilight;
replaceall "\u2FAF" , "面" , regular, nohilight;
replaceall "\u2FB0" , "革" , regular, nohilight;
replaceall "\u2FB7" , "食" , regular, nohilight;
replaceall "\u2FB8" , "首" , regular, nohilight;
replaceall "\u2FBA" , "馬" , regular, nohilight;
replaceall "\u2FBC" , "高" , regular, nohilight;
replaceall "\u2FC2" , "魚" , regular, nohilight;
replaceall "\u2FC3" , "鳥" , regular, nohilight;
replaceall "\u2FC7" , "麻" , regular, nohilight;
replaceall "\u2FCA" , "黒" , regular, nohilight;
replaceall "\u2FD0" , "鼻" , regular, nohilight;
replaceall "\u2F88" , "舟" , regular, nohilight;
replaceall "\u2F29" , "小" , regular, nohilight;
replaceall "\u2F6D" , "矛" , regular, nohilight;
replaceall "\u2F4C" , "止" , regular, nohilight;
replaceall "\u2F74" , "立" , regular, nohilight;
----------<キリトリ線>-----------------------------
×

この広告は30日以上新しい記事の更新がないブログに表示されております。

Build a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: