simaguni.plが半角カナの変換で文字化けする

私はサイトのアクセスログ解析に、at worksで配布されている、access.cgiを重宝して使わせて頂いている。

特に、
jcode.pl + simaguni.pl 版
は、サーバーにJcode.pmがインストールされていなくても、Googleから来る来訪者のUTF-8エンコードの検索キーワードを変換して読めるようにしてくれるので、大変重宝する。

ところが、このところ、文字化けしたままのキーワードが多くて難儀していた。キーワードの内容は分かっている。「オンドゥル」を半角カタカナで検索しているのだ。

どうも、simaguni.plのもつコードブックには、UTF-8の半角カタカナからシフトJISへ変換するテーブルが含まれていないようなのである。

そこで!

力ずくでテーブルを作成した(笑)。
手作業なので、コードのマッピングが間違っているかもしれない。
でも、そんなアバウトな対処方法でも、
少しでも半角カナを変換してやるぜコノヤロウ!
な方はお試しあれ。

hankakukatakana.txt

この内容を、simaguni.plのコードブック、
jipang8.txt
の末尾に追記するのだ。

ちなみにUTF-8→シフトJISの動作しか見てないのであとは知らない。

それと、半角のカタカナだけの場合UTF-8かどうかきちんと判別できないみたい。シフトJISの半角の「オンドゥル」は「弓爪・」になってしまった(苦笑)。
これはsimaguni.plではなく、report.cgiの文字コード判別ルーチンにかかっていると思う…。つかかなり難しそう。
Googleは何気なく処理してるなあ。すごいぜ。

半角カタカナと漢字が混在しているときもちょっと動作がおかしいみたいだ。
やっぱ、そう簡単には片づかないか。
結局コードテーブルの改造前と状況は大して変わってないのである。

About

2004年02月27日 12:42に投稿されたエントリーのページです。

ひとつ前の投稿は「Zoff」です。

次の投稿は「WinAmp 5.0.2のスキン」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Powered by
Movable Type 3.35