全75件 (75件中 1-50件目)

この3ヶ月で楽天経由で買った肉類の一覧。ちなみに黒毛和牛の切り落としは1,280円のときに買ったが、今は 1630円になっている。自分が買ったときには安かったので 2Kg まとめて買った(冷凍状態で来るので、いったん軽く自然解凍して小分けにできる状態になったらラップに小分けにして再冷凍して、必要な分だけ取り出して食べた)。馬肉は刺身でばくばく食べた。馬肉や鯨肉の赤身は牛肉に比べて脂肪も少ないし体によいはず。貴重なタンパク源。菅乃屋の馬肉はちょっと高いがそれなりにうまい。鯨は昔食べたような硬くて癖のあるようなものでなくて、もうちょっとよいものなので、昔風味で食べたいなら刺身でなくて適当に火を通した方がそれっぽい味になる。カニはさすがに多すぎてちょっと飽きた。ダイエット初期だったので、意識してあえて肉を食べたりしていた。けど、やっぱり肉類よりも炭水化物の方が好きなんだなぁ。加えて甘いものと。で、これを抑えて肉を食うようにしていたわけ。なんだかんだで食いまくっているから、ダイエットをまじめに始めてからまだ3kgしか減っていない。目標まであと5kg。まあ、速度は遅いが、着実に減っているのでよしとする。リバウンドしないように1ヶ月1,2 kg 程度でのんびり痩せるかなと思う今日この頃。馬肉セット桜 3,675 円 (送料込)馬刺し屋の賄い新人王セット 1999円馬ホルモン 630 円牛肉黒毛和牛 切り落とし 1Kg 1,630 円鯨肉ミンク鯨 1,300 円鯨の心臓 1,500 円ナガスクジラ 1,500 円魚カツオのたたき 3kg 3,675 円あじ干物 980 円蟹ズワイガニ 5000円
2006.10.31
コメント(0)
![]()
Yet Another 仕事のツール 第46回 茶筌とMUSASHIで純和風テキストマイニング で MUSASHI (Mining Utilities and System Architecture for Scalable processing of HIstorical data) が扱われているので読んでみる。MUSASHI はシェルスクリプト中でコマンドをパイプでつないでいくタイプのシステムなので、何かに別のシステム(ウェブサイト等)に結果を組み込んだりするときには使い勝手は楽でよいかもしれない。「一つのコマンドは一つの処理」というシンプルさがいい。けど、数値データを扱うにはよいかもしれないが、テキストマイニングに使うのであればやっぱり KH Coder の方がいいな。別に結果を外だしにしたければ、DB にクエリをかけるスクリプト書いてしまえばいいわけだし。Yet Another ... のようなものなら SQL 文一発で出せるし。。。。あんまり魅力的な例ではないな。けど辞書の改良するときに、案外便利な使い方ができそうな気がしてきた。その他にも使い方によっては KH Coder でいったんデータを作ったものを MUSASHI に渡してあれこれやるのはありかな。玄箱 - MUSASHIをつかってみる情報の中の実態を斬れ - データマイニングツールMUSASHIとはWebのアクセスログで経路分析をしたいYet Another 仕事のツール 第11回 データマイニングツール MUSASHI(1)データマイニングツール MUSASHI(5) MUSASHIとWEKA に MUSASHI の結果を WEKA を使って視覚化している。Weka は Java で書かれたデータマイニングソフトウェアで、本来は機械学習のアルゴリズムを豊富に備えていてそうした処理をするものだけれど、視覚化することのみのために上記の記事では使っているようだ。でもって、Weka は Pentaho というビジネス・インテリジェンスのオープンソースプロジェクトに参加したようだ。Product Overviewのあたりを見てみる。Pentaho は機能としては次のようなものがあり、ReportingAnalysisDashboards Data MiningWorkflowFrameworkPentaho プロジェクトには次のオープンソースのプロジェクトが加わっているようだ。Mondrian - Open Source OLAP ServerJFreeReport - Open Source ReportingKettle - Open Source Data Integration (E.T.T.L.)Pentaho - Comprehensive Open Source BI SuiteWeka - Open Source Data Miningへぇー、こんなものあったのか。オープンソースBIの潮流を見たら、Pentaho って、Cognos、Hyperion、Oracle、SASなどのBIベンダー出身者が設立。なのね。Pentahoプロジェクト を見ると日本語でだいたいのイメージがつかめる。最近、こちらの方面に興味がなかったから、こういう状況になっているとは知らなかった。というか、Eclipse Foundation,BI/レポーティング・ツールの新版「BIRT 2.0」を公開 などの記事を見ているかもしれないが記憶に残っていなかった。そのときに興味がないと記憶に残らないものだな。それにしても、最近、ほんとうにオープンソースですごいものがどんどんどんどんどんどん出てくる。
2006.10.29
コメント(0)
KH Coderのリファレンス・マニュアルを一通り読んでみた。よく考えて作っているなぁと思った。外部変数と連携させて(例えば、アンケートの自由回答入力と、性別(男・女))をクロス集計できたりとか、「無記入・空白の行に対応」を指定すれば、自由回答の欠損値を表すのに空行を入れているような場合、空行を1つの段落としてカウントしてくれたりなど、アンケート調査で使いやすいようになっている。また、WordMiner や SPSS で処理を行いたい場合の外部ファイルへの出力もできたりする。コーディングルールなども、カバー率を確認できるように頻度とパーセントが単純集計できるようになっていたり、なかなかよい。地道に改良が進んでいるのね。これはよく GPL で公開してくれましたといった類のソフトだと思う。Perl/Tk で書かれているから、Windows, GNU/Linux, MacOS とどのプラットフォームでも動くというすばらしいさ。もっとも、Python だったらなお良かったんだけどなぁ。。。。SQL 文も直接入力できるようにインターフェイスが作られているから、他のツールを使わずに DB を直接参照できるところもいい。plugin を書いてうまく使えば効率的に作業もできそう。何にせよ、これはけっこう遊べる。樋口耕一さんの博士論文 計量テキスト分析の方法と実践 も読んでみる。チュートリアルやリファレンス・マニュアルも論文の中に含まれているものを切り出したものなのね。で、これを読むと、どういう意図で作ったのかが分かる。なぜそのソフトが作られたかという文脈を知るっていうのは、暗黙のマップを頭に作ることになって、ソフトを使うときの手助けになるんだな。論文としても、先行研究などまとまっていておもしろいが、やっぱりコーディング・システムって、それ自体が一つの大きな課題なのだなぁと思う。そういえば KT2 も使ってみようかな。KT2 は、用語集抽出、用語と出現位置のクロスさせた頻度表を作るシステムらしい。1999年春に KTCoder として発表され、以降改良を重ねて KT2システムとして無償配布されているもの。形態素解析を使わずに字種区切りをベースとして用語抽出していくようだ。非定型データのコーディング・システムとその利用 と 用語の出現傾向を可視化することによる文章理解 - 宗教的ライフヒストリーの分析地図を読む。地図分析ってやっぱり手法としておもしろい。そういえば、以前に、これ読んだことあったなぁ。すぐ忘れてしまう。『奔馬』の小説構造可視化 --三島由紀夫『豊饒の海』の絵解き-- や 日本語文章における重要語の出現位置に関する分析、物語:推理小説 &日本語文章の分析と可視可、『人工知能と人間/長尾真』のテキスト可視化 なども眺めてみた。出現位置を地図化/可視化するというのもおもしろい。この手の可視化のおもしろいところは、可視化されると、なんとなく分かった気になれる一方で、実は、見る人によってとらえ方が異なって解釈が多様化しちゃうところだったりして。要するに可視化は新たな開始点であって終末点ではないと。信号メタファー(赤青黄色の標識による可視化)との大きな違い。信号メタファーだと、青(思考停止で OK)、黄色(思考せよ、必要な対処を早めに取れ)、赤色(すぐに行動せよ)。その標識自体の解釈の多様性は狭い。これに対して、把握するためのマップ化は、切り口を提供するものであって、それ自体が標識にはならない。けれども、テキスト分析の結果を青黄赤で示す場合もあるな。いわゆるクチコミ分析で悪い評判が書かれていたら抽出するようなものの類。あるいはクレーム処理の類。解釈のための可視化と行動のための可視化か。KH Coder を使ってもコーディングルールをがんばって書けば、最終的に信号メタファーの分析はできるか。結局、コーディングルールを作るのがめんどくさい。コーディングルールを自動学習、あるいは提案するようなものがあればよいのだな。
2006.10.29
コメント(0)
![]()
歯痛がひどくてダメとか言う割には、甘いモノを食べたりしている。栗抹茶だいふくを食べる。うま~い。栗が丸ごと一つ入っている。栗は柔らなくて虫歯状態でも大丈夫。ほんの一時、歯の痛みが消える。幸せ。というか、鎮痛剤飲んだのが効いて来て痛みが和らいでいるだけだったのだが。それにしても、虫歯の時に甘いものを食べるなんて無謀なことを。でも、こんなに酷いことになると思わないで買ってしまって届いちゃったからさぁ。。。抹茶も久々にまとめ買いしたので、まずは一番安い開ける。伊藤久右衛門の抹茶は一番安いもの(30g 1,050 円)でも、値段の割にまともな方かな。色も悪くない。このぐらいの質だと、抹茶菓子に使ったときにいい色出るかもしれない。この店が抹茶にこだわりをもっている というのはウソじゃないと思う。栗抹茶だいふく、むちゃくちゃうまいこのお店は、やっぱりよいね。一番安い抹茶でもそれなりの味。ちょっと苦みがあるのだけど、飲み終わった後には苦みが残らず甘みが残る感じ。色も値段の割に深い緑でいい色。お茶菓子と一緒ならこの程度でも十分満足できる。ただ缶の中はビニールの袋なのだが、これのせいもあるのか、ちょっとダマになりやすい感じがあるかな。
2006.10.29
コメント(0)
KH Coder を少し使い込んでみようかと、まず、チュートリアルをやってみることにした。一通りやってみる。Excel の等高線グラフって、今まで使ったことがなかった。等高線グラフに表すと分かりやすくなることもあるんだなぁと本筋でないところで関心する。KH Coder の結果をペースとしてメニュー一発で表示できるようになっているお手軽さはいい。チュートリアル自体は親切に書かれているので順に試していけば、特に苦労することもなく操作の基本が理解できるようになっている。地道にテキストを分析していくのであれば十分な機能だと思うが、コーディングルールは作るのが面倒。作業的には力技だけれども、そこに恣意性が入り込む。主体的な操作であれば問題ないが、この手順でやるとあまりたくさんのテキストを分析するのは辛いかな。1つのテキストを読み込むタイプのマイニングにはよいが、複数のテキスト間の差異に着目する場合は、この恣意性が問題になると思う。もっとも、KH Coder が使うデータはデータベースに入っているのだから、自分であれこれ考えて作ればよいということでもあるが。ざっと使った感じ、けっこう使えるなという印象。よくできている。次はマニュアルを見ながらもう少し詳しい使い方を覚えることにする。参考KH Coder Index PageKH Coder 掲示板KH Coder の作者、樋口耕一さんのホームページYet Another 仕事のツール 第50回 KH Coderとコーディング・ルールYet Another 仕事のツール 第49回 茶筌を利用するソフトウェア「KH Coder」漢直ノート 日本語形態素解析出来るソフト「KH Coder」漢直ノート KH CoderでPSS用の練習問題を作る自由回答データを定量的な切り口で分析するには?モーニング娘のアルバムに含まれる歌詞の頻出単語モーニング娘のアルバムに含まれる歌詞の頻出単語は、KH Coder を使ったおもしろい例。コーディングルールを使っての集計もやっている。「恋愛」と「接触を伴う愛情表現」等、ルールを作って集計した結果などもおもしろい。なるほど、こういう遊び方ができるのね、という感じ。RankWordなる文書中の頻出語を抽出するソフトがあるのも知る。これは簡単に単語をカウントできるツール。トップテンの単語をカウントして、その単語が含まれる行を取り出すことができる。使い方は簡単だが簡単なことしかできない。軽いノリでどんな単語が多く使われているかチェックしたい程度の用途にしか使ない。KH Coder があれば不要。形態素解析をやっていないようなので文字列の単純マッチのカウントという点では正確な数は出せるだろうが。東京経済大学 情報システム課の PC教室のソフトの追加,バージョンアップのお知らせ に KH Coder や KWIC Finder が登場している。パソコン教室 ソフトウェアの紹介。こういうものを使った授業でもあるんだろうか。SPSSや SAS、AMOS その他、統計・解析・シミュレーションの分類に入っている。ぱっとマイニング なるものもあるのだな。これ特許情報を対象としたものか。特許調査業務を効率化するためのもの のようで、ぱっとマイニングのマニュアルを見ると、形態素解析は茶筅、辞書は IPA辞書を使っているようだ。ちなみにフリーソフト版はもう公開されていない。横浜市立大学でも情報ネットワーク ニュース No.6を見ると KH Coder 等インストールしているな。どういう授業で使っているんだろうか。
2006.10.29
コメント(0)
![]()
今日も、歯痛。痛み止めを飲んで抑える。とうぶんの間、鎮痛剤の類は手放せそうもない。風邪も完治していなくて、37度前後の体温が続く。さすがにこれはあんまりよくないなぁと思うが仕方ない。こういうときは黙って耐えるしかない。と、ぶつぶつブログに書き込んでいるから全然黙って耐えていないんだが。何もしないとよけいに痛みを感じるので、今日は頭を使わないあれこれ作業をしようっと。しかし、365日、何の痛みも感じない日がほとんどない、痛い人生。医学的なアプローチ以外の痛みのマネジメントも必要だよねと思う、今日この頃。痛み 2.0。
2006.10.29
コメント(0)
![]()
今週は虫歯の痛みがひどくてダメ。最悪状態から脱するのに1,2週間かかりそうだ。歯痛のメカニズム歯痛に効果のあるツボのポイント健康つぼ道場 歯痛(症状編)今日、やっと歯医者に行き、前歯の神経を抜いた。涙が出た。。。。まだ、あちこちの虫歯が悪化しているので、痛みは引かない。顔の左半分が腫れて痛い。2種類の痛み止めをもらった。シラブル と カロナール。シラブルの方をとりあえず飲む(強いらしい)。痛みがとりあえず止まったが、薬が切れるととまた痛くなる。しばらく憂鬱な日が続きそう。なんとなく『銀河英雄伝説』をまた見始める。DVD BOX 全部持っているので、いったん見始めると何日もかかる。それにしても、これだけ会話が多いアニメってあまりない。原作者の田中芳樹もすごいのだけれど、やっぱり、これをよくもまあアニメ化したなぁと思う。原作の小説をテキストマイニングするとおもしろいだろうなと、ふと思う。地の文と会話とを別々にしたり、人ごとに別けてみたりと。電子テキストがないから実際のところ不可能だが。国会議員の発言をテキストマイニングすると面白いかもしれないなと思う。政治学方法論:計量分析なんてもののもあるのね。
2006.10.28
コメント(0)
季節はずれの Hinemos のリリース。普通、ひねもすというと「春の海 ひねもすのたり のたりかな」と頭に浮かぶ。でも、NTTデータが公開したOSS「Hinemos」は何ができる? は秋に出てきた。まあ、いまから導入を考えて、春になったらうとうとしながらなんていうイメージか。Hinemos は、エンタープライズ環境でコンピュータ群を一元的な運用管理を実現するオープンソースソフト(OSS)ということだが、マニュアルを眺めて見た限り良くできた感じ。使ってみないと使い勝手は分からないが。カテゴリ的には OpenView や JP1、千手等の SNMP ベースでの管理が行えるようなもの+ジョブ管理といったところに相当するだろうか。オープンソースの SNMP 対応での監視ツールとしては Nagios とか。Nagios と比較してみるとおもしろいのかな。ここにあるか。日本発で世界初、オープンソースの運用管理ツールが本格離陸 を見ると、クライアントの操作画面の基盤にEclipse RCP(Rich Client Platform)を使ったことと、マネージャの実行エンジンとしてJBossを採用したことに注目してもらいたいです。と書かれている。Hinemos開発日記 も見てみる。ちょっと必要とするマシンのスペックは重めね。まあ、今時、たくさんのマシンを抱えているところであればその程度のものは気にならないのだろうが。それにしても、よくもまあ、こんなにお金につながるところをオープンソースとして出してきたなと思ったら、本件は、IPAの平成16年度オープンソフトウェア活用基盤整備事業の委託(分散ファシリティ統合マネージャの開発) を受けて開発しました。 ということのようだ。IPA 偉い!これはいい分野を委託事業としてやったと思う。これを使えば自治体や政府関連の IT のコストがだいぶ減らせる。そういうところで使い込めば質も上がる。今、こういうことに関わっていないから使わないけれど、その手の仕事をしているときなら間違いなく試してみると思う。使えないと思ったら、それをフィードバックしてあげればいい。自分ではとりあえず使わないけど、無責任に一押しだな。皆人柱になれー!
2006.10.25
コメント(0)
『Excelで学ぶテキストマイニング入門』をさらっと流し読みしてみた。これは大胆な本だ。実際のところ Excel を使い込んでいない人が書いている本だから。Excel はあくまで入門用である一度自分でやってみてメリットと限界を知るためのもの仕事や研究で積極的に使うには専用のツールを使うというのが、本書の基本スタンス。手作業で原始的にやると感覚を覚えられるということもあるんだろうが、それにしてもすごいなこれはすごい。Excel をフル活用すれば、もっと高度なことができるのに、適当なところまで Excel を使って、最後のオチは、DEMATEL を使うとこんな感じになりますときた(顧客価値調査システム(VACAS)やテキストマイニングシステム(DIONISOS)は著者の開発したツール)。Excel はあくまで入門用に使っただけで、実務としては使い物にならないので DEMATEL や VACAS や DIONISOS といった専用のツールを使いましょうと。あくまでテキストマイニングの初歩を学ぶために、Excel が分かりやすいだろうから Excel を使いましたということで、Excel のテクニックも学びたいという人はかなりがっかりする類の本。まあ、テキストマイニング入門だからいいのだけど。前半部を読んでいて、もう一つ大胆だと思ったのは、「甘み」「甘さ」などはひとまとめに「甘口」にしちゃいましょうというところ。もし「辛みの中に甘さがほんのりと漂うもの」という表現があっても、甘口にカウントされるわけだ。甘みと甘口は違うと思うんだが(フルーティーなのが好まれるという文脈では甘口にまとめても違和感がないが)。数を減らすためにまとめるというのはある程度必要なことかもしれないが、ここは丁寧に説明すべきなんじゃなかろうか。こういう感覚で商品開発でもしたら、かなりトンチンカンな方向に行ってしまうんじゃなかろうか。いや、初心者なんだからそこは割り切ってね。割り切りも大切なんだよというところか。加えて、DEMATEL について、マクロでも使えばできるだろうけれど「Excel には、255 x 255 の正方行列までしか扱えないという制約条件があるので、大規模な文章完成形式の定型自由文アンケートの解析には耐えられません」だから、やんないよーと。でも、入門なんだから、ちゃんと書けば~という気がするが。ちなにみ、MDETERM(配列) の制限について Excel のヘルプを見たら 「配列のサイズが 73 列、73 行を超える。」でエラーになると書かれているし、[XL2000]配列のサイズの制限についてを見ると Excel 2000の制限は、MINVERSE 関数MINVERSE 関数で使用できる配列の要素の最大は、3249 要素となります。そのためMINVERSE 関数では、引数に行数と列数が等しい数値配列 (正方行列) を指定するので、 52 x 52 のセル範囲までしか指定することができません。MMULT 関数MMULT 関数で使用できる配列の要素の最大は、5458 要素となります。そのため MMULT 関数では、引数に行数と列数が等しい数値配列を指定するので、73 x 73 のセル範囲までしか指定することができません。と書かれている。255 x 255 というのはどこに書かれているのだろうか。まあ、どっちにしろ書かれているのよりさらに小さい配列しか扱えなければ、よけいに使えないということになるんだろうけど。ネガティブなことばかり書いたが、大胆である意味おもしろい本。1.5倍ぐらいの量にして、もう少し踏み込んでいったら良書になるだろうに、書いているうちに面倒になったから後半ははしょったみたいな感じがする。ちなみにこの本の著者は、独自の顧客価値調査システム(VACAS)やテキストマイニングシステム(DIONISOS) を開発したり、いくつかの賞をとっていたりする人のようなのだが、所詮入門書なんてこんなもんでしょ、という感じがあれなんだな。あまりに割り切った態度がおもしろい。ということで割り切って買って、割り切って自分の演習教材として使ってみるという意味では悪くはないかな。テキストマイニングの本は概念的なことが多いから、実際に手を動かして感覚としてつかみましょうというレベルではいい。やっぱり手を動かしてみることも確かに大切。でも、あくまで入門としてね!と。割り切り割り切り。
2006.10.25
コメント(0)
![]()
『テキストマイニングによるマーケティング調査』を読んだ。参考になることもあるが、本としてはあまりおもしろい本ではない。同類の論文でも検索してダウンロードして読んでしまった方が良い感じ。6名の共著なのだが、200ページ強の本で6人だと1人あたり30~40ページ程度。そうすると一人あたりのつっこみ度合いが薄くなる。こういうものは一人または二人程度の方がおもしろい。構成は次の通り。序章 経営環境の変化とテキストマイニングの登場第一部 テキストマイニングとは第二部 日常業務への顧客の声の活かし方第三部 マーケティング戦略への応用第四部 テキストマイニングの実践一部、二部は退屈。三部はある程度読む価値あり。一番おもしろいのは第四部。SPSS の Text Mining for Clementine と SPSS Text Analysis for Survey が取り上げられている。さすがに高いだけのことはあるなと思った。Clementine の C5.0 という決定木を使ったルールについて「家族割引-利用する」と発言し、長距離電話を19.88分以上使用した場合、解約にいたる確率は 97.5% (ルール3) である「カスタマーサポート-ひどい」と発言した場合、解約にいたる確率は93.5%(ルール11)である。のようなルールが抽出できるとある。さすがに高いだけあってテキストを分析した結果とデータを結び合わせて解析できるわけか。その他、オープンソースの係り受け解析システムの南瓜(Cabocha)も取り入れて係り受け解析の結果を使っているということかな。たとえば、日本語では、句点「。」は文末を示すための記号である。しかし「未支払でサービスが止まり、怒っている。。。」といったように、句点本来の用途とは異なる使い方もあり、このような分をそのまま解析させると正しい結果を得ることができない。で、文境界推定機能を使うとこれが可能だと。案外芸が細かい。やはり、係り受けまで解析しないと取れないこともたくさんあるから、これをいち早く取り込んで消化してしまったところはさすがに大メーカーであるなと思った。SPSS の製品も少し調べてみることにしよう。あれ、SPSS15.0先行予約キャンペーン価格 やっている。SPSS のサイトをちょっと眺めていたら、「SPSS Data Mining Day 2006」 の ストリーミング映像 があった。最初はちょっと退屈。で、寸劇というには長い寸劇が来ると。5秒見るとどういうものか想像がつくようなものであった。まあ、ありがちなやつ。SPSS OPEN HOUSE 2006 でデータマイニングワークショップとかあるから気分転換に行ってもいいかなとか思ったが、全部満席。さすがに関心は高いようだ。SPSS 関連はもう少し漁ってみることにしよう。
2006.10.24
コメント(0)
![]()
カカクコム、ユーザーのクチコミ傾向が一目で分かる『価格.com プロフィール』を提供開始 ~採点傾向や支持率などを元にクチコミ閲覧が可能に~(pdf) であげられている クチコミ実績サンプル や レビュー実績サンプルを見てみる。加えて、価格.comクチコミ掲示板概要 や ユーザーレビュー概要 や WEB サービスなども見てみる。価格コム WEBサービス価格コム WEBサービス APIマニュアルそれから、あちこち見てみると企画自体は比較的好意的に受け入れられているだろうか。9月8件、10月12件のサイトが API を使ったサイトができているようだが、現状では使ってみました程度のものが多い。これが半年、1年したらどうなっているのかが分かれ目。カカクコム以外でも、公開されている API は多い。日本で公開されているAPI一覧などからもたぐることができるが、これに海外のものを加えていくと、かなりの数になるだろう。そのどれもが使ってもらえるようになるとは限らない。というより、公開はしているけれどもほとんど使われずに終わってしまうようなところも出てくるだろうし。何にせよ、こういうものが発展すると、地道に消費者文化が育っていくかなと思う。今のところ企画的な意味でのクチコミが先行しているような感じもするが、躓かなければ、いずれそれ以上の存在になれそうな気がする。消費者団体とタッグを組むなんていう方向が出てきたり、クレームの窓口的な機能が加わってきたりするとおもしろいと思う。別の見方をすれば、単に販売促進の片棒を担がせるだけのものであれば、それまでのものだし。製品ごとに明確に書き込みが分かれているからテキストマイニングの対象としても、おもしろいだろう。この半年から1年ほどの間で特に、ウェブサービスの API 公開が本格化してきて、次々と色々なサービスが API 経由で使えるようになってきた。API が普及するためには、それがおもしろいことができることを証明してくれるプログラマを獲得競争になる。どんなにすぐれた API があっても、使ってもらえないのでは仕方がないし、利用者が増えない。サービス会社は表の部分の企画を一部はこうした API を利用するプログラマたちに代替しているともいえる。たんに JavaScript 貼り付けました的なモノでなく、それ以上の何かを見せてくれるおもしろい使い方を作り出してくれるようなプログラマの獲得競争。2大ウェブ地図サービス、API公開で「ハッキング」を呼びかけ で Google や Yahoo がマップ API を公開したのが昨年の夏あたり。一年経つと、ある程度普及して(それなりに知られるようになって)という感じか。実際のところ、まだこれから本格的に使われるようになる段階。Google でもその程度の時間はかかるから、マイナーなものだと、もっと時間がかかるだろう。ここから本格化していく 2,3 年の間に新たな勝者が現れるかどうかがおもしろいところ。プログラマを引きつけるには、おもしろい基準か(作った人は、注目の的になれる)、便利な基準か(作ったことで自分が便利に使える)、実利基準か(アフィリエイトのような形で直接的にお金が落ちる)、何らかのメリットが必要になる。でも、実際のところは、便利だとかおもしろいというのが、お金になるかよりも、広がりにつながると思う。おもしろくなければ作ろうという導因にならない。だってプログラマは仕事としてプログラムを書けばお金をもらえるんだから、趣味のプログラミングはおもしろみが必要。たとえば Google API などはインフラを提供しているだけで、その使い方は利用者に考えさせるという方向。インフラを API としても提供しますということで、これを使えばお金になりますということではない。広告/アフィリエイト的なものは多少はお金につながるにしても、それだけで広がったとも思えない。新しいものを取り入れると、それ自体が一種のステータスになるから、というところがまずある。だから、新しい API が公開されると、とりあえず使ってみました的なサイトが出てくる。ただし、とりあえず、というスタンスだろう。Google や Amazon のアフィリエイトが広がった理由の一つにお金が落ちるということ以外に、Google や Amazon のものを取り入れてやっているよ、というファッション的なものもあるし、純粋に便利(たとえば Amazon のアフィリエイトになって API を使えば読書録や書評を書いたときに簡単に画像が付けられる等)という側面もあるだろう。Google であれば最初は検索窓をつけるところから始まって、Google の広告もお金になるかもしれないし、クールだしというところもあっただろう。提供されるサービスがしょぼければ、API があっても意味はない。しょぼいものを使ってもしょぼいものしかできないのだから使うメリットがない。やっぱり API の公開は強いモノがますます強くなるという方向になるのだろう。使って嬉しい API ってどんなものがあるんだろう。何かおもしろいものを探して使ってみようかな。やっぱり楽天ブログだと JavaScript など使えずに厳しいし、プログラムを独自に置くこともできないから、外に居場所を確保しないとダメだな。楽天ブログは書くということでは楽なんだけれど、作る楽しみがない。やっぱりおもしろそうなのは、Google だとか Amazon のものなのだな。たとえば日経BPでも ZDNet でも @IT でも、その手のサイトがニュース検索を API 化してくれれば使う可能性が高いかな。でも考えてみるとインフラ的なサービスって、使うと便利だけれど、それ自体が主張しすぎないようなものだと思う。YouTube や Flicker にしても、メインになるのはユーザのコンテンツだものね。なくても使えるものをあればもっと便利に使えるというのが基本なのだろう。それにしても JavaScript の市民権がおもしろい。ネットサーフィンするときには JavaScript を使えなくしておきましょうなんていうのは遠い過去のことになってしまった感じ。そういうタイミングで、NTTデータ子会社が国内トップのJavaScript Webフレームワーク製品をオープンソース化,Seasar財団に寄贈 というのはうまいかもしれない。しかし、JavaScriptレスでAjax開発、NTTデータ新フレームワークの実力は なんてものもあるのだな。ちなみに JavaScriptレスという件名はちょとミスリードするか。JavaScript を書かないで済むということと、JavaScript を使わないということは違うのだから。Ajax といった時点で JavaScript は使うからそのギャップによるおもしろみを件名に求めたのかもしれないが。。。Ajaxアプリのビジュアル開発ツール,デファクトを狙いNTTデータがオープンソースとして公開へ の マスカットプロジェクト は試してみるかな。
2006.10.24
コメント(0)
![]()
楽天って、読者モデルを使っていたのね。ファッション関連はまったくみたいので知らなかった。楽天 Woman の fstyle って読者モデルのオンパレード。全国838人のストリートスナップ とかもある。等身大の読者モデルというのは、やっぱり低価格帯のものを売るときにはよいのだろうな。Fashion Style 読者モデルブログ みたいなものもうまいかもね。もっとも読者モデルとかいっても、まだ売れていない娘をたくさん抱えているようなタレント事務所とかが、こういうところを足がかりにしてなんてことも当然あるだろうけど。それにしても、安いなぁ。楽天の中で男性向けのファッション関連を見るとレパートリーが貧弱だったりする上に単価が高めのものが多い。女性用の方が数か多くて安いものまで取りそろえている。やっぱり女性の方が数を買う分安くしてもも成り立つとか、競争が激しいとかあるのかな。なお、上記の写真は読者モデルとは関係ありません。
2006.10.24
コメント(0)
マスコミがないと成立しない日本の「YouTube」「俺の話を聞け社会」と「そうだよね社会」の違いを読んで、まあ、確かにそうだねと思った。というこの言及が、そうだよね社会の一現象を担っているわけだが。日本の不思議なこととしては、批評、評論が発展しないこと。そうだよね、つまり、共感が中心になるから、新しい視点を出したり、強く否定したりとか、そういうことが望まれないからなのか。その代わりに、価値観に合わないモノに対しては積極的に黙殺する。村八分の構造。だいたい日本のマスメディアの構造自体が、批判や批評がまともに成り立たず、権力よりであったりする。それ故の怨念か、低レベルの批判しやすいスキャンダルが生じたときにはいっせいに叩く。それは叩きであって評論ではない。なかなか批評や評論が成り立たない社会。批評の根本は、批評する側の「俺」・「我」の強さ。自我の弱い人が多い社会では、なかなかよい批評が生まれない。批評はまともに生じないけれど評判の共有は積極的に行われる。それが「そうだよね社会」ということか。褒めちぎることも案外日本人は下手。褒めちぎるということがあってこそ、YouTube や Google のような新興企業がアメリカでは成り立ったのだと思う。俺がいいと思ったものを褒めちぎって使いまくる。日本の場合は、お墨付きがついてから使い始める人が多い。ただ、これも少しは変わってきているような気がする。そういえば日経BPのサイトって、このところ質が上がったような気がする。雑誌を売る延長でウェブを作っていたのが、ウェブ自体で成り立たせる部分を強くしたからなんだろうか。出し惜しみが少なくなってきたような気がする。どうでもよいが、こういう天気の日は足腰痛いし頭も痛い。おまけに歯まで痛くてもうだめ。。。。
2006.10.24
コメント(0)
偽装請負、企業に一罰百戒, 最大手クリスタルに厚生労働省がメス を見て、これって IT 業界じゃ、ごく普通にやっていることだなと思った。製造業の次は IT 業界かな。この手の偽装請負は IT 業界がダメな理由の一つ。おまけに三重派遣、四十派遣、五重派遣なんていうのも平気で行われている。多重派遣の元になっている手数料稼ぎの口利き屋の類も排除すべきだろう。
2006.10.24
コメント(0)
インプレス 中国現地法人の設立に関するお知らせ (2006/10/16) を見る。出版業界はウェブメディアで中国に進出する方向が強まるのかな。先細りの日本市場よりも人口が多い中国でと。すでに中国語のインプレスのサイトができている。fx/IT Media News によると、インプレスの100%出資なので不思議に思ったのですが、定款に「出版業」が無いので、ちと納得。紙媒体ではなくWebサイトなら外資100%でも許可が出るのか~………中国共産党の情報政策は不可思議だ。なるほど、出版業が定款にないから規制にひっかからないのか。ふーん、不思議な国。というか、まだ全国民へのリーチという意味ではインターネットは厳しいから主として比較的豊かな層が利用するから規制が緩いのかな。さらに fx/IT Media NewsIDGジャパン「Linux World」「Java World」休刊中国政府系企業との合弁による出版社を中国本土に持っているIDGが、日本市場を見限り、中国市場へのリソース投入を加速するのは当然の成り行きかもしれない。にもすでになっていたから、なるほどそういう流れなのか。人口が多いというのは強みになるし、これからの国に資本を投下した方が資本効率的にもよい。確かに当然の選択だ。日本の出版社のコンピュータ関連の技術書がアメリカの出版社に比べて弱い原因の一つはこの人口のせい。たくさん売れる国の方がたくさん売れる可能性があるから書く側のメリットも大きい。中国はまだまだ貧しい人が多いっていったって、たとえば人口の 1% がかなり豊かであるといったときのその絶対数というのは恐ろしいものがあるんだよね。いろいろ問題はあるが日本もそのうち移民を受け入れるようになるんだろうな。米国の人口が3億人 というのも移民のおかげだし。さまざまな社会問題につながっているけれど、それでも市場が大きくなるということの意味は大きい。インプレスは WAMS というコンテンツ管理の Web アプリケーションフレームワークも作っているのか。課金システムとの組み合わせによるコンテンツ課金はもちろん、コンテンツの共有とコラボレーション、これらがWAMS上では簡単に利用することが可能になります。課金のシステムまで含めたものって地道に強みを発揮しそう。まあ高そうだけど。Q &A サイトの OK Wave をちょっと集中的に眺めてみようかな。(株式会社オウケイウェイヴ って、インプレス、楽天、トランスコスモスが大株主なのね。KDDIとQ&Aサイトの分野で提携 か。OK Wave のサイトは、登録ユーザ数 60万人弱か。ユーザ数 597,760人質問総数 2,237,458件回答総数 7,893,020件平均回答数 3.5件同じようなものとして 人力検索 はてなはどうかなと見てみると、昨年の5月で これまでの質問は10万6000件、回答数は50万1000件、アンケート回答数は137万6000件に上っている。(ITPro)。絶対数としては「はてな」よりも OK Wave の方が大きいのかな。2004年11月あたりだろうか、広告協会では、「登録ユーザー数15万人を誇る巨大コミュニティサイト」と書いている。さて、現在はどのくらいの利用者数、質問数、回答数なんだろうか。まあ、なんにせよ微妙な数だなと思う。これもやっぱりアメリカや中国、あるいはインドのように絶対数が多いところの方が有利だなと思う。たくさんの人に使われた方がプログラムの質も上がるし、そこから得られる利益も大きい。人口の多い国のニッチ市場であっても日本のユーザ数と比べるとニッチよりもメジャークラスということになったりして。やっぱり数の力は侮れない。
2006.10.23
コメント(0)
![]()
『テキストマイニング活用法』顧客志向経営を実現する」(2) で クオリカ (旧コマツソフト) の VextMiner に興味を持ったので少し調べてみる。基本機能としては、次のものが挙げられている。CSVファイル対応頻度集計スキャッタリングクラスタリングソート/ステムソートカテゴライズ各種レポーティング機能が充実していることに加えて、「CIAの要請によって開発されたコンテキストベクタ方式(米国特許取得済み)でテキストの数値化」というところがミソか。加えて、FAQ を扱うソリューション のVextContact、最大280次元のベクトルに置き換え単語や文書(単語の集まり)の概念を数値化し、また、近傍の単語の共起性(Co-Occurrence)に着目し、ニューラルネットワークの活用により意味の近い単語同士のベクトルを近づける「学習」機能を実現しているという検索エンジン VextSearch といったラインアップで、きちんとソリューション化しているところがポイントか。さらには、最近、音声認識技術 を持っているアドバンスト・メディアと コンタクトセンター向けソリューション「CallMining(R) Solutions」の開発で提携もしている。また、だいぶ前の話になるが ベイシステクノロジー との中国語形態素解析システムを使って クオリカ、中国語版テキストマイニングツール「VextMiner」中国語版を発売 (2003/12/10)している(電通がユーザーになっているようだ)。ベイシス・テクノロジーは知られざる、検索エンジンの“縁の下の力持ち” に紹介されている。さらには、ログイットが全通話録音~音声認識~テキストマイニングを一括パッケージ CallMining Package にしている。おもしろいところでは、テキストマイニング技術の音楽情報への適用 という論文。音符をカタカナにマッピングして半小節を単語に対応させて、似た曲を分類するということに VextMiner を使っている。ジャンルの分類もできるようだ。xxxxMiner+導入費用で最低 2,000万円はかかるだろうから、それなりの会社でないと厳しい。ODK ソリューションズのの文書データ分析サービス が文書件数2000件で 10万円~なんていうものもある。が、レポート提出型だとあれこれ試すことができないだろうけど。『コンテキストベクタ方式に関する解説』富士フィルムの導入事例 (2004/12/1)キヤノンの導入事例tクオリカとアドバンスト・メディアが、コンタクトセンター向けソリューション「CallMining(R) Solutions」の開発で提携 (2004/11/16 )クオリカ、中国語版テキストマイニング・ツールを発売 (2003/12/10)コマツソフトとSASインスティチュート ジャパンがマイニング分野で協業契約を締結 ~テキストマイニングとデータマイニングを融合したCRMソリューションを提供~ (2001/10/17)テキスト型のマイニング - 最近の動向とそれが目指すもの - (大隈昇 テキストマイニング研究会代表 統計数理研究所・名誉教授) (pdf)コンパック、SAS、コマツソフトの3社が次世代CRMで協業 (2002/6/13)主要なテキスト・マイニング・ソフトウェアの一覧(国内)日車ビジネスアソシエイツヒューレット・パッカード
2006.10.22
コメント(0)
楽天ブログのアクセスログのページを ElementTree で処理しようと思ったのだが、ExpatError: mismatched tag: line 244, column 2のようなエラーが出て XML として解析することできない。ということで、あっさり別のやりかたを探すことにした。ちなみに Python の ElementTree は ruby の rexml より速いらしい。proto.xml の AbstractLightInfantry なユニットを調べる、というより ElementTree (Python) vs. REXML (Ruby)。REXML と ElementTree のパース時間。プリミティブにやるならば、標準ライブラリに含まれている SGMLParser や HTMLParse を使う手がある。HTMLParser をベースになるクラスとして、開始タグのハンドラ(handle_starttag)、データ(handle_data)、終了タグ(handle_endtag) をカスタマイズしたパーザを作ってやればいいと。Python and HTML Processing には、Python で HTML を処理する方法がまとまっている。これによると、libxml2dom や PyXML は、badly-formed HTML documents を扱えると書かれている(このドキュメントは SGMLParse を使って HTML をパースするときの分かりやすい資料。でも、sample のように、細かく作っていかなければならないので面倒過ぎる)。ElementTree ではダメでも、xml.dom や libxml2dom ならどうかと試してみると、どちらでもパースできた。xml.dom を使ってパースするとfrom xml.dom.ext.reader import HtmlLibreader = HtmlLib.Reader()doc = reader.fromString(open("b.xml").read())ibxml2dom を使ってパースするとimport libxml2domdoc = libxml2dom.parseString(open("b.xml").read(), html=1)tidy できれいにするかその他、Wrestling HTML には、壊れた HTML を XHTML に書き換える記事。のっけから HTML から一部のデータを取り出すには BeautifulSoup を使うといいよと書いてあるが勉強のためのこの記事も読んでおく。uTidyLib を使う例は非常にシンプル。中途半端な HTML の文字列「<Html>Hello Tidy!'」であっても、ちゃんとxhtml 形式に書き換えてくれる。mxTidy もある。これも tidy を python から使えるようにしているもの。とよく調べてみると、ElementTree Tidy HTML Tree Builder を使えば ElemenTree も壊れた HTML も扱えるようになるようだ。The elementtree.TidyTools Module を使えばいいのかと思って試してみたがやはりエラーが出てしまって役割を果たさないのであきらめる。やっぱり Beautiful Soup元に戻って、HTML から一部の情報を切り出しがやりたいというのが本質なので、BeautifulSoup を使うことにする。「easy_install BeautifulSoup」でインストールしてしまう。Beautiful Soup は、Python で HTML/XML の一部を切り出すためのツールで、マークアップが少しぐらいおかしくてもめげずにパースしてくれる。また HTMLParse のようにいちいちカスタマイズしたパーサを作らなくても基本的な操作が行える。そして、エンコーディングも勝手に変換してユニコードで処理して出力時には UTF-8 にしてくれるので面倒がない。と、この手のことをやるにはとっても楽そう。ちなみに、文字コードの判定は Universal Encoding Detector を使っているようだ。Beautiful Soup Documentationを見ると分かる。とりあえず、今日は歯が痛いし、喉が痛いのでここまでにしておく。明日以降に Beauttiful Soup を使ってみることにする。
2006.10.22
コメント(0)
先日風邪を引いてから、熱はおさまったものの咳が止まらない。その上、歯が痛くなった。ゆえにちょっと休憩。テクノラティプロフィール
2006.10.22
コメント(0)
![]()
足立区が個人情報を伴う窓口業務も民間委託へ (ITPro) の話は窓口業務だけでなく、足立区が住基ネット業務も民間委託、総務省「想定外」(Yahoo!) ということのようだ。これはやばいと思うのだが。。。。住基ネットを所管する総務省は「公共サービス改革法の趣旨を逸脱する恐れがある」として、同区から詳しい説明を求める方針。総務省は阻止すべき。やはり端末に触ることができるのは正規の職員だけに限るべきだと思う。なんでも民間委託すりゃぁいいってもんじゃない。正職員だと安全かといえばそういうこともないが。東京都足立区では、納税課の30歳代の男性職員が、上司に無断で他の自治体から少なくとも30人以上の住民票を私的に取り寄せていたことも判明しました。この職員は「興味本位でやってしまった。電脳ネット犯罪事件簿 2006.8ただでさえ住基ネットに対してはいろいろな不安があるというのに。個人情報の不正収集事件のお詫びを見ると、この職員は「停職6カ月の処分」で済んでいるようだ。普通クビだと思うんだが。だいたいこの程度の認識だから。。。。民間委託すればもし情報漏洩があったとしても、民間業者のせいだって言えばいいって認識なんだろうか。あるいは、新たな 汚職につながるのか。ネットワークは、最も弱いセキュリティの箇所がそのシステムの強度になる。足立区が期せずして寝た子を起こすことになるかw
2006.10.21
コメント(3)
![]()
本棚に生き残り中の本の紹介。本棚を眺めていたらなんとなく目についた 実践アンケート調査入門 を久々にペラペラとめくってみる。実践アンケート調査入門2001年出版の本だが、良書の類なのでまだ有効。一通りのことがよくまとまっている。1章 アンケートの基本2章 アンケート調査の実例3章 顧客満足度調査の実際4章 アンケート調査の設計5章 調査対象を選ぶ6章 インターネット調査7章 データの基本的な処理8章 データの統計的な解析9章 調査結果の報告この本って対話、分類、分析の本として読み直してみると、コミュニケーション術の本としても読めるし、発想法の本としても読める。質問文のチェックポイントとして、次の項目があげられている。回答者の対面、プライドを傷つける語句、質問はないか。難しい言葉や業界用語・専門用語はないか。あいまいな言葉はないか。ステレオタイプの言葉を含んでいないか。一つの質問に二つ以上の論点を含んでいないか。難しい言い回しはないか。誘導的質問はないか。キャリーオーバー効果はないか。個人的質問と一般的質問を混同していないか。普段の行動か、特定の期間の行動か。選択肢のレベルは、揃っているか。意味は重複していないか。選択肢はすべて出しつくしているか、漏れはないか。案外こういうところができていないアンケートが多くあったりするとかいう話はとりあえず置いておき、コミュニケーション術としてもおもしろい。悪の説得術なんかは、これを逆利用するのだな。キャリーオーバー効果ば「前の質問が、後ろの質問の回答に影響を及ぼしてしまうこと」を言うが、これはよく使われる手。(問A)○○という薬には、以下のような副作用があります。ご存じのものにすべて○をつけてください。(問B)あなたは、○○という薬を使いたいと思いますか。
2006.10.21
コメント(0)
![]()
先日ちらっと触れたテキストマイニング活用法 - 顧客指向経営を実現する を読み終えた。パラパラとめくったときの印象通り、良い本だった。この本に書かれていることは、実務経験に裏打ちされていて、至極まっとうな感覚で書かれている。希望的すぎず、悲観的すぎず、バランスもよい。実現すべきは実際の業務改善であって、新たなツールの導入は単なる手段でしかなく、業務担当部門自身が「質の改善」についての具体的な目標を設定し、実行計画を遂行していくことが必須であり、このようなボトムアップ方式に変更する必要がある。こうした点から早晩、情報システム部門は情報インフラの整備に注力し、その上で稼働する業務アプリケーションは各事業部門に自由に任せる状況になるものと予想している。インフラに注力するところと業務に注力するところが一段と分かれてくるということについては同意するのだが、業務アプリケーションを単純に各事業部門に任せる方向に進むかといえばそうとは思えない。以前にエンドユーザーコンピューティングという言葉が流行ったことがあるが、結局、またサーバーに戻ってくる。これはいったり来たりしながら進化していくものだと思う。各事業部門に自由に業務アプリケーションを任せるということは、会社としてのデータのセキュリティに対して一貫性が保てなくなるから。それを避けるためには例えばアクティブディレクトリや LDAP によるユーザの管理をアプリケーションレベルにも適用していく必要が生じる。そうすると、やはりシステム部門と業務部門との連携(あるいは統制)が必要になる。とはいえネットワークやユーザー管理、ファイルサーバ、データベース等のインフラレベル管理に特化した人員と、それ以外に分かれて業務を進めなくては効率が悪いということはあるし、インフラをメンテナンスする人間は保守的になるから、何か新しいことをしようとしたときに足が遅くなるということもある。結局はバランスの問題だと思う。業務アプリケーションに対しては、それを使用するユーザーが主体的にその選択や維持管理に関わり、お仕着せにならないように注意する必要はあるが、統制は必要だ。これができていないから、情報漏洩が後を絶たない。もっとも、ここではシステムやツールの改善は道具立ての問題で、必要なのは「業務の改善」だということには反論の余地はない。ツールを導入することが目的化してしまい、それが有効利用されないような状況は避ける必要があるし、そのためにも「業務」に視点を据えることは確かに必要だし、「質の改善」を具体的に設定するというのも納得がいく話ではある。当たり前のことのようでいて、意外にできないことでもあるのだな。さて、変なところを切り口にしてしまったが、この本には、テキストマイニングを狼男を撃つ銀の弾のように、これさえ入れればばっちりというような感覚で使っても成功しないよということが、再三、書かれている。ツールを入れたからといって問題が解決する分けではないし、ツールを使うときに、いろいろなことを変えて行かなければならないということを認識する必要がある。変革ができないような組織では、ダメだということ。加えて、テキストマイニングを使う場合、エキスパートがいなければ難しいという現実も書かれている。結局、業務改善につなげようとすればコンサルティングの要素も発生する。それゆえ、意識レベルの高い業務部門とあわせて、この両者が揃って初めて具現化できるものである。この意味で、意欲のある部門、もしくは意識の高い企業しか実現できないものであり、やる気のない企業を改善するツールではない。強い者がそのパワーを背景にさらに強くなることを支援する技術であり、もともとベースを引き上げることを目指してはいないのである。ということになる。これはある意味、残酷な現実だと思う。技術というのは残酷な面がある。使いこなせるところはさらに伸び、使いこなせないところは単に無駄な投資を行ってよけいに弱くなる。そして、使いこなすためのリテラシーもそれを使いこなせば益々強くなるであろうところの方が概して高いという現実。「ITは業務を細分化してルーチン化するものである」とのP・F・ドラッガーの指摘を紹介したが、テキストマイニングを実務で活用する活動とは、まさにこれを実践していく事にならない。「実践していく事にならない。」じゃなくて「実践していく事にほかならない。」なのではないかというのは置いておき、テキストマイニングを新たな魔法のツールと考え、データを大量に入れさえすれば新発見の御宣託が出る事を期待する人々が、僅かながらも存在する事は事実であるが、浅はかな願望に過ぎず厳に戒めたいそして、実際テキストマイニングの分析作業は、「文書情報の処理フローを細分化するもの」であり、これをコールセンターでの問い合わせ情報の処理を事例に解説する。と、業務プロセスの分析、再構成、業務全体の最適化を行う必要性を説く。1. 情報は取りに行く必要があり、自由に記述する中に欲しい情報が存在する保証はない。2. 記入者側に対し、分析側が欲しい情報を伝えなければ、何を書くべきか分からない。業務プロセスを改善し、作業者の仕事自体も変えていく。それでこそ有効なツールとなるのだと。だから、末端の作業者に対しても理解を求めたり、指導したりと、案外手がかかる上に根気がいることなのだと。こうやって見てくると、別にテキストマイニングだけの話ではなくてツールを取り入れて組織を改善するプロセスについて書かれている本と読み替えることもできる。テキストマイニングではなくて別のシステムを取り入れるときに読むと参考になる類の本でもある。今のキヤノンの強さも、一部にはこうしたテキストマイニングと業務改善が下支えをしているのだろうなと感じさせる本(キヤノンの例も扱われている)。でもって、肝心のテキストマイニングの技術的な視点についても、ちゃんと書かれているのだが、VextMiner の資料をネットであれこれ探して触れ直すことにする。VextMiner はいくらぐらいするかなぁと調べてみると Windows 版で480万円 する。シングルユーザ版で 250万円。楽天のアフィリエイト検索で探してみたがさすがになかったw まあ、グレードダウンしたものを作るときの参考にはなるかなと。この本は理念的なことも、実務的なことも、技術的なことも一通りバランスよくカバーされていて、非常によい本だと思う。このレベルの本というのは、並のレベルの人ではなかなか書けない。この方はたぶん、すごく頭がよいと思う。この手の頭のよい人の本を読むと気持ちがいい。
2006.10.21
コメント(0)
![]()
MS、書籍デジタル化プロジェクトで1社1大学と新たに提携 を読む。Kirtasによると、同社のスキャナはロボット技術を利用しており、1時間に2400ページをスキャン可能で、しかも「人間の手より丁寧に書籍を取り扱う」という。1.5秒で1ページスキャンするって、すごいんじゃなかろうか。KIRTAS Technologies, Inc を見てみる。Japan Science and Technology Agency Announces New Website and Selects Kirtas Technologies Products for Project (pdf) ということで日本でも独立行政法人 科学技術振興機構 が Journal@rchive で 採用したらしい。電子アーカイブ作成方法のスキャンで使われているのかな。国内の学協会から過去の雑誌の電子アーカイブ化について強い要望があり、JSTは平成17年度から電子アーカイブ事業を開始しました。やっと本格的に手を付け始めたというところか。んー、やっぱり独立行政法人がまたここに登場か。J-STAGE - 科学技術情報発信・流通総合システム や Science Portal なんていうものも作っている。探すといろいろあるんだろうが、広く知られていないと使われないからもったいない。まあ、普通に学者は知っているんだろうけど、学者が知らなかったら絶望的。利用度の調査でもすべきだろう。調査すれば、それで利用の促進にもつながるだろうし。
2006.10.20
コメント(0)
専門用語(キーワード)自動抽出システム を見てみることにする。このシステムは文章からキーワードを抜き出すシステムで、次の特長を持っているとのこと。(1)形態素解析プログラムによる単語分割、(2)複合語の作成、(3)文章中における重要度の計算、という3つのステップを踏むことで、複合語により複雑な概念を表すことが多い専門用語をキーワードとして文章中から抽出することに成功しました。まずは 「言選Web」 で実際の動きを見てみる。URL 指定欄に http://plaza.rakuten.co.jp/kugutsushi/ や http://www.kantei.go.jp/ を入力して試してみた。ちょっと不満なところはあるが、なぜくっつけるかなぁとかいうところもあるが、大方よさそうな感じ。東京大学経済学部図書館サブジェクトゲートウエイサービス"Engel のデータ入力補助でも使われれているそうだ。”専門用語(キーワード)自動抽出システム”利用統計 を見てみると、平成15年はだいたい毎月 100件程度はコンスタントにダウンロードされているようだ。専門用語自動抽出システム のページで重要度計算には単名詞バイグラムを用いることにより複合名詞がどのような単名詞で構成されているかという連接情報と候補語の頻度情報を手掛かりとしています。などの説明がされている。この重要度の計算の論文 をざっと眺めてみる。案外シンプルなやり方で、ここまでの結果が出せてしまうのだな。現在公開されているものは、これを改良したものらしい。Windows用専門用語(キーワード)自動抽出システム "termex" の解説 を見ながら使ってみることにする。形態素解析器は、茶筅 と 和布蕪 のいずれも使えるももの、和布蕪は、ver 0.76 以前のバージョンを使えとある。mecab の古いバージョンをインストールし直すのはいやなので、とりあえず茶筅を使うことにした。動かしてみると、うん、なるほどちゃんと動く。出力結果を見てみると、あれっ、なんでこういうのが出るなというのもあるが、だいたいのところよいものを出してくれている。納得いかないものが出ているところは、地道にハックしてみようかな。形態素解析を使わない Windows用専門用語(キーワード)自動抽出システム "termex lite" の解説 の方も見てみる。termex とけっこう結果が違うのだな。結果を比較しながらハックするとおもしろいか。東京大学情報基盤センター 中川裕志教授中川研究室多言語用例検索ツール:KiwiWebページの名寄せシステム(同姓同名の人のWebページを実際の同一人物ごとにまとめる): Nayose 横浜国立大学 大学院 環境情報研究院 社会環境と情報部門 森 辰則教授こういうものを一般公開してくれている大学/研究者はありがたい存在だなと思う。もっとも、莫大な税金が国立大学には注がれているんだから社会還元されていると考えればよいのだけれど。ただし、そうした形の社会還元をしない方々も多いのが現実だから、こうして一般の人でも利用しやすいようにインターネットで公開する方々はナイスな存在といえるだろう。講義資料なども各研究室や研究者単位だけでなく、もっと大がかりにやればおもしろい方向になるのに。待っていれば Google や Microsoft が検索できるようにしてくれるっていうのもあるんだけれど。
2006.10.19
コメント(0)
思考と習作ブログの Sun MicrosystemsのBlackbox を見て、次のあたりを見てみる。サン、「コンテナ収容のデータセンター」を発表へ--被災地などでの設置に期待Sun Microsystems Unveils Data CenterInside Sun's Project Blackbox (写真が6枚)It’s a Shipping Container. No, It’s a Data Center in a Box.Sun's Blackbox: Game-Changer or Niche Product?アメリカ人というのは、どこまでまじめで、どこまでふざけているのかよく分からないところがある、と改めて思った。"data center in a box" って、案外、冗談じみたノリから始まってまじめなプロジェクトになってしまったものなのかもしれない。The box can hold hundreds of servers and save thousands of dollars per year in energy costs, the company said.washingtonpost.comボックスに詰め込んで最適化することによって電力等の節約にもなって年間数千ドルのコストダウンも可能と。例えば、ガレージからはじまったインターネット系の会社が成功してデータセンターが欲しいと思っても、ビルの改築等やってからでないと社内にデータセンターを持てないけれど、これなら土地と水や電力供給源さえ確保できればポンとデータセンターができちゃうと。地下駐車場や倉庫に設置すれば出入りも管理できるしありか。拡張するときはさらにボックス追加で、おまけに会社がイグジットしたときには箱ごと売り払ってしまえると。価格は$500,000 から。さらには黒いコンテナの中には Solaris 10 が動いていて、そこには Solaris コンテナがあって、コンテナの中にコンテナという、できの悪い冗談のようで、案外、あり得ないことはないなと。Solarisコンテナの真相に迫るSolaris 10 オペレーティングシステム Solaris コンテナSolarisコンテナ:Solaris 10 新機能Solaris ゾーンの紹介Solaris? コンテナ - サーバの仮想化が進むことによりサービスの管理がいかに簡易化されるかSolaris Zones Partitioning TechnologySolaris Container Manager最初は Blackboxが、このコンテナのアピールのための冗談プロジェクトだと思ってしまったのだが。
2006.10.19
コメント(1)
マイクロソフトのコンテンツ連動広告の動向 について書いたが、日本でもおもしろいことをやっているところがあった。キーウォーカー、ブログ解析エンジン「BlogSphere」α版の提供開始 を見ると、なお今回のα版では、「男女比」「年代構成」「趣味」「職業」「配偶者の有無」や「買ったもの」「欲しい物」の一覧、「キーワードの時系列言及度」「居住地(県)」、そして居住地別にそのキーワードが平均値と比べてどれだけ多くの人に言及されているかの「地域別言及度」が解析可能。マイクロソフトの Demographics Prediction などよりも高度で、よくここまでやっているなぁという感じ。『BlogSphere(ブログスフィア)』とは? を見てみる。株式会社キーウォーカーがこれまで培ってきたロボット用AI(人口知能)研究の成果をベースに、、「意味ネットワーク」「Preference Analyzer(嗜好等個人の特徴分析)」「Situation Analyzer(シチュエーション分析)」の3つの要素を統合して開発された検索エンジン。「芸能人が行く美味しいお店」といった日本語自然文での検索が可能な他、「芸能人」というキーワードに対応し、「木村拓也」「浜崎あゆみ」などの指定されたキーワードに関連する語句での検出も同時に行うことが可能です。こういうところに力を入れている会社があったのか。そういえば「芸能人が行く美味しいお店」の類って実は NTT が延々、その手のことをやっていたはずなんだが(電話番号案内の延長線上にある)、どうなっちゃってるだろうか。タウンページ の情報とネットの情報を組み合わせれば強いのに、gooって単にこれを呼び出しているだけなのね。資産は持っていても図体がでかいだけの状態になってしまっている。。。。まあ、NTT の話は横においておき、やはり、一定の技術を持っていて小回りのきく会社が先を走ることになるのね。キーウォーカー、ブログの内容や属性を視覚化して表示するブログ解析エンジンの試験版を提供「レクサスといえば経営者・男性」――キーワードとブロガーの相関調べるエンジンキーウォーカー、プロガーのプロファイリングを可能にする検索サービスブログの意味を解析し、ブロガーの属性をグラフで表示する「BlogSphere」
2006.10.19
コメント(1)
Microsoft adCenter Labs を眺めてみる。Search Funnels や Search Result Clustering など検索結果の表示方法としておもしろいが、Forecasting Search Volume Seasonality はキーワード検索の回数の予測と実績がプロットされておもしろい。まあ、これは Google に対抗しているんだろうなという感じか。Keyword Categorization Engine や Content Categorization Engine はそのキーワードやURLのページがどのカテゴリに属するかの値を表示する。中でもおもしろいのが、Demographics Prediction ページを作成している人の性別や年齢を推測値で表す。たとえば、http://plaza.rakuten.co.jp/kugutsushi/ を入力すると、Mail 0.56、Female 0.44 と男性で、年齢は、18歳以下とw。これだけでなく、まだ日本語はぜんぜん対応してないみたい。英語で一定の成果を収めてから他の言語に対応するという感じだろう。その他、Detecting Online Commercial Intention などは、例えば LCD モニタを購入する可能性を Webページをチェックすることによって示してくれる。例えば、http://plaza.rakuten.co.jp/kugutsushi/ を入力してみると、次のように表示される。値が 0.5 以上なら購買意欲が現れているという判断になる。まあ、これも、日本語のページだと適当な値にしかならないだろうが。で、要するにコンテンツやコンテキスト、あるいはユーザ属性に応じた広告を効率的に表示することができるように着々と研究が進んでいるということ。
2006.10.19
コメント(0)
![]()
テキストマイニング活用法 - 顧客指向経営を実現するを読みはじめた。帯には「国内初!!テキストマイニングの本格的解説書。基礎理論から先進企業各社 キヤノン、三井住友カード、電通、コクヨ、ハイホー・マーケティングサービス・・・の活用時例までをわかり易く解説」とある。まだ、パラパラとめくった程度だが、比較的きれいにまとめられていて、バランスが良さそうな本のように見える。出版年が 2002年なので若干古くなってしまっているかもしれないが、5年ほど前に実務でテキストマイニングを扱っていた人がどのように考えていたのかを検証する上でもおもしろいかなと思う。本書はいわゆる新技術の解説書ではなく、またコンセプト中心のビジネス書とも異なり、あくまでも「実務での活用」を目的に、「顧客の声」をターゲットとして、テキストマイニングの基本コンセプトから現場での活用ノウハウまでを、トータルに解説する事を狙いとするものである。と「はじめに」に書かれている。章だては次のようになっている。第1章 顧客の声を経営に活かす第2章 知識時代における顧客志向経営第3章 テキストマイニングの概要第4章 テキストマイニングの実践第5章 テキストマイニングの活用手法第6章 先進企業での活用時例第7章 今後の展開 - テキストマイニングの将来増7章に次のようなことが書かれている。IT評価の視点が、「導入と立上げ」から「活用と成果」へとシフトしているために、売り手市場での御用聞き商売から汗と知恵がいる堅気の商売へと、急速に変貌しつつあるのである。このような変化は次の2点に代表される。仕組みから実務へ(知的生産性の向上)顧客志向へのシフト(社内から社外へ)インターネット中心に見るとまだまだバブリーな発想と取組方をしているところも多々あるとは思うけれど、IT業界自体はいっときに比べると、たしかに徐々に堅気の商売な部分も増えてきたとは思うけれど。やっぱり堅気の商売とはいっても建設業界とかに近い構造を持っていると思う。製造業などとは違う部分が大きいように思う。まあ、なんにせよ、景気が悪いときの書かれた本なので、うわついたところが好くなくておもしろそうな感じがする。
2006.10.19
コメント(0)
Python Mechanize を使ってみる (2006/10/15) を書いたが、もう少し、Python mechanize を使ってみることにする。今回は、楽天ブログのトップページを開いて、ログインフォームへの自動入力し楽天にログイン。そして、アクセスログのページを表示してみる。import mechanize# トップページの URLtop_page = 'http://plaza.rakuten.co.jp/'log_page = 'http://my.plaza.rakuten.co.jp/index.phtml?func=etc&act=accesslog'# ログイン名とパスワードを指定username = "my user name"password = "my password"# ブラウザオブジェクトを作るbr = mechanize.Browser()br.set_handle_robots(False)# トップページを開くbr.open(top_page)# フォームを指定して、ユーザ名とパスワードを設定して送信する。br.select_form(nr=1)br["u"] = usernamebr["p"] = passwordbr.submit()# アクセスログのページを開くresponse =br.open(log_page)#取得した内容とレスポンスコード、メッセージを表示するprint response.read()print response.code, response.msg# 後処理response.close()br.set_handle_robots(False) を設定せずに楽天ブログへのログインしようとするとはねられてしまうので、スクリプトが robots.txt を無視するようにしてアクセスするようにしたいから。この行を入れたものとコメントアウトしたもので比べてみると分かる。br.open(top_page) でトップページを開いたら、br.select_form(nr=1)br["u"] = usernamebr["p"] = passwordbr.submit()とフォームに値を設定している。nr=1 はページ中の最初のフォームが nr=0、2番目のフォームなので nr=1 を指定している。フォームが name を持つ場合には、名前でフォームをしいていすることもできるが、楽天のトップページのログインフォームにはそれがないので 2番目のフォームという指定の仕方をしている。次に、アクセスログのページを開いて、レスポンスを response に保存しておく。そして、その値を表示している。これでアクセスログのページを自動的に取得することができるようになった。ただし、だらだらとHTMLをそのまま表示しているだけなので、次はアクセスログの内容を使い易い形に変換してみようかと思う。
2006.10.19
コメント(4)
米エンロン社の電子メール150万通:その利用法(上)エンロン社の電子メールがインターネット上に初めて出回ったのは2003年3月、米連邦エネルギー規制委員会(FERC)が、エンロン社の従業員176人が送受信した150万通以上の電子メールを公開したときのことだ。カリフォルニア州のエネルギー市場に対して同社が2000年に行なった市場操作に関する調査の一環として、FERCは電子メールを公表したのだ。米エンロン社の電子メール150万通:その利用法(下)学術機関に所属する研究者たちは、エンロン社のメールがまたとない公開データの宝庫であることをすぐに理解した。社会的ネットワーク、情報分析、情報検索などに興味を持つ研究者にとって、利用価値の高いデータなのだ。Introducing the Enron Corpus (pdf) を見ると、158 ユーザの 619,446 メッセージをクリーニングして、200,399メッセージ(1ユーザあたり757メッセージ) にしぼり分析を加えている。フォルダ構成やスレッドに目を向けていて興味深い。61.63%のメッセージがスレッドを構成していて、1スレッドあたり平均で 4.1 など。データは、Enron Email DatasetやProcessed Enron corpus (XML形式になっている)Enron Emails で実際に検索ができる。また、exploring enron のように視覚化したサイトもある。スパム・メールのフィルタリング状況をチェックするプロジェクトが発足 エンロンの電子メール・メッセージには、普通ならなかなか入手できない私信やスパムが大量に含まれており、スパム研究には非常に役立つと、グラハム・カミング氏は述べている。こうしたものを見るに付け、アメリカというのは、実におもしろい国だと思う。ちなみに上記のプロジェクトのページ SpamOrHam を見ると、SpamAssassin public corpus、TREC 2005 Public Spam Corpus) Spam Corpus へのリンクもある。一般に、コーパスを作ることの重要性は、アメリカの方が日本に比べて相当に進んでいる。日本のコーパスはやっとまともに予算が付いて進み始めたというところだろうか。そのうち、この話題は扱おうと思う。なぜにエンロンコーパスについて、今頃書いているかというと、メールの0.71~1.02%は「ただ消えて無くなる」~Microsoft研究者らが論文主な原因はスパムフィルター の記事が出ていたから。spam がどうのこうのという問題よりも、エンロンコーパスが使われていることに興味がいってしまった。エンロン裁判で公開された典型的なビジネスメールの文面を集めたメール約1,700通が利用された。 マイクロソフトの論文: Addressing Email Loss with SureMail: Measurement, Design, and EvaluationMicrosoft Research を見ると、マイクロソフトって今や研究機関としても、すごいものになっているなと改めて感じる。この15年の間に淡々と研究機関としての人と実力を蓄えている。これらの研究がすべて製品に活かされて利益を上げているかというと、そうでもないとは思うが研究機関としてはかなりの規模になっている。かつてのゼロックスのパロアルト研究所のように、マイクロソフトが取りこぼしてしまったものから次世代のおもしろいものが出てくる可能性もあるかもしれないななどとふと思った。ちょうど15年なのね。
2006.10.18
コメント(0)
![]()
しばらくテキストマイニングに凝ることにしたので、すでに買ってあった本も片付けていくことにする。とりあえず過去の復習のために『福祉・心理・看護のテキストマイニング入門』を読んだ。序章 テキストマイニングと質的研究第1章 テキストマイニングと質的研究第2章 テクストデータの収集と分析単位第3章 テキストマイニングのカラクリ 1 - 形態素解析で単語の頻出分析第4章 テキストマイニングのカラクリ 2 - クロス集計表と数量化 III類第5章 「茶筅」とExcelを使って多変量解析用データを作る第6章 テキスト分析のためのデータを洗練する第7章 テキストマイニングを用いた心理学分析の応用例第8章 テキストマイニングによる分析の論文事例付録A 「茶筅」のインストール付録B 「WordMiner」のインストールその書名のとおりの「入門書」。2005年7月の出版。自分にとっては、特に目新しい発見はなかったが、この手のものを知らない人にとっては、初歩的な手法のテキストマイニングの概念と、ツールの使い方とのイメージが分かってよいかもしれない。ただし、手法的に言うとかなり古典的な手法だと思う。具体的な処理の入門書としては、『Excelで学ぶテキストマイニング入門』の方がよいかもしれない(まだ、こちらはパラパラとめくっただけだが)。『福祉・心理・看護のテキストマイニング入門』では WordMiner が紹介されているが、一般 315,000円、アカデミック 157,000円のソフト。入門で使うには安いソフトとは言えない。まあ、便利そうと言えば便利そうなのだが。WordMiner (TM) テキスト・マイニング研究会 にも資料がある。「テキスト型データのマイニングとその応用」WordMiner活用セミナー資料 によい資料がたくさんある。この資料を読めるレベルの人であれば、上記入門書は不要。逆に言えば難し過ぎると思えば、まず上記の入門書を見てみるととっかかりになるかもしれない。文献リスト、リンク集 も役に立つ。入門書には、こうしたリソースを付けるべきだろう。KH Coder を使って実際にデータを扱いながら進めるような入門書が出るといいかもしれない。パラパラと何冊かの本を見た限り、入門的なものと概念的なものはいろいろあるが、実践にそのまま役立てられるようなタイプの本がないなと思う。加えて、『デキストマイニングを理解するための数学』とかいったタイプの本があるといいと思う。ちょっと探してもいろいろな多変量解析の入門書が出ている。15年ぐらい前と比べると多変量解析の入門本が異常なまでに増えている。時代の要請か。
2006.10.18
コメント(0)
Web 2.0の挑戦者:ミームトラッカーTailRank の TailRank が 2.0 になっている。blog.tailrank.com。Dot-Com-Boom-Echoed-in-Deal-to-Buy-YouTube のような感じか。Tailrank wins Time.com's Top 50 Coolest Sites らしい。この手のものを全部ならべて反応の仕方がどう違うかとかチェックするとおもしろいだろうが、さすがにそこまで時間はない。
2006.10.17
コメント(0)
ウェブメディアの発展史2000-2006 - ―Web利用行動データで読むメガメディア化とCGMの台頭― (PDF) を眺める。先日ダウンロードしてざっと眺めてあったのだが、また眺め直す。この資料、無料なのは大盤振る舞いだと思う。Web 広告研究会 の第14回WABフォーラム基調講演でネットレイティングス株式会社代表取締役社長萩原雅之が使用したものらしい。とても興味深い資料。この資料にテキストでしかるべき説明文を付ければ、それで1冊の本ができるぐらいの密度がある。ちなみに、上記の萩原さんはとてもよいお方だと思います、なんていうことはさておき、やはり、このネットレイティングスという会社の存在は何気にネット上で重要な意味を持っていると思う。ネットレイティングス、「mixi」の利用者急増などを指摘月間100万人以上が訪れる企業サイトが増加、ネットレイティングス調査ポイント、ポイントでいろいろ調査結果を表に出して、それが伝播していくので、一定の流行の兆しがあるものに、最終的に火を噴かせる役割を担うことがさらに多くなっていくような気がする。調査会社が流行を左右することがよいか悪いかは別として、ネットの広告業界とは切っても切れない関係になっていると思う。データを出せば、それを使いたい人が使うわけなので、流行の兆しがあるというデータを出せば、もっと流行らせたいと思う人は当然、引用する。ということは、発表するデータの視点のあて方によって、どうしても視聴率そのものに影響を与えてしまうということになる。この会社が存在価値を出そうとすると、流行の先駆けをとらえて予測性を主張する方法と、後付で流行を振り返って説明する方法があると思う。どちらかといえば後付よりも、将来を予測できるデータであることを主張する方がインパクトはある。が、やりすぎるとやばい。「流行を作りたい」という誘惑が生じてしまうだろうから。主要株主に株式会社電通ドットコムがいるし気をつけないと、その筋からこんなの調べてまとめてみたらおもしろいんじゃない?なんて話で、知らない間に広告に加担することもあり得るし。何にしても、おこぼれとして表に出てくるデータが非常にありがたい。最新月間視聴率ランキング みたいなものや、2006 年9 月月間の日本のバナー広告推定総広告費は192 億円 みたいなものはありがたい。ネットレイティングス・データクロニクル2006 みたいなものも見てみたいが、210,000円は買えない。2000年4月から2006年3月までの6年間(72ヵ月)分のインターネット視聴率データが収録されていることを思えば、その程度の価値はあるんだろうし、こういうところではそれなりの料金にしておかないと会社として成り立たんというのもあるかもしれないが。ネットレイティングス・データクロニクル 2006 サンプル を見ていたら、総理用者数と日経平均とを並べてグラフにしてあるが、こういう発想はおもしろいと思う。異なるドメインのデータを並べてみるとおもしろいことが見つかるときもあるだろう。何はともあれ、ネットレイティングスは注目企業の一つ。考えてみたら、米国の Nielsen//NetRatings にもおもしろいデータが公開されているんだから、そっちも日頃から見るようにしておけばよかった。16,000 SEARCHES PER MINUTE。1秒間に 264 の検索。そのうち 68% が Google のようなので、平均して Google は1秒間に 179.52 個のクエリーをさばいているということか。実際には時間帯によって集中しているところとそうではないところがあるだろうから、仮にピーク時はその何倍にもなるんだろうが。
2006.10.17
コメント(0)
![]()
自由回答データを定量的な切り口で分析するには? の記事で KH Coder が扱われている。突然だが、しばらくテキストマイニングに凝ることにした。とりあえず KHCoder をダウンロード。とりあえず、そのままで動くことを確認。とりあえずチュートリアルから試してみることにする。毎日、こつこつと、まず KH Coder の使い方をマスターしてしまうことにする。
2006.10.17
コメント(0)
![]()
NTTデータ、セキュアOSを利用した認証方式のプロトタイプを開発--SSHブルートフォースアタックに対応 を読む。NTTデータが同社が開発した TOMOYO Linux は以前から興味はあるのだが、なかなか、面倒で手を試す機会がない。そのうち試してみようかと思うが、まあ、当分、あとになるかな。SELinux はやっぱり片手間で扱うにはちょっと荷が重すぎるから、直感的には、こういう方向のものはよいと思うのだが、カーネルをコンパイルし直したりするのが面倒。
2006.10.17
コメント(0)
![]()
IPA (独立行政法人 情報処理推進機構) は、数ある行政法人の中でも比較的有効に機能している機関の一つであると思う。「2006年度日本OSS貢献者賞」の受賞者を選定、12名の天才プログラマー/スーパークリエータを発掘 ~2005年度下期『未踏ソフトウェア創造事業』スーパークリエータ認定~ のようなものにしても、どんなものを受賞させるかについては議論の分かれるところかもしれないが、オープンソースの推進役としての IPA の役割については、それほど意義を差し挟む人はいないのではないかと思う。日の丸検索エンジンに莫大なお金をつぎ込むのであれば、こういう機関に少し予算をつけて上げた方がいいかなぁと。IPA は開示度も比較的高い方の組織だと思うし。もっとも、予算が限られた中でなんとかやっていこうとするからよいといえばよいのだが。ソフトウェア信頼性・安全性向上のためのサポート基盤整備事業の公募の中に、検索システム・IPA(いぱ)サーチの構築 公募概要 というのがある。公募からリリースまでが半年程度で、既存の IPA のサイトで使用している Namazu を改良して、検索精度を向上させようというプロジェクト。また、研究事業ではなく実用性重視で IPA のサイト内検索の質をユーザー・インターフェイスも含めて改良するという話。IPA のサイトでリリース後、成果物等が公開されることが期待できる。辞書作成機能、辞書更新機能等や、重み付け検索機能等、も仕様に入っている。日の丸検索エンジンみたいな大がかりなものでなく、こうした地道なところでの実用的な取り組みというのは非常にいいことだと思う。ということで、半年ちょっとしたら、またチェック。期待しておこう。募集要項(pdf) もこうした文書の作成する際の参考として役立つ。
2006.10.16
コメント(0)
mechanize (Web ブラウジングをプログラムするための Python のモジュール) を使ってみることにした。mechanize は、Andy Lester さんの WWW::Mechanize (Perl 版) を参考に Python で実装したものようだ。WWW::Mechanize の日本語情報を眺めてみる。このページにあるものや、サンプルスクリプトが参考になりそうだ。file upload script for sourcefourge.jp のように Mecab の sourceforge.jp へのアップロードにも使われているようだ。これも参考になるスクリプト。 urllib を使えばページをとってきたりするのは楽にできるのだが、その後、とってきたページを解析して、そこからフォームを取り出して、フォームに自動入力してポストしたりだとか、ページの一部を切り出したりだとか、そういうことをやるには mechanize を使ってしまうのが楽そう。今さらながらクッキー もあるか。IE に依存して自動操作をしたいときに参考になるページ で PAMIE も見つけた。やはりこれも、SAMIE(Simple Automation Module For Internet Explorer) という Perl のモジュールから派生した Python 版のようだ。PAMIE の使用例は、動トレードシステム本体 のページにあった。Perlモジュール/WWW::Mechanize に Yahooニュースの今日の記事一覧を取得 というのがあるので同じようなことを Python でやってみる。mechanize の インストールとりあえず、今は Linux を使っているので、$ wget http://peak.telecommunity.com/dist/ez_setup.py$ sudo easy_install mechanizeでインストール完了。Yahooニュースのコンピュータ一覧の記事一覧を取得とりあえず、ページをとってきてみる。import mechanize# ブラウザオブジェクトで URL を開くbr = mechanize.Browser()br.open('http://headlines.yahoo.co.jp/hl')enc = br.encoding()# ページのエンコーディングに検索文字もあわせるcategory_label = unicode('コンピュータ一覧', "utf-8").encode(enc)next_label = unicode('次のページ', "utf-8").encode(enc)links = []# 指定カテゴリの一覧の取得br.follow_link(text_regex=category_label)while 1: try: # リンクをリストに追加 links += [x for x in br.links(url_regex='/hl\?a=')] # 「次のページ」があれば処理 br.follow_link(text_regex=next_label) except: break# 出力for l in links: print "%s [%s]" % (unicode(l.text, enc), l.url)(上記のリストは全角スペースを使ってできるだけレイアウトが崩れないようにしているので、全角スペースを半角スペースに変換しないと動きません。)文字コードの変換が面倒かつ見苦しいので、ちゃんと調べてきれいにやった方がいいか。だいたい同じようなものになるかな。ん、これだとアクセスランキングの方も表示されちゃう。ま、とりあえず、使いかたが確認できたのでよしとするか。フォームに値を入れて submit するのもやってみる。楽天にログインさせようとしたら、robot だと 403 を返してくる。RobotExclusionError: HTTP Error 403: request disallowed by robots.txtRobot じゃないよとするためには、br.set_handle_robots(False) としてやればよいようだ。まあ、なかなか役立ちそうな感じがする。
2006.10.15
コメント(1)
マイクロソフト、自然言語処理技術のColloquisを買収へ らしい。松下電器産業なども顧客に持つ 会社のようだ。Colloquis は Windows Live Service Agents と呼ばれるマネージドサービスを持っているようだが、ってそれはなんだかわからんので調べてみる。Automated Service Agent? (ASA) System という技術があり、トップページの右の方にある demoを開いて、"Who is Colloquis?" と入力してみると、ページが切り替わるとともに、答えも表示される。コピペするとなんなので、やってみると分かる。あるいは、"How many employees?" のように入力してみるとか。いわゆる人工無能の技術を持っている会社のようだ。じゃなくて、顧客対応を自動化することによってコストを削減するとともに顧客満足度を向上させるようなことをするのがメインの企業みたい。で、単なる知識を持った対話型の人工無能なわけではなくて、人間へのエスカレーションのプロセスとか、質問内容の分析ができたりとか、ソリューションにしているということのようだ。マイクロソフトと直接つながりそうなのは、Colloquis Offers Free BuddyScript SDK License for the Development of Conversational MSN Messenger Applications だろうか。Special Offer of Colloquis BuddyScript SDK for MSN Messenger と MSN Messenger 用の Bot を使ったアプリケーションが作れるようだ。Colloquis Developer Center なども参照。Downlaod ページを見てみると Linux のリンクもある。おもしろい会社かもしれない。
2006.10.14
コメント(0)
全文検索エンジン「Ludia (TM)」の公開を開始 ~PostgreSQLに全文検索機能を提供~二種類の主要な全文検索インデックス方式(N-gram、形態素解析)を共にサポート複数の検索方法(ブーリアン検索、近傍位置検索、類似文書検索)に対応検索した結果が、どの程度期待している結果であるかを示す、「スコア」の取得という特徴があるようだ。NTTデータのLudiaのページを見てみると、他にも簡単な図画ある。形態素解析器としては mecab を、全文検索のインデックス作成には senna を使っていてって、んーなるほど、肝心なところはオープンソースですでに公開されているものを使って PostgreSQL に統合するところに専念しているということか。ダウンロードファイルを見ると、MeCab と Senna を含んだもの(withdep)と含まないものが用意されている。まあ、このパターンの構成でいくと「全文検索機能付きブログ検索エンジン」なるものを作り、皮を向いていくと Ludia、Senna、そして Mecab が残ったというパターンも出てくるかな。となると、案外、Mecab の辞書メンテナンスなんていうのが仕事として成り立つようになる可能性もあるか。あるいは、それを半自動化するオープンソースのアプリが出てくるとか。さて反応はどうかと調べてみると、次のように思う人もいるようだ。このあたりはすべてSennaの機能なのであって、NTTデータが作ったのはC言語でたった700行かそこいらのPostgreSQLへのバインディング部分だけです。自分たちで全て作ったかのような印象を与える書き方は止めた方が良いとおもう。今日の井原: Ludiaの件PostgreSQL用の日本語対応全文検索エンジン「Ludia」(slashdot)も見てみると、Senna MySQLバインディング の PostgreSQL バインディング版なのとか、pg_senna とどう違うんだという話も出ているが「完全にPostgreSQLと統合されているわけではないので多少の注意を払って使用する必要があります」「現在のpg_sennaはαリリースにもなっていないレベルなので以下のAPIは全て変更される可能性がありますのでご注意ください。」(pg_senna のページより)なのに対して、Ludia は PostgreSQL との統合度が高いところがポイントと。であれば、pg_sennna に成果をフィードバックするという手もあっただろうにそうしなかったのは、フォークではなくて、まったくの別物を作ったということかな。すでに使っている人を探してみると、Ludia+PogtgreSQLによる全文検索をRailsで使う が見付かる。早いわね。まだ、ちょっと使い始めた程度のようなので、別を探す。早い? で実際に速いか試している人がいた。一括導入スクリプトも書かれている。udiaは、PostgreSQLのインデックスメソッドとして実装していますから、他のインデックスを必要とするようなことはありません。現時点、大きな性能ボトルネックも見つけていませんが、更新トランザクションの高負荷検証は手薄なので、だれか虐めていただければうれしいです。インデックスに関しての今の課題は、DROP INDEXでsennaの全文検索インデックスを削除できないことです。これは、PostgreSQLが機能向上し、システムカタログにトリガが設定できるようになれば簡単なのですが、現時点はアイデアがありません。とある。表現が、んん、ひっかかる表現だと下を読むと、なんだ、開発に関わった人じゃないか。udia(TM)公開に、開発は、私を入れて3名。さらに今回公開したVer0.8では、協力してくださった方が2名です。今後は、基本的に3名で開発・保守を継続します。ということのようだ。既存のPostgreSQLバインディングに対し、PostgreSQLのインデックスメソッドとして作りこんだ、というところが大きな特徴です。と、開発者のコメントが見付かって、リリースを読んだときの疑問もとけて、すっきり。リリースにそういうところは明示すればいいのにね。PostgreSQL用の全文検索エンジン 「Ludia」 も見てみると、インストールも簡単で、検索も速いという印象のようだ。どうも、よさそうに見えるので使ってみることにしよう。
2006.10.14
コメント(0)
なんとなくネットサーフィンしていたら、思考と習作 は、感度がよくておもしろいと思った。書いておかないと忘れてしまうのでブログに書いておくことにした。こういあほくさい素敵なものは好きだ。合計が示す物は何?機械仕掛けのライオンMaxtor(ハードディスク)の驚異的な利用法iPodでドミノ倒しまあ、このブログ自体はそればかりのブログではなくて、Googleが次に買うのは?ISO27001PowerPoint共有サイトYouTubeをローカルに保存こういうまともなものがある。案外笑えるものを見つけたところには趣味にあるものが他にもあるものだなぁと思った。おかげで Google-YouTube: Bad News for Limelight?、Google: No Dark Mystery About Its Dark Fiber のような記事がある DATACENTER KNOWLEDGE のようなサイトがあることもわかったし。で、ほんとうは mechanize (Web ブラウジングをプログラムするための Python のモジュール)について書かれているものを探していたときに、たまたまぶつかって、本来の目的を忘れてよけいなものばかり未定たわけなのだが。
2006.10.14
コメント(2)
ふらふらしていたら、悪徳SPAMメールと対決する を見つけた。読みながら声を出して笑ってしまった。この人はおもしろすぎる。他のも笑える。そういえば、だいぶ前にこのサイト見て笑ったような気がしてきた。まずい。頭の老化が進んでいるようだ。でも、同じもので何度も笑えるなんて、歳をとるのはすてきなことです、そうじゃないですか~。
2006.10.14
コメント(0)
とりあえず体温の方は 37.8度をピークに 38度までいかずにひいてしまった。現在、36.8度程度。まあ、よいことなのだが。あと一息で 38度だったと思うとちょと残念だ。一時的には超えていたかもしれないが、そう思うと余計残念。かといって一日中体温ばかりはかっているわけにもいかないし。この年になってあまり高熱を出して、よけいに頭が悪くなってもあれなので、まあよかったというところか。気がついてみたら、いつの間にかアクセスカウンタが 60,000 超えていた。だいたい1日100~200、多くて300弱程度の緩やかなものだが、100 * 100 = 10,000 か。同じアクセスがあるユーザのブログが 100個あるだけで1日 10,000。1000個あれば 100,000。10,000 あれば 1,000,000 が1日。
2006.10.13
コメント(0)
![]()
IBM の Eclipse 戦略はとっても成功しているように見える。とうとう、IBM、エクリプス財団に「Rational Unified Process」のコードを提供 まできてしまった。最近の傾向は何でもまず開発者を見方につけるということだが(ウェブサービスの類にしても、結局、開発者がのっかってくれないと成功できないから、Google にしても、Yahoo! にしても Amazon にしても、ずいぶん、開発者をターゲットにした行動を起こしている)、IBM がまさかここまでやるとは思わなかった。とはいえ、「Rational Unified Process(RUP)」のおよそ15%にあたる。」ということで全部ではないようだが、ほうと思った。ちなみに Java 以外の言語であっても Eclipse を使っている開発者の数って地道に増えているんじゃないだろうか。特許なんかもオープンにしていく方向があるし、さすが IBM は強いなと思う。Eclipse 使ってみようかな(多少、動かしたことはあるのだけれど、まともに使ったことはない)。
2006.10.13
コメント(0)
エプソン販売株式会社とエー・アイ・ソフト株式会社の合併に関するお知らせ が出た。日本語変換 FEP の WX とか、アイデアプロセッサの創考とか、一時は面白いもの作っていてユーザだったこともある。あぁ、とうとうこういうことになってしまったか。WX シリーズはマニア好みの FEP でありました。若い人は FEP という言葉さえ知らないだろうな。
2006.10.13
コメント(0)
消費者の行動モデルとして AIDMA 理論というのが日本では有名だが、最近(といってもこの1年ぐらい)、改良版?に移行しつつあるようだ。Attention (注意が喚起され)Interest (興味が生まれ)Demand (それを欲するようになり)Memory (頭に刻み込まれ)Action (ついには購入に踏み切る)AIDMA というのがマスメディアに最初に登場したのは確認できた限りでは Aidma to Zilch という 1955年2月28日 TIME magazine の記事。Aidma: Recognized formulas for good commercials. A-attention, I-interest, D-desire. M-memory, A-action.さらに古くは The Development of the Hierarchy of Effects: An Historical Perspective Thomas E. Barry (pdf) になんかぐちゃぐちゃとスキャンされた文書があるので手がかりになるだろう。まあ、1900年初頭に最初に出てきた似非理論なので科学的なお話ではない。日本ではマーケティングでこの AIDMA 理論がよく使われるものの、実はアメリカではそれほどメジャーな用語ではなかったりするようだ。まあ、こういうモデルに当てはめて公告業界の人が動くというのは、ビジネスを分かりやすくするという意味でおかしい話ではないのだが。まあ、AIDMA もインターネット時代では力尽きてきて、もう少しもっともらしく見えるようなものにしようということで、AISCEAS 理論などというのも使われるようになってきているようだ。AIDMAでは証明できない今の消費者購買行動 など参照。Attention (注意)Interest (興味・関心)Search (検索)Action (購買)Share (情報共有)あるいは、Attention (注意)Interest (興味)Search (検索)Comparison (比較)Examination (検討)Action (購買)Share (情報共有)でも、AIDMAの整理、AIDMAの整理、その2、ネット以降のマーケティングコミュニケーションを整理する のように、細かくぐちゃぐちゃやりすぎると意味がなくなっちゃう。AISCETAS.... なんて長ったらしくなっちゃうと意味がなくなる。AISCEAS で長さ的に限界だろうな。所詮は似非なんだから、証明できないって当然じゃないと思ったりする。AISCEAS だって消費者行動を証明することなんてできないんだから。マーケティング用語だからいいんだけど。まあ、こうやってモデル化することによって、マーケッターやその顧客間で共通の枠組みを作って、その中に当てはめることによって頭で理解しやすい流れにしてあげるってことなんでしょう。つまり、消費者の行動を説明するモデルなのではななくて、消費者の行動をモデル化して、マーケティング行動をやりやすくするためのモデルと言えばいいんじゃないかなと思う。マーケティングモデルも広告業界がコンセンサスがこの方面でできつつあるといったところか。ただ、おもしろいと思うのは、IT 業界ではいわゆる buzzword の寿命が短いのに対して、マーケティング業界は意外にこうやって寿命が長いものがあるというところ。フレームワークに大きな変動がないというのは楽なことだと思う。その代わりに、表の行動は派手だから大変だろうが。まあ、考えてみると PDCA とかそういう類の言葉だと考えるといいのかもしれないな。これは寿命が長い。要するに人間の頭って言うのは高々数個のフレームに当てはめて考えるのが一番、楽で効率的なんだろうと。記憶にしても 7+-2 程度の数が短期記憶の範囲だし、これよりさらに少ない数でないとだめなんだろう。基本的には、1,2,3 たくさん。キーワードにするとチャンクとして記憶されやすくなるから、覚えやすいものであれば、情報量を増すことができる。それが AIDMA であり、AISCEAS であり、PDCA でありというところか。広告業界の地味な側面て案外面白い。表側では CGM(Consumer Generated Media: 消費者生成メディア) なんてバズワードも登場しているがこれは短命だろうな。いつも不思議に思うのは、呪文なのだよね。英語を母国語とする人の場合は、アルファベットから本来の省略された単語を比較的想起しやすいのに対して、日本人は日本語をつかっているから、CGM が本来の意味を失って、シニフィアンとシニフィエの乖離の世界に行く。そしてシニフィアンの冒険が始まる。
2006.10.13
コメント(0)
![]()
ついでに DocuWorks のページを見る。DocuWorks 6.1 日本語版/1ライセンス基本パック 15,200円。やっぱりこの手のものは高い。微妙な金額だろうな。1ライセンス9800円まで落としてしまった方がいいんじゃなかろうか。当然、バルクで買えば5000円を切るような感じで。ひとりで学べる DocuWorks を見てみる。お金かかってるぅ。でも、遅いからさささっって見るのには辛い。できはよいかもしれないが、途中で見るのをやめてしまう人がほとんどじゃなかろうか。ArcWizShare なども見てみる。ソフトウェアを使用目的で選ぶ を見る。こういう製品がたくさんあるものって、ある程度シナリオを作って、これとこれを使うとこうなる、そして、このシナリオだといくらぐらいかかる、というのが別にないと圧倒されてしまって終わるのだな。ついでに、日本マニュアルコンテスト最高賞のマニュアルオブザイヤーを受賞したというスキャンの本 を見てみる。確かに手をかけているな。マニュアルがよい方が営業効率もよくなるだろうしね。DocWorks の体験版をダウンロードしてちょっと使ってみた。んー、ちょっと中途半端なところがあるが、コラボレーションをせずに個人の文書管理としても案外便利。職業柄ドキュメントをたくさん作る人にはいいかもしれない。SOURCE NEXT に持ち込んで 1980円にすれば、結構、個人にも売れるはず。うーむ。こんなことを書くと怒られそうだが、個人にとってはその程度の価値しかない。やっぱりインターフェイスがちょっとというところもある。サーバーベースの方がメインだろうから、こういうものは安くしてしまって富士ゼロックスのドキュメントソリューションに対しての入り口にした方が得策な気がする。DocuWorks 6.1 日本語版の価格のページを見ていたら、製品版は、Acrobat Elements や Expand Finder などがついているのだな。そうすると、こういう価格になってしまうのか。んー。便利だけど、中途半端な感じ。でも、便利といえば便利だし、んー。微妙なソフトだな。ConceptSearch 持っているし、PDF 書き出しのためのツールも持っているし不要。よけいなものはずして安い方がいいな。DocWorksのファンってやっぱりいらっしゃるのね。
2006.10.12
コメント(1)
![]()
先日 自分で編集する雑誌? というのを書いたが、ネットプリント というサービスがあったなと調べてみる。問題なのは、プリント料金が白黒:30円、カラー:80円(A3のみ120円)というところかな。コンテンツギャラリーにいろいろ登録されているけれども、実際のところどの程度利用されているのだろうか。正直、1ページあたり 30~200円を払ってまで何かを印刷したいというのは、特殊な情報に限られてしまうな。せめて公告を上下に入れるなどして料金下げないと辛いんじゃないかな。。。公告がいやな人はそのままの料金で。あるいは紙質を下げるとか。やっぱり、こういうサービスはもっと料金が下がらないと使う気にならない。大量のプリントアウトなんて家庭用のプリンタを使うより高速ですよという方向だってあるんじゃないかな。あるいは家庭用のプリンタで印刷するより安いとか。ここでしか得られないものと、高品質のプリントで単価が高く設定してというのも分からないでもないのだが、安くて早くて、そこそこの品質という方向がないと、なかなか使う気になれない。仮にここにしかないものであっても使うことに対していったん敷居が下がっていないと、まず使わないだろうし。そうすると、どっちかっていうと KINKO'S とかの領域になってくるのかな。セルフサービスだと白黒出力 \9.45、カラー出力 \51.45。んー、やっぱり印刷って高いのだよな。でも、この程度であれば、保存用のプリントアウトとしては、公告の付け方を工夫したら、無料化は無理でもこの程度だったら使ってもいいかなというレベルに何とかなるんじゃなかろうか。こういう方向もあるだろうけど。1~5冊まで 1冊1,890円、6~48冊まで1冊1,680円。写真集であれば記念品であればこの額でも払う人は払うか。やっぱり紙は便利だけど不便だ。情報提供者は、紙媒体より電子媒体にどんどん流れていくのは当然だな。たとえば日経BPみたいなところなら月極幾らの PDF ダウンロードが妥当なところとなってしまうか。紙はいらんと。電子データまだ高いから公告入れてもいいからもっと安くなってくれないとなぁ。とにかく複数の電子データをまとめて1つのくくりにして売るというような枠組みがあるといい。PDF データのマッシュアップがあったっていいじゃんということ。バラバラのものを探して個々に買うのではなくて、まとめて一つにして個々に買うより安くするとか。
2006.10.12
コメント(0)
![]()
風邪のため引き続き体温上昇中。ただいま 37.7 度。38 度を超えて1日経ったら薬でも飲むかな。このぐらいの体温になると、節々がギシギシしはじめるが、それほど、痛みや不快感で大変ということもない。
2006.10.12
コメント(0)
YouTube に Buggles の Video killed the radio star がのっている。相変わらず何でもありだ。Video killed the radio starVideo killed the radio star (アニメ)そして、Internet Killed the Video Starなぜかこの曲好きなのだな。一回聴いてしまうとダメ。さて、これから Google はどの程度の訴訟に巻き込まれていくんだろう。金がないベンチャーなら訴えてもどうにもならないところがあるだろうが、相手が Google になれば当然、狙われる。いざとなれば直接お金を払わずにバーターでクリアしていくとかもできるだろうな。
2006.10.11
コメント(2)
風邪をひいてしまった。まだ鼻風邪程度で、熱は 37.3度。今のところ、たいしたことはないが、普段、けっこう35度台だったりすることも多いので、37度台に入ると、少しずつ脳みそが溶け始める。これからどうなるかなぁ。私は頭が悪いので、熱が出るとなんだかワクワクするところがある。以前、38度を超えてもう少しで 39度になるかなというところまで上がったあと、すとんと下がってしまったときには、ちょっとがっかりした。37度台前半というのは、一番おもしろくない。とってもおバカだと思う。
2006.10.11
コメント(0)
グーグルのユーチューブ買収----「今日中にも発表」か、グーグル、ユーチューブを16億5000万ドルで買収へ を読んで、そろそろ強く成りすぎでおもしろくなくなってきたかな、なんて思う。YouTube は確か 7月ごろには資金繰りが苦しいから買収がどうのという話が出初めていたから、そのうち、どこかが買うのだろうと思っていたが Google かぁ。Google 便利だけど、勝ち過ぎでさすがにおもしろくないな。敵対する可能性があるところは、他に買われたり、力をつける前に早めに目をつみとるって、これじゃマイクロソフト的なやりかただものなぁ。そういう路線は Blogger 買った時点で明白だったわけだけれど。この手の企業は高成長を維持するためにそういう方向に走ってもしかたない気はするけれど。でも、なーんかつまらないな。
2006.10.10
コメント(0)
全75件 (75件中 1-50件目)
![]()

