自動で見出しを生成する新アルゴリズム
Googleが、ディープラーニング を用いて、
記事(Webページ)の内容から自動で見出しを生成する学習アルゴリズムを開発したようです。
開発したのは、Google Brain Team(Google 人口知能 チーム)
元ネタは次のものです。
Text summarization with TensorFlow
これまでにも「車の自動運転」や「自動翻訳」など常に話題となっている ディープラーニング。
ロボットが家事を代行したり、無人自動車や無人飛行機など、
SF漫画やSF小説に出てくるような近未来の夢の実現が身近に迫っている気がします。
「AIが人類を攻撃するようになる」と警告を発する評論家や学者もいますが、
ドラえもんの誕生を心待ちにしている人の方が圧倒的に多いかと思います。
見出し
これまでSEO対策として、h1〜6見出しタグを正しく設置するというのが定石でした。
Google検索エンジンに検索してもらうには、「見出し」 は重要だと言っていたわけです。
しかし、今回の ディープラーニング の実験報告からは、
ディープラーニング を活用して、最適な見出しを自動生成するわけなので、
これまでのような見出しでは役不足だという事を意味しています。
今までのような「検索に好まれる見出し」より、
『良い見出し』が今後は必要になってくるのかもしれません。
記事の構成
Googleの人口知能が良い見出しを自動的に生成するわけですから、
そのアルゴリズムが重要なポイントです。
今回の記事に注目すべき記述がありました。
『the model can generate good headlines from reading just a few sentences from the beginning of the article』
記事の冒頭からの数行の文章から良い見出しを生成できるというわけです。
日本において、文章を書く上で重要とされてきたのが「起承転結」。
語源の由来としては、中国の漢詩の絶句の構成を指すもので、
私たちは文章を4つに分けるということを子供の頃から教わってきました。
しかし、この「起承転結」はそもそも国際的に共通した構成ではなく、
英語圏においては異端児です。
海外では主張が一番目にくることが殆どです。
パラグラフ・ライティング
この冒頭に主張を置く文章構成を「パラグラフ・ライティング」と言います。
パラグラフには、
「ある一つのトピックについて述べた文の集まり」という明確な定義があり。
冒頭に置く要約文(主張)、
それ以外の支持文(補足情報)の2つで構成されます。
この2つの構成による文章を複数混ぜ込んでいき、
文章全体を作り上げていくわけです。
実は殆どの科学文書(論文、レポート、研究提案など)が
この「パラグラフ・ライティング」を用いています。
「パラグラフ・ライティング」の肝要部分は、
「冒頭に伝えるべき事を記述する」という点です。
Googleのディープラーニングはパラグラフ・ライティングが基本
結局のところ、Googleは英語圏産のソフトウエアの集まりです。
これを理解した上で文章を記述しないと、
良い見出しの生成を自動的には行ってはくれないでしょう。
さらに、Google検索アルゴリズムが、
ディープラーニングによって自動生成された見出しを優先的に検索するようになった場合、
これまでの見出しでは太刀打ちできないことになります。
結局は、2秒から3秒間のファーストビューで、
読者に良い記事だと判断してもらうためにも、
興味を惹くような主張を冒頭に記述するというのが
インターネットでは正しい姿であり、
良い文章と検索される文章は違うのかもしれません。
まとめ
私たち日本人は、
「我輩は猫である。。。」
「トンネルを抜けるとそこは雪国であった。。。」
などの文学小説による強い影響を受けており、
冒頭に美しい情景や、擬人化による表現を多用する傾向にあります。
そしてその結果、海外の文章構成との差が大きくなっています。
こういった点に注意して、
ディープラーニングへの文章の対応を進めていきましょう。
タグ: ディープラーニング
【このカテゴリーの最新記事】
- no image
- no image