One of my favorite things is ...

2019.08.28
XML
カテゴリ: データ分析
​​​​​​  楽天市場の商品レビューのスクレイピングができる​ 「R言語」のコードの改訂版 ​ができましたが、それを使ってレビューデータを取得してみました。

 「ナッツ」の栄養が健康にいいのではないか、ということで楽天市場の「ミックスナッツ」の商品レビューのデータを分析しました。

 今回、分析対象にした、タマチャンショップの「ミックスナッツ300g」のレビューは2万件を超えています。


 商品のレビューページを確認すると、100ページ目で「次の15件>>」という表示がなくなりました。1ページあたり15件のレビューが表示されるので、レビューが見られるのは1500件までということのようです。

 1500件分のデータを取得することも考えましたが、楽天市場のサーバーへの負荷の問題もあるので、3分の1のデータにしました。

 「 for i  」文でページ送りをする際のステップを3にして、データを取得するページを減らしました※。

 その結果、510件(34ページ分)のレビューのデータを取得することができました。


 レビューのテキストを見ると、短い文が多く、内容の振れ幅もあまりなさそうでしたので、300件くらいの取得でもよかったのかもしれません。

 総レビュー件数2万件超ということですが、表示される1500件は、最近2年のレビューのようです。最近のレビューから1500件をどのような基準で抽出してページに表示しているのかはわかりませんが、取得したデータの「☆の数」は4個と5個の2種類です。

以下は、「ユーザーローカル テキストマイニングツール( https://textmining.userlocal.jp/ )で分析」



 「R言語」のコードの改訂版では、「購入した回数」のデータも取得しているので、今回は「購入した回数」の「リピート」と「はじめて」の別でテキスト分析をしました。

 「購入した回数」が「リピート」は258件、「はじめて」が81件、「回数不明」が171件です。「リピート」が多いので、同じ人が複数のレビューを投稿している場合もあります。

 下の「購入した回数」別に見た特徴語は、左から「回数不明」「はじめて」「リピート」となっていますが、あまり内容に違いはなさそうです。




▼「購入した回数」が「リピート」のレビュー中の単語のワードクラウド

レビューのテキストには、「美味しい」「無添加」「7種類」といった単語が見られました。

 また、「クーポン」という単語も見られ、やはり「クーポン」がある時に購入する人が多いようです。




▼「購入した回数」が「リピート」のレビュー中の単語の共起分析


 「美味しい」と「食べる」のほかに、「無添加」と「安心」や「クーポン」と「購入」といった共起関係が見られます。




▼「購入した回数」が「リピート」のレビュー中の単語の階層クラスター分析

 「リピート」と「クーポン」という単語が同じクラスターにあり、「リピート」購入は、「クーポン」を利用する場合も多いようです。




 このジャンルの商品の場合は、テキストの内容分析としては、300件くらいあれば傾向がつかめそうですが、「購入した回数」別や「性・年代」別などで分析しようとすると、500件くらいのデータがあった方がいいかもしれないと思いました。



※下記のように、「for i 文」のステップを3に調整して、取得するページ数を減らしました。

for (i in seq(1, pages_num, by = 3)) {  } 




☆関連記事​
▼「R言語」による楽天市場の商品レビューのスクレイピングコードの改訂版です:Excelで項目を切り分ける作業が不要になりました


▼楽天市場の特定の商品のレビューを「R言語」でスクレイピングするコード:一部の項目の空欄・欠損値(missing values)を「NA」に置き換えてデータフレームを作成:継ぎはぎのコードですが・・・







お気に入りの記事を「いいね!」で応援しよう

Last updated  2020.01.19 06:48:26
コメント(0) | コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

© Rakuten Group, Inc.
X
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: