Rを使ってニコニコ動画のデータを分析してみる


職場で統計に関する仕事をすることになり、最近Rの勉強をしています。
R のインストール – RjpWiki

とりあえず、ニコニコ動画のそれぞれのカテゴリの合計再生数ランキングにおける1位から300位までの動画のデータを作成したのでこれで試してみます(ランキングの上位を取得したデータなので、当たり前ですが偏りがあります。本来ならもっとランダムに取得できたらよかったんですが)。
http://am-yu.net/wp-content/uploads/2013/11/nico.txt
左から、カテゴリー、カテゴリーの中の再生数の順位、動画ID、再生数、コメント数、マイリスト数、です。

上記のテキストボックスを全て選択してコピーしたら、Rで下記のように入力

とりあえず、マイリストと再生数のプロットを表示してみる。options関数のscipen=100というのは、指数表現をしないための処理です。これをしないと、大きい数だと数値にEがついた指数表記になるので分かりにくい。

mylist-view-plot

なんだか相関ありそうです。なので、相関係数がわかるcor関数を使ってみます。

結果は、0.8042205となりました。

続いて、マイリストと再生数から回帰分析(この場合、単回帰分析)をやってみます。

こんな感じになりました。ここから分かるのは、マイリストがひとつ増えると再生数は29増えているということです。この29を係数というよう。ただし、マイリストが0だと再生数は227181という結果に。さすがに再生数が227181もあれば、マイリスト数は四桁ぐらいありそうな気もするのですが・・・。
決定係数(Multiple R-squared)が0.6468というのは、まあまあな結果ですが、もうちょっと高くなってほしいところです。

なお、コメント数と再生数はあまり相関がないようでした。相関係数も0.2044571とあまり相関がないと思えるような数値です。
mylist-view-plot

つづいて、コメント数とマイリスト数のカテゴリーから再生数を回帰分析してみます(この場合は重回帰分析)。

R-18がないのは別に配慮したわけではなく、たまたまR-18がデフォルトとなりました。つまり、ただたんにマイリスト数と27.987145を掛け、コメント数と0.156682をかけて切片(Intercept)の458110.790621を足しただけの数値は、R-18の動画の再生数の基準ということになります。VOCALOIDの場合はここから630814.309857を引いたものとなります・・・。あれ? これだと一見、VOCALOID動画のほうが再生数低いような気がしますね。そんなわけないんですが。
VOCALOIDの係数が低いのは、動画の再生数にたいするマイリストの割合が、VOCALOID動画は高い傾向があるのが原因かと思われます。
実際、カテゴリーだけを考慮した回帰分析だと、VOCALOIDの係数はプラスとなっているようです。

うーん。なんとも中途半端なエントリーになってしまった。もうちょっとRの使い方や、ニコ動のデータの分析について詳しくかけたらよかったのだけれども・・・。
もともと、コメント数がもうちょっと相関あると思ってやってみたことなので・・・。
ちなみに、コメント数5000000未満を省くと相関あるんじゃないかと思ってやってみた結果が以下。

mylist-view-plot

少し相関が高くなってきましたが、もうちょっと高いのが理想です。

コメントを残す

メールアドレスが公開されることはありません。