Rで、ニコ動のタグやカテゴリを取得してみる


またまたRとニコニコ動画ネタ。というより、前回のつづき。
前回、タグがうまく取得できなかったので、今回はタグやカテゴリタグの取得に挑戦。
ちなみに、自分はRを使うのに、RStudioを利用しています。

前回は簡易的にXMLをデータフレーム化するxmlToDataFrameという関数を利用しましたが、どうやらXMLをDOMにパースするxmlParseというものがあるよう。

文字化けしてますが、このまま続けます。ところで、純正のRの開発環境で試すと、XMLのコードが表示されなかった。また、このnicoという変数は、externalptr(外部ポインターオブジェクト)という型になっているよう。このあたりはよく分かってません。

とりあえず、XPathが使えるgetNodeSetという関数があるようなので、それを使ってタグを取得してみることに。

ありゃ。文字化けしてない。よく分からない仕様だなぁ・・・。これはlistという型になっているようなので、また違うのかもしれない。
とりあえずこの値を取得したい場合は、xmlValueという関数をつかえばいいらしい。

正直、Rはまだまだ分からないことだらけなので、どうしてこうなるのかわからないのですが、とりあえずタグの値は取得できたので目標達成です。

さてじゃあ次にカテゴリタグを取得・・・。ってよく見たらsm9にはカテゴリがないようです(カテゴリ化してる、ゲームタグも音楽タグもあるというのに)。とりあえず、sm1097445(【初音ミク】みくみくにしてあげる♪【してやんよ】)で試すことに。

というわけで、前回作成したデータフレーム(nicoFrame2.txt)にカテゴリーを追加してみる。
まず、上記ファイル内を全て選択してコピーし、Rに読み込むことに。

これでできたファイルが以下。
nicoFrame3

な・・・。カテゴリーがうまく取得できてない動画がやけに多い・・・。
さっきはカテゴリーを取得できたみくみくにしてあげるも、『カテゴリーなし』に・・・。
カテゴリー取得してやりたいことあったけど、これは困った。ロックしてるタグの一番始めが、カテゴリーにある名前かどうかを見ていくという手法でなんとかなりそうではあるけれども・・・(多分、カテゴリータグの仕様はそれであってる)。
なんでこんなに、カテゴリーかどれかという情報がとれたりとれなかったりするのやら・・・。

コメントを残す

メールアドレスが公開されることはありません。