はてなブログ グループをスクレイピングして調べてみた
私のブログは今3ヵ月に入っています。「こんなブログもあります」にも載らなくなり、目下のところ人目に触れるのは読者登録していただいた方と参加したグループの方、そして私が訪問してスターを付けた方、といったところだと思います。
グループに参加してみて、今のところグループ経由でのアクセスはあるのかどうか分からない程度です。
それでグループってどうなのよ? と思い始めました。
グループに参加する際、参加ブログ数の少ないグループよりも多いグループの方が良いというのをどこかで読んだように思いますが、果たして本当にどうかという疑問を感じましたのでスクレイピングして調べて見ました。
グループに関する疑問
参加ブログが多いと、本当に見てもらえる可能性が増えるのか? 参加ブログが多いということは新規投稿も多く、グループ内のリストからもどんどん古くなるのが早く、何十ページも先になってしまう。古くなるほどに見てもらえない可能性が高くなる。
調べてわかったこと
私が参加してみた一部のグループを調べただけですが…。
- リストの1ページは10ブログ表示単位になっている。
これは画面で数えてみればわかることですが、画面をスクロールして次々と記事を探すのはなかなか面倒ですよね。特に写真が多いとスクロールする回数が増えて増えて…。
- 一日分の新規記事が600件あるグループがある。
具体的には日記・その他の中の「雑談」グループですが、一日分だけで600件ありました。リストのページ数で言うと60ページ分です。
60ページスクロールして見ますか? て疑問です。どこまで堪えられるかは人によって違うと違うと思いますが、60ページスクロールするのは時間が掛かります。
私もそうですが、取り敢えず参加するのに適当なグループだと思われるので、特に参加ブログが多いのではないかと思われます。
ついでに「インターネット」グループの同日の件数は41件、「プログラミング」グループの同日の件数は78件と、見られる範囲かと思います。
- グループの名前と関係無い記事が多い
「雑談」グループはそれでも良いのですが、「プログラミング」のような特定の記事を期待していると関係無い記事でいっぱいに見えます。
これはグループに参加したあとに、参加する記事のカテゴリーを選択していないからだと思います。
尤も、カテゴリーとグループとが一致していないというのもあると思われます。複数のカテゴリーを選べるようにすれば
少しは改善するかも知れません。
- 名前がないブログが存在する
デバッグ中に見つけたのですが、こういう例外的なのもあるのですね。 想定外でした。
- 非公開の記事があるブログがある
これもデバッグ中に見つけました。できればこういう記事はリストから外しておいて欲しいですね。見られないのですから。
得られた物
今回のプログラムでは当日と前日のみを取り出すようにしました。自分が参加しているグループを全部対象にしています。なので同じブログが3グループに重複して現れる場合が有ります。
こうして取り出した情報をcsv形式で出力していますので表計算ソフトで見られます。
一覧になった記事タイトルから興味の有る記事を選んでいます。
私のPCはlinuxなのでExcelではなくCalcを使っていますが、urlについては簡単にリンクされた状態に出来ますので、リンクされたセルからアクセスしています。
結論
疑問の通り、あまりに多い参加ブログ数のグループは見てもらえる可能性は思うほど高くないと思います。
どの程度の参加数が適当かはわかりません。新規記事の発生頻度にもよりますし。 一度参加して様子をみるのが良いでしょう。
グループに参加してアクセスアップを期待するよりも、自分が新着ブログを見つけるツールだと思って使うのが正解かなという気がします。