人気ブログ記事のタイトルの決め方を参考にする ~ よく使われているキーワードをPython, Janomeで解析 ~

top

人気ブログの記事の研究とpythonによる形態素解析の勉強を兼ねて、よく読まれている記事のタイトルにどういう単語、キーワードがよく使われているか調べました。

あまり厳密にやっているわけではないので参考までに見ていただければと思います。

調査方法

集計対象

記事が人気かどうかを計るにはページビューを見るのが妥当だと思うのですが、各記事のPVを基準にランキングなどを公表しているサイトは見つけられませんでした。

ということで、私もお世話にはてなブログが公表している「はてなブログランキング」のデータを使うことにしました。

ブクマ数ランキング カテゴリーの記事一覧 - 週刊はてなブログ

はてなブログランキングとは

「はてなブログランキング」とは、はてなブログで公開されている記事をブックマーク数でランキングした順位です。(はてなブログMediaとはてなの公式ブログはランキングの対象外となっているようです。)

毎週更新されており、該当する週に最初のブックマークがついた記事が対象になります。

著者の分かる通常のブログは30位まで、はてな匿名ダイアリーは10位までのランキングが公開されています。

集計範囲

集計した範囲は2017年9月の第4週から2018年8月の第4週までの約1年分。

2017年末に「年間総合はてなブックマーク数ランキング トップ100」が公表されているので、それも合わせて対象としました。

記事数は2,000超ありました。

ランキングに同じ記事が複数回登場している場合もありそうでしたが、重複を除くのが面倒だったのでそのままカウントしています。

複数回登場しているものはそれだけ人気ということで2重にカウントしても大きな問題はないだろうと…。

解析手法

解析手法も説明しておきます。

ざっくり言うと、全ての記事のタイトルを「Janome」という解析エンジンを使って形態素解析し、それを集計するという方法をとりました。

形態素解析とは

文章を意味を持つ最小限の単位に分解して、それぞれの品詞を判別する解析方法のこと。 最小限の単位に分解されたものを形態素と言います。

実例を見てもらうほうがわかりやすいと思うので、「すもももももももものうち」という文章を形態素解析してみます。

結果はこちら。これを見ればなんとなく何をやってるかはわかりますよね。

表層形 品詞 活用型
すもも 名詞 一般
助詞 係助詞
もも 名詞 一般
助詞 係助詞
もも 名詞 一般
助詞 連体化
うち 名詞 非自立



Janomeとは

上で紹介した形態素解析をPythonというプログラミング言語を使って実現可能にするのがJanome です。形態素解析のライブラリという位置づけになります。

今回の集計方法

今回は形態素の中から名詞だけを抽出して出現回数をカウントしました。

「すももも~」の例で言うと「すもも」とか「もも」は集計対象にするけれど、助詞の「も」や「の」などは対象外にするというということです。

名詞だけではなく動詞もおもしろそうだったのですが、数が多くなりすぎるので今回は省略しました。

最終的に集計した結果を出現回数の多い順に並べてランキングを作成しています。

結果の概要

対象になった記事の数(タイトルの数)と抽出された名詞の種類数は下記の通り。

記事タイトル数 2,053
キーワード数(名詞の種類数) 4,760



名詞だけでも約4,700もあるという結果です。

多くのキーワードは出現回数1~2回なので、5回以上出現するものだけをカウントすると542個になります。

それでもまだランキングとしては多過ぎます。さらに絞り込んで10回以上のものだけにすると約200くらいまで数が減るのでこのデータのみを見ていきたいと思います。

カッコや…(3点リーダー)など記号、数字も名詞としてカウントされていたのですが、あまり意味の無いデータなので除外しています。

ランキングと考察

出現回数10~30あたりは同順位のものキーワードが多く、○○位タイみたいなデータが並んでしまうので、ランキングを見てもあまり意味がありません。

下位のものについては出現回数ごとに見ていくことにします。

先に書いておきたいのですが、実は上位ほどあまりおもしろみのないデータになります。 トップ10あたりだと「話」「的」「年」など、出現回数が多くて当たり前だよなぁ…というような名詞がほとんどになるからです。

また、あくまでPythonとJanomeの勉強がてら分析しただけなので、考察といってもあまり深いものではありません。感想程度のコメントのみを書いているだけなのですがご容赦いただければと…。

出現回数10~11回

キーワード 出現回数
日本人 10
広告 10
10
知能 10
失敗 10
以上 10
10
10
10
世代 10
最新 10
人工 10
マンガ 10
分析 10
10
最近 10
10
説明 10
株式会社 10
ベスト 10
家族 10
みたい 10
炎上 10
教育 10
嫌い 10
簡単 11
入門 11
年間 11
日本語 11
結果 11
東京 11
最強 11
理解 11
11
オススメ 11
子供 11
通貨 11
セクハラ 11
オタク 11
管理 11
仮想 11



他人の不幸は蜜の味ということで「炎上」「失敗」ネタは読まれやすいんでしょうね。

「広告」というのもランクインしています。普段目にする広告に対する意見や、広告業界とメディアに関する話題も注目されやすいということでしょうか。

「人工」と「知能」はバラバラになっていますが、これは人工知能という形で使われています。AIについての記事も人気ということですね。

「仮想」と「通貨」も分かれていますが、仮想通貨のことです。今はかなりトーンダウンしていますが、少し前までブログに限らず多くのメディアでかなりの盛り上がりを見せていたテーマです。

「簡単」「入門」というキーワードを使った初心者向けに何かを解説する記事はブログの鉄板ですよね。

「セクハラ」「オタク」あたりは時事ネタでもなく、解説記事などでよく使われる単語でもないので、単純に読まれやすいキーワードということかと思います。

「最強」「おすすめ」は商品紹介、サービス紹介記事では定番ワードです。

出現回数12~13回

キーワード 出現回数
12
全て 12
ツール 12
IT 12
差別 12
個人 12
12
12
12
労働 12
発言 12
どこ 13
みんな 13
無料 13
批判 13
英語 13
対策 13
あなた 13
システム 13
営業 13
13
子ども 13
Google 13
感想 13
絶対 13
大学 13
人生 13



「全て」。これは「全て解説します」、「○○な全ての人へ」みたいな文脈で使われています。記事の対象者を広げたり、網羅性を訴えることできるので、読者が増えやすいということかと。

「IT」「ツール」もランクイン。ITツールについての情報はWebで集めるという人が多いと思います。私もその手の情報はまずはインターネットで収集します。

「英語」はブログ記事では人気のあるテーマという認識でしたが、今回の結果でもそれが裏付けられました。

「子ども」。これも一定の読者を獲得しやすいテーマです。私もそうですが、子どもを持っている親はついつい読んでしまいます。

「営業」。これは意外なキーワードでした。使われている文脈を確認しないと正確なことは言えませんが、元営業マンが体験を元に語るというパターンか、営業という仕事自体についての記事かどちらかだと思います。そういうのってブログ記事で需要あるんですかね…。

「批判」「対策」「感想」。このあたりもまあよく使われるワードですよね。

出現回数14~15回

キーワード 出現回数
14
解説 14
プログラミング 14
コード 14
料理 14
障害 14
考察 14
話題 14
そう 14
アプリ 14
退職 14
公開 14
意味 14
彼女 14
14
数学 14
企業 15
削除 15
レビュー 15
給食 15
15
15
マン 15
環境 15



「プログラミング」「コード」は上でランクインしていた「IT」「ツール」と同じ理由で上位に入っていると思われます。このあたりの需要は固いですね。

「退職」このキーワードが入っていると自分も読んでしまいます。エンジニアの方はいわゆる「退職エントリー」を書かれることが多いようです。

「レビュー」「考察」このへんは言わずもがなですね。鉄板の切り口かと。

「給食」??これは何でしょうか?ちょっと想像しづらいですね。子育て系の記事でしょうか…。

出現回数16~19回

このへんからTOP100くらいです。

キーワード 出現回数
16
アニメ 16
必要 16
16
事件 16
とき 16
17
初心者 17
記事 18
18
情報 18
最高 18
これ 18
時間 18
転職 18
19
たち 19
19
サービス 19
社会 19
サイト 19



「初心者」向けの記事は基本的に重宝されますし、「最高」というワードも商品やサービスを紹介する記事を目立たせるための常套句です。

「転職」も上位に入ってきました。さきほど「退職」もランクインしていましたが、転職を考えている人、転職に関する情報を集めている人が多いので、他人がどのように転職したかが気になるということかと思います。

出現回数20~27回

だんだん書くことがなくなってきたのでまとめて見ていきます。

キーワード 出現回数
20
20
21
ネット 21
Web 21
結婚 21
世界 22
Python 22
22
自分 22
人間 22
時代 23
23
23
漫画 23
23
紹介 24
24
おすすめ 24
データ 25
ゲーム 25
25
勉強 25
26
26
まとめ 26
よう 26
映画 26
女性 27
会社 27
27
27



「結婚」このテーマはいい意味でも悪い意味でも鉄板でしょうね。今の時代、多分ネガティブな内容のほうが多いんでしょうが…。

「python」がランクインしてきました。解析手法のところで紹介しましたが、この記事で実施している分析もpythonを使っています。プログラミング初心者でも始めやすく、使える範囲が広い言語なので人気なんだと思います。

出現回数16~19回のところで「アニメ」が出ていましたが、さらに上位に「漫画」が入ってきました。やはりこの2ジャンルの記事は強いですね。

「男」「性」「女性」もランクイン。性別に関する記事も注目を集めやすいようです。

TOP30(出現回数28回~170回)

このあたりから、ようやくまともなランキング形式にすることができます。
TOP30は下記のようになりました!

順位 キーワード 出現回数
28 機械 28
28 好き 28
28 追記 28
25 もの 29
25 2018 29
25 仕事 29
23 技術 30
23 2017 30
21 ブログ 33
21 方法 33
20 学習 34
18 問題 35
18 開発 35
17 37
16 38
15 41
14 さん 42
13 43
12 46
10 48
10 エンジニア 48
9 ため 50
8 理由 53
7 57
6 日本 65
5 87
4 105
3 こと 136
2 141
1 170


はえある第1位は「の」でした! この結果はつまらないですね…。

TOP10あたりの最上位層は上位に来てあたりまえの単語というか、あまり意味をなさないものがほとんどです。

下位のほうを見て行きましょう。

「機械」と「学習」は別々に出ていますが、これは機械学習(マシンラーニング)のことですね。けっこうディープな技術系の話なのに上位に来るのはちょっと驚きです。「エンジニア」も入っていますしIT系のネタはやはりWebと親和性が高いということでしょうか。

「ブログ」。ようやく出てきました。ブログを書いている人はやはりブログ運営についての記事を読んでしまいます。この記事のタイトルにもキーワードとして入れています。

以上が今回の結果でした。

まとめ

とりあえずやってみたというレベルの粗い分析なので、改善できるところが多々ありますが、こうやって日本語を解析できるのはおもしろいです。

タイトル付けや記事執筆の参考になるといいのですが。