デジタルエコノミー研究所

”経済紙のNetflix”を作っている起業家の日記

"Time-Aware Subscription Prediction Model for User Acquisition in Digital News Media"を読んだ

論文

Heidar Davoudi, Morteza Zihayat, Aijun An(2017). "Time-Aware Subscription Prediction Model for User Acquisition in Digital News Media". In Proceedings of the 2017 SIAM International Conference on Data Mining (pp. 135-143). doi:10.1137/1.9781611974973.16.

要点

ユーザーが購読するかどうかの意思決定は、突然の行動ではなく、デジタルメディアでのポジティブな経験に基づいた情報に基づいた意思決定である。効果的なエンゲージメント尺度は購読(サブスクリプション)の予測モデルを構築する上で有効だ。我々は、潜在的な購読者を予測するだけでなく、購読の発生時期をも予測するモデルを設計する。提案モデルは、サブスクリプション発生時間を予測し、現在のマーケティングキャンペーンが「潜在的なユーザー」を知るために使用することができる。カナダの大手新聞社であるThe Globe and Mailの実データセットを用いて提案モデルを評価した。実験の結果、提案モデルは従来の最先端のアプローチを大幅に上回ることが示された。

抜粋

データマイニング/機械学習の観点からニュースメディアの潜在的な購読者を特定する問題は様々な課題がある。

  1. 購読の決定は、人口統計学的、社会的、文化的な状況など多くの要因の影響下にある。例えば、友人からの紹介(例えば、口コミ)で購読を決めたり、良い経験をしたから購読を決めたりすることもあるだろう。このようなユーザー(つまり、潜在的な購読者)を特定し、推薦するための適切な予測因子を見つけることは、困難な問題だ。
  2. ドメイン知識は、「購読を決定する」プロセス(すなわち、知識獲得のボトルネック)に対して極めて限られている。言い換えれば、ドメインの専門家は、誰がサブスクリプションを行うのか、なぜ/いつサブスクリプションが発生するのかについて明確なアイデアを持っていない。
  3. サブスクリプションは時間の次元と組み合わせて考慮されるべきである。実際、予測モデルは適切な時期に潜在的な購読者を特定すべきである(すなわち、すぐにも遅くもない)。なぜなら、まだ購読する準備ができていないか、または(以前は興味があったが)購読に興味がなくなったユーザーをマーケティングキャンペーンでターゲットにしても、結果として購読は発生しないからである。

f:id:taxi-yoshida:20200615120033p:plain

Time-Aware User Acquisition in News Portals

図1は、ニュースポータルにおけるユーザー獲得のために提案されたフレームワークの概要を示している。このフレームワークは、以下の3つの主要な構成要素から構成されている。

  1. データの準備:ほとんどのニュースポータルは、データ収集プラットフォーム(例:Omniture by Adobe)を使用して、ユーザーとのインタラクションを取得している。しかし,キャプチャしたデータは,学習アルゴリズムを適用する前に,前処理と集計を行う必要がある。
  2. 学習フェーズ:前処理されたデータが与えられると、この開発者は最初にエンゲージメント指標のセットを見つけ、それを使って時間認識型サブスクリプション予測(TASP)モデルを設計する。
  3. 推論:提案されたモデルのパラメータを学習すると、干渉モデルは2つのタイプの質問に答える。(i) 時間を認識した購読発生予測 (すなわち、最初の訪問から与えられた時間tまでにユーザーが購読者になる確率は何か?) (ii) サブスクリプション時間予測 (すなわち、最初の訪問からいつユーザーがサブスクライバーになるか?)。推論の結果は、マーケティングキャンペーンに活用し、ユーザー獲得を促進することができる。

ユーザーエンゲージメントの測定

著者らは、ユーザーが購読するかどうかの判断は、突然の思いつきではなく、長期的・短期的なポジティブな経験に基づいているという仮定をおいている。

経験の肯定的な側面はドメインやアプリケーションによって異なり、測定するのは非常に困難だ(例えば、ユーザーがFacebookと比較してTwitterを頻繁に訪問しても、これら2つのソーシャルメディアのエンゲージメントパターンの違いにより、ユーザーがTwitterでより良い経験をしていることを本質的に示すものではない)。さらに、自己報告法(アンケート、調査、インタビューなどを利用した)や生理的論理法(表情や音声分析などの観察的手法を利用した)のような他のエンゲージメント測定法は、全人口の代表者であると仮定しながらも、少数のユーザーに基づいている。

著者らは有料購読ニュースメディア向けのエンゲージメント指標を提案している。

  • ペイウォール画面表示の総数。各ユーザがすべての訪問でヒットしたペイウォールの総数をエンゲージメントの指標と推定。1回の訪問あたりのペイウォールの平均数。ペイウォールの総数を訪問回数で正規化することで計算される。
  • 読み込まれた総記事数。ページ訪問ではすべてのページ(例えば、ナビゲーションページや検索ページ)を考慮するが、この指標では記事ページのみをカウントする。
  • 記事あたりの平均滞在時間。1記事あたりの平均滞在時間は、ユーザーが記事に費やした時間の合計を訪問した記事数で割って計算される。この指標は、ユーザーがどれだけ記事に興味を持っているかを大まかに示している。
  • 1回の訪問あたりの平均滞在時間。この指標は、ユーザーが訪問に費やした時間を訪問数で割ったもの。
  • 総利用時間: 総利用時間は、訪問者がすべての訪問中に各記事に費やした時間の合計として測定される。

Time-Aware Subscription Prediction Model (TASP)

ロジスティック回帰、ランダムフォレスト、決定木、ナイーブベイズと比較すると、TASPは最も高いパフォーマンスを示した。購読期間、購読時期の予測においても、平均滞在時間を元にした予測モデルよりも、好ましい成果を示した。

f:id:taxi-yoshida:20200615120049p:plain

コメント

  • うちの会社では、サービスの形を限定し、記事あたり平均滞在時間で、エンゲージメントを推定した。それは、大手新聞社、出版社のような資金がなくデータインフラがなかったからだ。Google Analyticsとほか諸々の無料製品、様々なコンテンツ使うことで購読確率をする他なかった。ただ、制約のおかげで、非常にシンプルでわかりやすい検証ができた。
  • 将来的にはこのような予測モデルがあると、マーケティングがしやすくなる。