はじめに
今更ではありますが、2017年5月に開かれた人工知能学会全国大会2017の公開資料の中から、私の本業であるWebマーケティングで役に立ちそうな研究を独断と偏見で9本ほど集めてみました。思っていたよりもWebマーケティングぽい領域が多かったので、社内での分析業務におけるアイデアに直結しそうな気がしています。
ちなみに、全ての資料はこちらにあります。
基本的に各研究ごとに
・目的と結果
・対象となるデータ
・手法の概要
・PDFのリンク
について記していきます。
紹介する研究
今回は以下の研究を紹介したいと思います。
「オンライン広告におけるスパース性と遅れコンバージョンを考慮した予測モデル」
「テキストマイニングを用いた転職サイトの会員離脱予測」
「インターネット広告におけるスパースなユーザー行動ベクトルからのユーザー特徴抽出モデル」
「ユーザーのページビュー系列からのコンバージョン予測」
「SNSにおけるユーザの行動のモチベーション要因の分析」
「状況に応じた楽曲推薦に向けたソーシャルデータ分析」
「テキストマイニングを用いた口コミ分析による点数評価の信頼性確認手法」
「不動産仲介マーケティングのためのユーザ行動予測」
「SUUMOでの不動産データ活用の取り組みと未来」
オンライン広告におけるスパース性と遅れコンバージョンを考慮した予測モデル
目的と結果
オンライン広告のCVR予測の精度向上を目的としている。
これまでの課題としては、
「質的変数による特徴量のスパース性」
「広告クリックからのCVまでの期間の長さ(期間が空いてからCVしたりするケースがあるので正例だったはずが負例と扱われる可能性がある)」
などがあった。提案手法により従来手法に比べ高い精度でCVR予測が可能であることが示された。
対象となるデータ
過去3週間分の広告配信データでテスト期間は7日間
手法の概要
- 次元圧縮
- Factorization Machine(FM)を用いて、従来のロジスティック回帰では考慮できていなかった交互作用をモデリングし、低次元のベクトル内積に分解して表現している。
- 遅れCV問題の対応
- 遅れてCVが発生する事象に関しては、指数分布を用いて遅れてCVする事象をモデリングするDelayed Feedback Modelを構築することで、本当は事後的にCVしそうなユーザーの推定を行っている。
- 予測
- これらの手法を合わせた、Delayed Feedback Factorization Machineを構築し、SGD(確率的勾配降下法)やAdaGradを用いてパラメータを推定している。
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/110.pdf
テキストマイニングを用いた転職サイトの会員離脱予測
目的と結果
登録情報や履歴書のテキスト情報を用いて特徴量とし、転職サイトの登録会員の離脱予測を行っている。ブラックボックスでは無い形での結果の解釈ができ、予測精度も高いことが示された。
対象となるデータ
- 2009年10月1日〜2016年9月28日までの履歴書、職務経歴書、自己PR書、希望条件
- 離脱会員の定義は「登録して1ヶ月以内に一度も応募しない会員」としている。
手法の概要
- STEP1:Pythonのmojimojiというライブラリを利用してカナを全角に、数字とアルファベットは半角に変換。
- STEP2:MeCabを用いて名詞のみ抽出
- STEP3:「職務」「経歴」「業務」「内容」などを不用語(stop word)とした。
- STEP4:Grid Searchでパラメータチューニングしたランダムフォレストを用いて変数重要度(Feature Importance)を出し、重要度の上位90%を占める単語以外を削除
- STEP5:登録情報のデータ(年齢、転職回数、住所)を数値データに変換
- STEP6:選定した特徴量を用いて決定木アルゴリズムを適用
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/949.pdf
インターネット広告におけるスパースなユーザー行動ベクトルからのユーザー特徴抽出モデル
目的と結果
広告のCTR予測を行う際の特徴量が非常にスパースであることから、ユーザーをクラスタリングして広告配信に効果的なユーザーを抽出することを目的としている。研究ではCVRの高いユーザー群の抽出を可能にしている。
対象となるデータ
- 2016年6月1日〜2016年6月21日の間のクリックやコンバージョンのデータ(株式会社アイモバイルが提供)
- クリック実績のある広告数、コンバージョン実績のある広告数、クリックされた広告番号、コンバージョンが発生した広告番号、ユーザー番号など
手法の概要
- 高次元スパースデータを低次元に落とし込むために、オートエンコーダを用いている。
- オートエンコーダにより得られた特徴量をもとにユーザーのクラスタリングを行っている。(オートエンコーダは入力された情報をなるべく欠損しないように、効率的に圧縮する構造を持たせたニューラルネットワークのこと。)
- データにおけるゼロの成分を確率的に欠損とみなして計算処理を早めている。
- 学習モデルはAdaGrad(学習率を学習に合わせて最適化する手法)
- 訓練データ(特徴量の数がクリックで23339個、コンバージョンで5619個)にスパースデータ許容型オートエンコーダで500次元まで圧縮し、さらに通常のオートエンコーダで146次元まで圧縮している。
- 次元圧縮して獲得したデータに対してk-means法でクラスタリングを行い、CVRなどを比較している。
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/12.pdf
ユーザーのページビュー系列からのコンバージョン予測
目的と結果
Web広告において、ユーザーの閲覧履歴からコンバージョンを予測することを目的に、Recurrent Neural Network(RNN)を用いた結果、非時系列のSVMよりもわずかばかりかの精度向上が観察された。データ数が少ない場合はSVMに軍配があがる結果となっている。
対象となるデータ
2016年7月1日〜2016年10月31日の広告の接触履歴データなど(広告の業種別データやユーザーのページビュー数)を特徴量に用いて、2016年11月1日〜11月30日までの期間を予測対象とした。データは株式会社マイクロアドが提供している模様。
手法の概要
- Long Short-Term Memory RNN(LSTM)
- ソフトアテンションモデル
- 可変長の系列に対して内積で重みを算出し、足し合わせることで一部から情報を取り出すモデル。途中の層まで複数業種のデータを用いることで、複数の業種などの情報を共有することができる。(最後の隠れ層には業種別の特徴量を用いている。)
- 勾配の計算に関してはAdamを用いて、実装はKerasを用いている。活性化関数はTanh、ドロップアウトはGaussianDropout
としている。
- RNNで用いる特徴量としては、特定のWebページを640種類に分類して、1日のうちに各トピックにページビューがあったかなかったかを1-0の変数にするなどの前処理を行っている。
- ソフトアテンションモデル
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/765.pdf
SNSにおけるユーザの行動のモチベーション要因の分析
目的と結果
SNSユーザーのモチベーションの要因(一ヶ月先に投稿するかどうか)をユーザー同士の関係性(staticな関係)と、そのユーザーの周りのインタラクション(dynamicな関係)という観点から分析し、ユーザー同士の関係性とユーザー周りのインタラクションを同時に用いたモデルにおいて、それらがモチベーションの要因につながりうる傾向が観察された。
対象となるデータ
- RoomClipという部屋の家具やインテリアの様子の写真を投稿するSNSのデータ
- 気に入った写真に「いいね」を付けたり、コメントを送れる。
- 2015年3月の一ヶ月間を学習期間とし、2015年4月の投稿の有無を予測対象とする。
手法の概要
- ネットワーク特徴量
- 各ユーザーに対して、
- 中心性(次数中心性、媒介中心性、近接中心性)
- クラスタ係数、PageRank、フォロー数とフォロワー数の比率、フォローしているユーザのアクティブ度
- 各ユーザーに対して、
- フィードバック特徴量
- 特定期間中にユーザが周りのユーザから自身の投稿に対してもらった「いいね」「コメント」に対して
- 反応の数
- 反応を行ったユーザの数
- 反応を行ったユーザのうち、相互フォロー関係にあるユーザからのものの割合
- 特定期間中にユーザが周りのユーザから自身の投稿に対してもらった「いいね」「コメント」に対して
- 予測器としてSVMを利用
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/534.pdf
状況に応じた楽曲推薦に向けたソーシャルデータ分析
目的と結果
ユーザへの楽曲推薦システムの構築を目的に、楽曲とその再生時の状況の関係を収集したソーシャルデータより分析している。取得したデータのうちの7%ほどではあるが、ツィート情報から楽曲と再生時の状況との関係を抽出可能であるということが示された。
対象となるデータ
2016年8月10日〜2016年9月3日の間に投稿されたツィート(66879件)
手法の概要
- ハッシュタグ#nowplaying付きのツィートを収集して、アーティスト名や楽曲名や楽曲再生時の状況(同一ユーザの5分前後の投稿内容)を収集
- 取得したツィートからアーティスト名、楽曲名を除去して再生時の状況を取得
- 取得したデータからデータベースを作成
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/102.pdf
テキストマイニングを用いた口コミ分析による点数評価の信頼性確認手法
目的と結果
製品などの口コミの評価レビューに関する信頼性を確かめることを目的としている。レビューデータに対して感性評価を行い、さらにその結果に対して総合評価点数別に感性表現(Goodなど)の伴った表現の頻出ランキングを作成することで、点数が高い理由を把握しやすくなった。
対象となるデータ
ソニーの製品サイトにおける、ユーザの製品に対する評価とコメントのデータ(1406件)
手法の概要
- テキストマイニングスタジオによる感性評価(ポジティブ、中立、ネガティブ)
- 総合評価点数別(5段階)の「ポジティブ、中立、ネガティブ」の割合の調査
- 総合評価4の口コミかつ中立な表現にフィルターをかけて、感性情報を有する単語と係り受け関係となった単語の頻度ランキングのTOP10を抽出
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/1115.pdf
不動産仲介マーケティングのためのユーザ行動予測 Prediction of user behaviors for real estate brokerage marketing
目的と結果
不動産紹介業において、顧客の属性情報と来店初期の行動から、来店者が最終的に商品を購買するかどうかの予測モデル(不均衡データにおける予測タスク)を構築することでマーケティングの広告効果測定に適用することを目的としている。結果として、顧客の来店後30分間という短い時間における行動だけでも識別力のある予測が可能であることが示されている。
対象となるデータ
- オンライン不動産賃貸仲介店舗iettyの顧客データベース
- 希望物件の情報
- 引っ越し希望日
- 住みたいエリアの駅
- 間取り
- 広さ
- 家賃
- 顧客属性
- 在住の地域
- 性別
- 年齢
- 行動データ
- 登録時
- フォームの記入にかかった時間
- フリーコメントの長さ
- 利用デバイス
- 登録後
- 初回チャット発言までの経過時間
- 初回物件評価までの経過時間
- 登録時
- 希望物件の情報
手法の概要
- STEP1:顧客の属性および登録初期(30分以内)の行動から特徴量を作成し、2ヶ月以内に契約すれば正例、それ以外を負例とする。(正例は619件、負例は33212件)
- STEP2:検証用データを無作為に20%取り置く
- STEP3:残り80%のデータに対して負例に対する、ランダムアンダーサンプリングと、正例に対するSMOTE(Synthetic Minority Over-sampling Technique)を用いたオーバーサンプリングによりサンプル数を調整する。
- STEP4:ランダムフォレストを用いて、無効な特徴量の取捨選択や離散化のレンジ調整する。
- STEP5:全特徴量(83次元)を二値化して、RBFカーネル(Gaussian カーネル)のSVMを適用し、様々なCやγの組み合わせを試行して、二値分類を行う。
- STEP6:評価を予測確率の平均とAUCの2種類で行う。
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/466.pdf
SUUMOでの不動産データ活用の取り組みと未来
目的と結果
物件検索ユーザーが比較検討を行いやすくすることを目的に様々な取り組みをしている。
対象となるデータ
- 不動産ポータルサイトSUUMOのデータ
- 行動履歴(Webサイト、アプリ)
- 物件情報(不動産情報)
- 街情報(独自で収集)
- アンケート
手法の概要
- 実活用
- 相場推定
- 単純な加算平均ではなく、外れ値や時系列変動、データ量などを考慮して推定している。
- リアルタイム物件レコメンド
- ランキング学習により推定したモデルを利用し、リアルタイムに計算を行っている。個人ごとにパーソナライズしたランキングも用いている。
- バンディットアルゴリズムによる配信施策の最適化
- メールやプッシュ通知などで件名やデザイン、配信時間など様々な選択肢があり、その最適なパターンを見つけるために、バンディットアルゴリズムを適用している。
- 実験段階
- 間取り画像の分析
- ユーザーの求めている間取りが何なのかを画像から抽出しようとしている。
- ユーザーの検索行動、嗜好の推定
- ユーザーの検索行動から、嗜好性を掴み取り、レコメンドする際の理由付けができるようにモデルを作ろうとしている。
PDFのリンク
https://kaigi.org/jsai/webprogram/2017/pdf/743.pdf
感想
- 特徴量の削減のためにランダムフォレストを適用する流れ
- 高次元スパースデータに対するニューラルネットワークの適用
- CVの時系列予測のためにRNNの適用
- SNS分析におけるネットワーク特徴量とフィードバック特徴量という概念
- 口コミデータ分析の作法(点数別に感性表現の係り受けを見る)
など勉強になりました。Kaggleと違って日本語なのが読みやすかったですね。