データアナリストがBIダッシュボードのお手伝いをする前の調べ物

はじめに

これまで、データ分析・機械学習などの知識を重点的に学んできたので、BI周りはかなり疎かになっていました。今の知識のままではBI案件のお手伝いが大変だなと思ったので、少しはリソースを割いて勉強していこうと思います。今回はコードも何も出てこない内容なので、データサイエンティストの方はそっ閉じで良いと思います。
海外のブログで、“12 Best Business Intelligence Books To Get You Off the Ground With BI”という記事があり、”Performance Dashboards: Measuring, Monitoring, and Managing Your Business (English Edition)“という書籍が紹介されていました。それについてわかりやすくまとめられたスライドがあったので、2006年と古いですが、何もBIを知らないものとしては非常に勉強になると思い、訳して自分のための忘備録としておきます。

パフォーマンスダッシュボード

ダッシュボード
パフォーマンスチャート
からなる

ダッシュボードの不満

意思決定を阻害するもの

データが多すぎる
情報が少なすぎる
届くのが遅すぎる

パフォーマンスダッシュボードの２つの原則

パフォーマンスダッシュボード = BI + 企業の経営マネジメント

（画像はPDFより拝借しております。）

1.BI
- 情報（DWH）
- 知識（分析ツール）
- 計画（ルール、モデル）
- 行動（レビュー、計測、洗練）
- 知恵
- イベント発生→情報へ
  の繰り返し
2.企業の経営マネジメント
- 戦略（ミッション、バリュー、ゴール、目的、インセンティブ、戦略マップ）
- 計画（予算、計画、見込み、モデル、イニシアティブ、ターゲット）
- モニタリング、分析（パフォーマンスダッシュボード）
- 行動、調整（行動、決定、見直し）

戦術的なドライバー

利用者と共鳴する
- 一つのスクリーンでいくつかの領域のステータスをモニタリングできる
- 重要な指標のグラフ表示
- 例外的な状況に関してアラートを上げる
- クリックして分析し、詳細を深掘りできる
- ルールに基づきカスタマイズされた表示
- 訓練が要求されない
リッチなデータ
- 複数の情報ソースからブレンドされたデータ
- 詳細も集計値もある
- 履歴もリアルタイムのデータもある
労働者に力を与える
- 本当に重要なことにユーザーを集中させる
- 労働者の貢献がどのように集計されているかを示す
- ゴール、競争、インセンティブで動機づけをする
- プロアクティブな介入を促進する

戦略的なドライバー

ビジネスを調整する
- 皆同じデータを使う
- 皆同じ指標を使う
- みな同じ戦略で働く
コミュニケーションの改善
- コミュニケーション戦略のためのツール
- マネジャーとスタッフのコラボレーション
- 部門間のコーディネート
視認性とコンプライアンスの向上
- 驚きの少なさ
戦略的なドライバーの5つのC
- Communicate
- Compare
- Collaborate
- Coordinate
- Congratulate

パフォーマンスダッシュボードは何で構成されるか

3つのアプリケーション
情報の3つのレイヤー
パフォーマンスダッシュボードの3つのタイプ

3つのアプリケーション

モニタリング
分析　
コラボレーション

（画像はPDFより拝借しております。）

情報の3つのレイヤー

（画像はPDFより拝借しております。）

モニタリング：グラフ、図形、チャート
分析：ディメンション、階層、細かく分割
レポーティング：DWHのクエリ実行、運用レポート
これらをプランニングする
　・計画、モデル、予測、更新

ダッシュボード

　　・目的：現在の活動状況を測る
　　・ユーザー：経営者層、マネジャー、スタッフ
　　・更新頻度：即時
　　・データ：イベント
　　・クエリ：リモートシステムで実行
　　・画面：チャート

スコアカード

　　・目的：進行状況を示す
　　・ユーザー：経営者層、マネジャー、スタッフ
　　・更新頻度：周期的なスナップショット
　　・データ：サマリー
　　・クエリ：ローカル環境のデータマートで実行
　　・画面：図形

・経験則
　・ビジネスユーザーが好むものは何でも使う！

パフォーマンスダッシュボードの3つのタイプ

業務系
- 焦点：モニタリング業務
- 重点：モニタリング
- ユーザー：管理者
- スコープ：現場
- 情報：詳細
- 更新頻度：日中
- 適しているのは：ダッシュボード
戦術系
- 焦点：プロセスの最適化
- 重点：分析
- ユーザー：マネジャー
- スコープ：部門
- 情報：詳細/サマリー
- 更新頻度：日次/週次
- 適しているのは：BIポータル
戦略系
- 焦点：戦略実行
- 重点：コラボレーション
- ユーザー：経営者層
- スコープ：企業
- 情報：サマリー
- 更新頻度：月次/四半期
- 適しているのは：スコアカード

パフォーマンスダッシュボードをどのように作るか？

3つのアーキテクチャー

・ビジネスアーキテクチャーとテクニカルアーキテクチャー
・BIアーキテクチャー
・データアーキテクチャー

ビジネスアーキテクチャー

ステークホルダー：投資家、取締役、全従業員、顧客、サプライヤー、監督機関
戦略：ミッション、ビジョン、バリュー、ゴール、目的、戦略マップ
戦術：資産、人員、知識、計画、プロセス、プロジェクト
意味：用語、定義、ルール、メタデータ、教育、ガバナンス
指標：先行、遅行、兆候

テクニカルアーキテクチャー（パフォーマンスダッシュボードに直接つながるところ）

ディスプレイ：ダッシュボード、BIポータル、スコアカード
アプリケーション：モニタリング、分析、マネジメント
データソース：スプレッドシート、メモリーキャッシュ、DWH、データマート、レポート、ドキュメント
統合：カスタムAPI、EAI（Enterprise Application Integration）、EII（Enterprise Information Integration）、クエリ実行、ETL、手動
データソース：レガシーシステム、パッケージのアプリ、Webページ、ファイル、サーベイ、テキスト

BIアーキテクチャー

（画像はPDFより拝借しております。）

ビジネスアーキテクチャー

・統合BI能力
　・モニタリングレイヤー
　・分析レイヤー
　・レポーティングレイヤー
　・プランニングレイヤー
・BIプラットフォーム（分析サーバ）
　・共通のサービス、モデル、API、ファイル形式
・データデリバリーアーキテクチャー

データアーキテクチャー

Quicken Loans（アメリカの金融業者）の例

（画像はPDFより拝借しております。）

企業内のソフトウェアのデータを統合し、Web経由で2日分のデータを蓄積（Real-time Store）→業務系、戦術系のダッシュボードに利用
Real-time Storeのデータを整形して、2ヶ月分のデータを蓄積（Operational Data Store）
Operational Data Storeから2週間分のデータを蓄積したものを100件ほど保持する（OLAP（online analytical processing） Cubes）→業務系、戦術系のダッシュボードに利用
Operational Data Storeのデータを整形して、7年分のデータを蓄積（Data Warehouse）
Data Warehouseのから7年分のデータを蓄積したものを250件ほど保持する（OLAP Cubes）→レポーティングや分析ツールに利用

データアーキテクチャにはいろいろあるようです。

Direct Queryアーキテクチャー

スクリーンの要素が個々のクエリに直接的にリンクしている

良い点：
- すばやくデプロイできる
- 低コスト
悪い点：
- 浅く、ドリルダウンが制限される
- ディメンションがない
- ハードウェア組み込みクエリ

Query and Cacheアーキテクチャー

クエリがクエリ化可能なキャッシュとともに置かれている（In-memory or disk cache）

良い点：
- すばやくデプロイできる
- レスポンスが速い
- ナビゲーションが速い
悪い点：
- 静的なデータセットに縛られる

BIセマンティックレイヤー

BIツールがユーザーのためにビジネス用語で表現したクエリオブジェクトを提供

良い点：
- 抽象的なクエリオブジェクト
- ディメンションで分けられたビュー
悪い点：
- 一般的なODBCコネクション
- 主にDWHのヒストリカルデータ

Federated Queryアーキテクチャー

EII（Enterprise Information Integration）ツールが、スクリーンの要素と合うように複数のソースからクエリ化する

良い点：
- 複数のソース
- セマンティックレイヤー抽出
- デプロイが素早い
- プロトタイプ
悪い点：
- 履歴がない
- データの質の問題
- 複雑性

データマートアーキテクチャー

ダッシュボードがバッチで読み込まれた永続的なデータマートに対してクエリを実行する

良い点：
- 複数のソース
- ディメンショナルモデル
- ヒストリカルコンテキスト
- 素早く複雑なクエリ
悪い点：
- 即時性がない
- 統合されていない？

Event-drivenアーキテクチャー

インプット：DWHや業務系システム
↓
業務系ダッシュボード：データの把握、データの集計、指標のマネジメント、イベントの検知、ルールの適用、作用/トリガー
↓
アウトプット：アラート、トリガー（ワークフローエンジン）、SQL/Stored Procedures（業務系システム）

おわりに

BIダッシュボードを作成する際の洗い出しが面倒だと思っていたので、この資料で良い初期値を手に入れられました。これまでの分析業務はビジネスの一部を切り取って、疎結合なものを多く扱ってきたと思います。あるイベントの効果検証とか、ある対象の予測などです。この資料を読んで、組織の戦略などと密に絡み合い、様々な関係者の目的を成し遂げるようなBIダッシュボード作成において、組織間の調整力が強く求められるのかなと思いました。そこにデータサイエンティストの持つスキルはどうフィットするのだろうか？と思いつつ、どうやってサイエンス要素をバリューが出る形で盛り込んでやろうかと考えています。

参考情報

[1]Wayne W. Eckerson(2006). “Performance Dashboards:Measuring, Monitoring, and Managing Your Business”
[2]Sandra Durcevic(2019). “12 Best Business Intelligence Books To Get You Off the Ground With BI”, The datapine Blog

Python/Rもくもく会をプライベートで開催するための参考図書・資料をまとめる

はじめに

社内で定時後に有志で勉強会というか、その場に集まってPythonやRをもくもくと勉強をするもくもく会を開きたいと考えています。目的としては分析スキルの向上や機械学習ができるようになりたいとかいう個々人の願いを叶えることです。
色々なスキルレベルのメンバーが参加することが予想されるので、皆を幸せにするためにもレベルに応じた良い教材が必要だと思いました。
ここでは、レベルに応じて適切な教材などを忘備録として残していきたいと思います。
（私自身、全てのレベルの対象者に適切な教材を網羅しているわけではないので、随時更新していこうと思います。）

受講対象について

受講対象（PythonやRをまともに触ったことがない人）は2軸で分けるとすると以下のようになると思います。

・プログラミング経験あり/経験なし
・数学の心得あり/心得なし

プログラミング経験なし&数学の心得あり（アルキメデス）
理系出身の人がメインだと思います。学部・学科によっては全然扱わないですよね。数的な思考は得意だが、それを活かすスキルが不足しているような人でしょう。眼の前におかれた数学の問題を紙とペンで解くことはできるが、仕事で使えないという感じ。私も偉そうなことは言えないですが、コードが荒れがちなので周りに良い先生がいたほうが良いと思います。
プログラミング経験なし&数学の心得なし（葉っぱ隊）
一番習得に時間がかかると思います。野球やったことないのに、野球選手になりたいという人に皆さんは違和感を感じるでしょう。イメージはそんな感じです。一番時間がかかるからこそ、挫折しないための教材選びが重要かもしれません。スキル的に全裸なので、葉っぱ隊と名付けましょう。
プログラミング経験あり&数学の心得あり（デーサイ候補）
最も頼もしい存在です。教科書をお渡ししておけば勝手に成長すると思います。ある程度経験を積めば分析業務を任せても良いと思います。
プログラミング経験あり&数学の心得なし（進捗ありマン）
各種手法の原理を知るまではそれなりに時間がかかると思いますが、手を動かして何ができるかをすぐに味わえるので、モチベーションを維持しながら学んでいきやすいと思います。コード自体は実行できるので進捗ありマンと名付けてみましょう。

この2軸でPythonとRに関する便利な資料を探したいと思います。
ただし、どの本に関してもどのレベルの人が買っても良いとは思います。ただ、数学の心得がない中で、テイラー展開とか平均値の定理とかラグランジュ未定乗数法などの表現を目にした際に、挫折してしまう可能性があるので、適した書籍から順次広げていくのが良いと思います。なお、今回はPCでもくもくと進めれそうな書籍を選んでいます。紙とペンで進める本も重要なのですが、そのようなかた向けの書籍は取り上げていません。

アルキメデス向けの教材

Python

機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)
Pythonの入門的な記述もあり、数学の話もきちんと扱っているので、アルキメデス系の人にはぴったりの本だと思います。コードが荒れがちなアルキメデス系もこの本を写経しながら学べば進捗が良いはずです。
Pythonで学ぶあたらしい統計学の教科書 (AI & TECHNOLOGY)
数式はそれほど出てきませんが、Pythonが少しわかれば統計学に関してもあらかたこの本で上達すると思います。手を動かすことで前には進めると思います。アルキメデス系であれば、これを学習した上で、さらに深く理解するために他の統計学の専門書に手を出すこともできるでしょう。

R

みんなのR 第2版
『Rによるデータサイエンス』と迷ったのですが、プログラムの実行結果がそのまま載っている印象だったので、こちらの本がプログラミング初心者には優しいと判断しました。ほとんど数式は出てこないのですが、一般化線形モデルや時系列解析などもカバーしてくれています。また、データの前処理に関する記述もこちらの本の方が手厚いです。

葉っぱ隊向けの教材

Python

Pythonスタートブック [増補改訂版]
本当にプログラミングがはじめての人向けの本です。まずはプログラミング自体に慣れたほうが良いと思います。
プロゲートのPython入門講座
妻におすすめされた講座です。無料枠でもある程度学びがあるようです。環境を構築しなくても良いという点が非常に葉っぱ隊に適しているとのことです。

R

Rによるやさしい統計学
Rのインストールあるいは統計学の初歩のところから、応用まで幅広く説明している本です。数式はあまり出てきませんがコードが載っているので、手を動かすことができると思います。

読み物

マンガでわかる統計学回帰分析編
初めて統計学に触れた人で、挫折したくない場合の強力な助っ人と言えそうな本です。オーム社なので内容はしっかりしています。

デーサイ候補向けの教材

Python

みんなのPython 第4版
他のプログラミング言語の経験があれば、どのような記述の仕方なのかを掴み取るために効率的な本だと思います。記法やメソッドなどを一通り学べば、それに続くデータ分析の勉強も捗るはずです。私は一番始めに『初めてのPython 第3版』という700ページを超える本を読んでいたのですが、いきなりあれは辛いです。
[第2版]Python 機械学習プログラミング達人データサイエンティストによる理論と実践 (impress top gear)
数式による解説が適宜なされ、Pythonのコードも多く載せられており、ほとんどの手法に関して学ぶことができる本です。

R

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
実ビジネスではロジスティック回帰などを多用する場面が多いので、数学とプログラミングに問題がなければこの本も平行して学べると思います。
データマイニング入門
業務で使いそうなデータマイニングの手法が幅広く紹介されています。一部ではありますが数式もあるので納得もしやすいと思います。
Rによるデータサイエンスデータ解析の基礎から最新手法まで
数式はそこまで多くないですが、様々な手法を扱っている上に、Rのコードも載せられているので、原理を理解しながら、コードも回せる良い本だと思います。ただ、書かれている多くは金先生のWebサイトに掲載されています。
データサイエンスのための統計学入門 ―予測、分類、統計モデリング、統計的機械学習とRプログラミング
そんなに数式は出てこないですが、統計学から機械学習まで幅広く扱われています。Rを用いてもくもくと進めることができると思います。あと、特徴量エンジニアリングに関するヒントも書かれていたりするので、長く使える一冊かもしれません。

進捗ありマン向けの教材

R

RStudioではじめるRプログラミング入門
プログラミング経験のある進捗ありマンであれば、R言語の扱い方をまずは知りたいだろうと思います。関数の書き方やヘルプページの使い方、オブジェクトの説明、S3の話などが詳しく書かれています。
新米探偵、データ分析に挑む
R Studioのインストール方法なども載っているので、進捗ありマンなら最初から最後まで実践できると思います。数式もほとんど出てきません。色んな分析事例をRで取り組むことで分析業務のイメージも付いてくると思います。
RユーザのためのRStudio[実践]入門−tidyverseによるモダンな分析フローの世界−
R言語について何となくつかめた進捗ありマンがモダンな記法であるtidyverseを効率よく学べる良い本です。データ整形・クロス集計・可視化がモダンな記法で書けるようになると結構楽しいと思います。

Python

Pythonによるデータ分析入門第2版 ―NumPy、pandasを使ったデータ処理
数式などは出てきませんが、Pythonでデータ分析を行う上で重要なモジュールであるpandasを詳しく扱っています。いきなり機械学習などをするよりかはpandasをマスターしてデータの前処理スキルを高めるのが良いかもしれません。進捗もあると思いますし。

今後について

そもそもPythonやRに触れたことがない人にとって、Tokyo.Rの初心者セッションは少し適していないのかなと思ったので、今回は取り上げていないですが、一通り使い方をわかってもらえたら初心者セッションの資料を使ったもくもく会も開きたいと思います。最終的にはKaggle部とかを作るとかになるのかもしれませんが、そこまで行けるか行けないか。

Uplift Modeling用のパッケージtools4upliftを使ってみた

はじめに

今回は、今後仕事で使いたいという思いもあり、RでUplift Modelingに関して便利なパッケージがないか探した結果、2019年に登場したばかりのtools4upliftの存在を知りました。アップリフトモデリングのモチベーションに関しても簡単に説明しながら、サンプルデータで実践してみようと思います。

・Uplift Modelingとはなにか
・Uplift Modelingの卑近な例え話
・Uplift Modelingのサンプルデータ
・tools4upliftについて
・tools4upliftでCriteoデータを試してみる
・『仕事ではじめる機械学習』の9章のコードをCriteoデータに試してみる
・おわりに
・参考文献

Uplift Modelingとはなにか

きちんとした説明は、あまりにも今更感があるので説明は端折りたいと思います。既出の文献がありますので、そちらを熟読ください。

Uplift Modelingの卑近な例え話

自分が吉野家のマーケティング担当だとしましょう。吉野家のアプリで割引クーポンを顧客にばらまくことができるとします。
マーケターとして重要なのは、割引クーポンを渡したことをきっかけとして吉野家に足を運び購入する顧客を増やせるかどうかになります。

マーケターの手元にあるのは、割引クーポンをばらまいた顧客とばらまかなかった顧客、そして吉野家で牛丼を食べたかどうかのデータです。
以前のマーケティング担当者がランダムにクーポンをばらまいていたことが重要なポイントです。

このデータから、顧客は以下の4分類に分かれます。

無関心：割引クーポンをばらまこうが我関せず。そもそも吉野家に行く気はない。
説得可能：普段、牛丼が安いすき屋にばかり行っているが、割高に感じている吉野家に負い目を感じている。割引クーポンで揺さぶられ来店する。
天の邪鬼：吉野家コピペのように、割引クーポンを握りしめた家族連れに遭遇したくないので、割引クーポンをばらまかれたら来店しないような客。
鉄板：毎日決まった時間に吉野家に行くことを心に決めている客。

マーケターは割引クーポンをばらまいた顧客と割引クーポンをばらまいていない顧客にデータを二分し、それぞれ機械学習のための訓練用データとテスト用データを用意します。

つまり、「割引クーポンをばらまいた顧客」の訓練用データとテスト用データと「割引クーポンをばらまいていない顧客」の訓練用データとテスト用データの計4つのデータセットを用意します。

まず、牛丼の購入の有無を教師とした訓練用データでロジスティック回帰モデルなどを推定します。
その結果、「割引クーポンをばらまいた顧客」から推定したモデルと、「割引クーポンをばらまいていない顧客」から推定したモデルが手元に残ります。

2つのテスト用データを1つにまとめて、先程推定したモデルを用いて、牛丼の購入確率を求めます。モデルは２つあるので、予測結果がテスト用データ1つに対して2つあることになります。

その予測結果の比（「割引クーポンをばらまいた顧客」モデルベースの予測値÷「割引クーポンをばらまいていない顧客」モデルベースの予測値）をアップリフトとみなします。

以下の図はこれまでの説明を図にしたものです。

アップリフトがどの程度の水準であれば、説得可能なユーザーが多いのかを探っていくことで、吉野家のアプリにおいて、どのユーザーに割引クーポンを発行するべきかがわかることになります。

Uplift Modelingのサンプルデータ

残念なことに吉野家のアプリのデータはありません。そこで今回は公開データを利用します。
以前より、The MineThatData E-Mail Analytics And Data Mining ChallengeのメールのデータがUplift Modelingで非常にしばしば取り上げられるデータでしたが、Twitterで他にデータないのかとぼやいたところ、2名の方にCriteo Uplift Prediction Datasetを紹介していただきました。

余談ですが、Criteo社と言えばディスプレイ広告のキング的な存在で、少し商品のリンクを踏んだだけであっという間に広告がレコメンドされますよね。自社で出稿用バナーを作っていましたが、CVRが高くなる良いクリエイティブを作ってきたのか、単にCriteo社のアルゴリズムが優秀なだけなのか非常に気になるところでしたね。

Criteo社が提供してくれている今回のデータは、2500万行に及ぶユーザーのデータで、プライバシー保護の観点から特徴量は復元できないような形式で提供されています。バイナリーのラベルとしては訪問やコンバージョンなどがあり、データ全体に占める処置群の割合は84.6%となっています。要は、吉野家で言う割引クーポンをばらまいた顧客が全体の84.6%に及ぶということです。

tools4upliftについて

2019年1月に公開されたRのUplift Modeling用のパッケージです。

特徴量における連続値をカテゴリ変数にする際に、最適な階級値を求めてくれる関数
アップリフトモデリングの可視化する関数
アップリフトモデリングにおける特徴量選択ができる関数
アップリフトモデリングにおけるモデルのバリデーションを行う関数

などが提供されており、ちょいとRを触れるマーケターにとって、アップリフトモデリングにおける試行錯誤がかなりしやすくなる便利なパッケージだと思いました。
なお、このパッケージで扱っているモデルはロジスティック回帰になります。介入データをもとに推定したモデルの条件付き確率と非介入データをもとに推定したモデルの条件付き確率の差をアップリフトとして推定しています。

このパッケージの解説論文においては、アップリフトモデリングの評価指標としてQini曲線というものが提案されていました。Qini曲線はローレンツ曲線のようなもので、Qini曲線とランダムに割り当てた際のアップリフト量の差分の合計をQini係数と定義しています。

tools4upliftでCriteoデータを試してみる

library(tools4uplift)
library(tidyverse)
library(data.table)

x = fread("gunzip -c criteo-uplift.csv.gz")

head(x,5)

# 1000万件でデータをサンプリング
sampleNum <- sample(nrow(x),10000000)
x_sub <- x[sampleNum,]

x_sub <- x_sub %>% select(-exposure,-visit)
summary(x_sub)

# Baseline models ---------------------------------------------------------
set.seed(123);
split.data1 <- SplitUplift(data = x_sub,
                           p = 0.7,
                           group = c("treatment", "conversion"))

train <- split.data1[[1]]
valid <- split.data1[[2]]

base.tm <- DualUplift(data = train,
                      treat = "treatment",
                      outcome = "conversion",
                      predictors = colnames(train[,1:12]))

# baseline model for control group
base.tm[[1]]

# baseline model for treatment group
base.tm[[2]]

# predict the uplift on the validation set
base.tm.valid <- DualPredict(data = valid,
                             treat = "treatment",
                             outcome = "conversion", 
                             model = base.tm, nb.group = 5)[[1]]

# evaluate the model performance
base.tm.perf <- QiniTable(data = base.tm.valid,
                          treat = "treatment",
                          outcome = "conversion",
                          prediction = "uplift_prediction",
                          nb.group = 5)

# Qini曲線の描画
QiniCurve(base.tm.perf, title = "")
# アップリフト量の棒グラフの描画
QiniBarPlot(base.tm.perf, title = "")
# Qini係数の算出
QiniArea(base.tm.perf)

library(tools4uplift)

library(tidyverse)

library(data.table)

x = fread("gunzip -c criteo-uplift.csv.gz")

head(x,5)

# 1000万件でデータをサンプリング

sampleNum <- sample(nrow(x),10000000)

x_sub <- x[sampleNum,]

x_sub <- x_sub %>% select(-exposure,-visit)

summary(x_sub)

# Baseline models ---------------------------------------------------------

set.seed(123);

split.data1 <- SplitUplift(data = x_sub,

p = 0.7,

group = c("treatment", "conversion"))

train <- split.data1[[1]]

valid <- split.data1[[2]]

base.tm <- DualUplift(data = train,

treat = "treatment",

outcome = "conversion",

predictors = colnames(train[,1:12]))

# baseline model for control group

base.tm[[1]]

# baseline model for treatment group

base.tm[[2]]

# predict the uplift on the validation set

base.tm.valid <- DualPredict(data = valid,

treat = "treatment",

outcome = "conversion",

model = base.tm, nb.group = 5)[[1]]

# evaluate the model performance

base.tm.perf <- QiniTable(data = base.tm.valid,

treat = "treatment",

outcome = "conversion",

prediction = "uplift_prediction",

nb.group = 5)

# Qini曲線の描画

QiniCurve(base.tm.perf, title = "")

# アップリフト量の棒グラフの描画

QiniBarPlot(base.tm.perf, title = "")

# Qini係数の算出

QiniArea(base.tm.perf)

こちらはアップリフト値の予測値の上位から右に並べた際のアップリフトの増大のグラフになります。20%あたりでピークになるようです。

こちらはアップリフト量の棒グラフです。20%の階級値を超えたらガクンと下がるのがわかります。

なお、Qini係数は0.03233551でした。

『仕事ではじめる機械学習』の9章のコードをCriteoデータに試してみる

tools4upliftの結果を鵜呑みにするのもあれなので、『仕事ではじめる機械学習』の9章のコードを使ってアップリフトモデリングを実践してみます。コードは丸パクリですが、謹んで掲載させていただきます。

%matplotlib inline

import pandas as pd
import matplotlib.pyplot as plt
from operator import  itemgetter
plt.style.use("ggplot")

from sklearn.model_selection import  train_test_split
from sklearn.linear_model import LogisticRegression

# https://ailab.criteo.com/criteo-uplift-prediction-dataset/
source_df = pd.read_csv("criteo-uplift.csv.gz")
source_df.head(10)

source_df.describe()

feature_vector_df = source_df.drop(["treatment","conversion","visit","exposure"],axis=1)

is_treat_list = list(source_df["treatment"] == 1)
is_cv_list = list(source_df["conversion"] == 1)

train_is_cv_list, test_is_cv_list, train_is_treat_list, \
        test_is_treat_list, train_feature_vector_df,\
        test_feature_vector_df = train_test_split(is_cv_list, is_treat_list,
                                                                                feature_vector_df,
                                                                                train_size=0.5,
                                                                                test_size=0.5,
                                                                                random_state=42)

treat_model = LogisticRegression(C=0.01)
control_model = LogisticRegression(C=0.01)

train_sample_num = len(train_is_cv_list)

treat_is_cv_list = [train_is_cv_list[i] for i in range(train_sample_num) if train_is_treat_list[i] == True]
treat_feature_vector_list = train_feature_vector_df[train_is_treat_list]

control_is_cv_list = [train_is_cv_list[i] for i in range(train_sample_num) if train_is_treat_list[i] == False]
control_feature_vector_list = train_feature_vector_df[list(map(lambda a:a == False ,train_is_treat_list))]

treat_model.fit(treat_feature_vector_list, treat_is_cv_list)
control_model.fit(control_feature_vector_list, control_is_cv_list)

treat_score = treat_model.predict_proba(test_feature_vector_df)
control_score = control_model.predict_proba(test_feature_vector_df)
score_list = treat_score[:,1] / control_score[:,1]

result = list(zip(test_is_cv_list, test_is_treat_list, score_list))
result.sort(key=itemgetter(2),reverse=True)
    

treat_uu = 0
control_uu = 0
treat_cv = 0
control_cv = 0
treat_cvr = 0.0
control_cvr = 0.0
lift = 0.0

stat_data = []

for is_cv, is_treat, score in result:
    if is_treat:
        treat_uu += 1
        if is_cv:
            treat_cv += 1
        treat_cvr = treat_cv / treat_uu
    else:
        control_uu += 1
        if is_cv:
            control_cv += 1
        control_cvr = control_cv / control_uu

    # コンバージョンレートの差に実験群の人数を掛けることでliftを算出
    lift = (treat_cvr - control_cvr) * treat_uu

    stat_data.append([is_cv, is_treat, score, treat_uu, control_uu, treat_cv, control_cv, treat_cvr, control_cvr, lift])


qdf = pd.DataFrame(columns=('treat_cvr', 'control_cvr'))

quantile_data = []
for n in range(10):
    start = int(n * len(result) / 10)
    end = int((n + 1) * len(result) / 10) - 1
    quantiled_result = result[start:end]
    
    treat_uu = list(map(lambda item:item[1], quantiled_result)).count(True)
    control_uu = list(map(lambda item:item[1], quantiled_result)).count(False)
    
    treat_cv = [item[0] for item in quantiled_result if item[1] == True].count(True)
    control_cv = [item[0] for item in quantiled_result if item[1] == False].count(True)
    
    treat_cvr = treat_cv / treat_uu
    control_cvr = control_cv / control_uu
    
    
    quantile_data.append([treat_uu, control_uu, treat_cv, control_cv, treat_cvr, control_cvr])
        
    label = "{}%~{}%".format(n*10, (n+1)*10)
    qdf.loc[label] = [treat_cvr, control_cvr]

qdf.plot.bar()
plt.xlabel("percentile")
plt.ylabel("conversion rate")

df = pd.DataFrame(stat_data)
df.columns = ["is_cv", "is_treat", "score", "treat_uu", "control_uu", "treat_cv", "control_cv", "treat_cvr", "control_cvr", "lift"]


# ベースラインを書き加える
df["base_line"] = df.index * df["lift"][len(df.index) - 1] / len(df.index)

df.plot(y=["treat_cv", "control_cv"])
plt.xlabel("uplift score rank")
plt.ylabel("conversion count")

df.plot(y=["treat_cvr", "control_cvr"], ylim=[0, 0.04])
plt.xlabel("uplift score rank")
plt.ylabel("conversion rate")

df.plot(y=["lift", "base_line"])
plt.xlabel("uplift score rank")
plt.ylabel("lift count")

df.plot(y=["treat_cv", "control_cv"], x="score", title="conversion count")
df.plot(y=["treat_cvr", "control_cvr"], ylim=[0, 0.04], x="score", title="conversion rate")
df.plot(y=["lift", "base_line"], x="score", title="lift")

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

%matplotlib inline

import pandas as pd

import matplotlib.pyplot as plt

from operator import itemgetter

plt.style.use("ggplot")

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

# https://ailab.criteo.com/criteo-uplift-prediction-dataset/

source_df = pd.read_csv("criteo-uplift.csv.gz")

source_df.head(10)

source_df.describe()

feature_vector_df = source_df.drop(["treatment","conversion","visit","exposure"],axis=1)

is_treat_list = list(source_df["treatment"] == 1)

is_cv_list = list(source_df["conversion"] == 1)

train_is_cv_list, test_is_cv_list, train_is_treat_list, \

test_is_treat_list, train_feature_vector_df,\

test_feature_vector_df = train_test_split(is_cv_list, is_treat_list,

feature_vector_df,

train_size=0.5,

test_size=0.5,

random_state=42)

treat_model = LogisticRegression(C=0.01)

control_model = LogisticRegression(C=0.01)

train_sample_num = len(train_is_cv_list)

treat_is_cv_list = [train_is_cv_list[i] for i in range(train_sample_num) if train_is_treat_list[i] == True]

treat_feature_vector_list = train_feature_vector_df[train_is_treat_list]

control_is_cv_list = [train_is_cv_list[i] for i in range(train_sample_num) if train_is_treat_list[i] == False]

control_feature_vector_list = train_feature_vector_df[list(map(lambda a:a == False ,train_is_treat_list))]

treat_model.fit(treat_feature_vector_list, treat_is_cv_list)

control_model.fit(control_feature_vector_list, control_is_cv_list)

treat_score = treat_model.predict_proba(test_feature_vector_df)

control_score = control_model.predict_proba(test_feature_vector_df)

score_list = treat_score[:,1] / control_score[:,1]

result = list(zip(test_is_cv_list, test_is_treat_list, score_list))

result.sort(key=itemgetter(2),reverse=True)

treat_uu = 0

control_uu = 0

treat_cv = 0

control_cv = 0

treat_cvr = 0.0

control_cvr = 0.0

lift = 0.0

stat_data = []

for is_cv, is_treat, score in result:

if is_treat:

treat_uu += 1

if is_cv:

treat_cv += 1

treat_cvr = treat_cv / treat_uu

else:

control_uu += 1

if is_cv:

control_cv += 1

control_cvr = control_cv / control_uu

# コンバージョンレートの差に実験群の人数を掛けることでliftを算出

lift = (treat_cvr - control_cvr) * treat_uu

stat_data.append([is_cv, is_treat, score, treat_uu, control_uu, treat_cv, control_cv, treat_cvr, control_cvr, lift])

qdf = pd.DataFrame(columns=('treat_cvr', 'control_cvr'))

quantile_data = []

for n in range(10):

start = int(n * len(result) / 10)

end = int((n + 1) * len(result) / 10) - 1

quantiled_result = result[start:end]

treat_uu = list(map(lambda item:item[1], quantiled_result)).count(True)

control_uu = list(map(lambda item:item[1], quantiled_result)).count(False)

treat_cv = [item[0] for item in quantiled_result if item[1] == True].count(True)

control_cv = [item[0] for item in quantiled_result if item[1] == False].count(True)

treat_cvr = treat_cv / treat_uu

control_cvr = control_cv / control_uu

quantile_data.append([treat_uu, control_uu, treat_cv, control_cv, treat_cvr, control_cvr])

label = "{}%~{}%".format(n*10, (n+1)*10)

qdf.loc[label] = [treat_cvr, control_cvr]

qdf.plot.bar()

plt.xlabel("percentile")

plt.ylabel("conversion rate")

df = pd.DataFrame(stat_data)

df.columns = ["is_cv", "is_treat", "score", "treat_uu", "control_uu", "treat_cv", "control_cv", "treat_cvr", "control_cvr", "lift"]

# ベースラインを書き加える

df["base_line"] = df.index * df["lift"][len(df.index) - 1] / len(df.index)

df.plot(y=["treat_cv", "control_cv"])

plt.xlabel("uplift score rank")

plt.ylabel("conversion count")

df.plot(y=["treat_cvr", "control_cvr"], ylim=[0, 0.04])

plt.xlabel("uplift score rank")

plt.ylabel("conversion rate")

df.plot(y=["lift", "base_line"])

plt.xlabel("uplift score rank")

plt.ylabel("lift count")

df.plot(y=["treat_cv", "control_cv"], x="score", title="conversion count")

df.plot(y=["treat_cvr", "control_cvr"], ylim=[0, 0.04], x="score", title="conversion rate")

df.plot(y=["lift", "base_line"], x="score", title="lift")

こちらの図はアップリフト値の階級値ごとのCVRです。最上位のアップリフト値はCVRの差が大きいですが、上位40~50%程度のアップリフト値のときにCVRの差が最も大きいようです。

アップリフト値の順位とCVRの図です。順位が低くても処置群のほうがCVRがわずかに高いようです。

アップリフトのスコアとCVRの関係です。2未満であればCVRは処置群が上回っていますが、一様な傾向はなさそうです。

コンバージョンレートの差に対象群の人数を掛けることでliftを算出したものです。アップリフトスコアが1~2点であれば儲かるようです。

tools4upliftと出している指標が違うので比較ができないのが難点に思いました。tools4upliftはオートマチックな感じで便利なのですが、『仕事ではじめる機械学習』の9章を正義として進めたいので、どうにか揃えれるようにしていきたいと思います。

おわりに

tools4upliftというマーケターにとって銀の弾丸になりそうなパッケージの存在を知ることができ、実際に非常に便利そうな関数が用意されているのがわかりました。ただ、開発されたばかりのパッケージなのでそこまで結果を信じていません。『仕事ではじめる機械学習』本の結果と揃えたいなと思いました。その点がはっきりすれば業務で使ってみるのも良いですし、任意のマーケターに安心して共有できると思います。

参考文献

[1] 有賀康顕・中山心太・西林孝 (2018) 『仕事ではじめる機械学習』オライリージャパン
[2] Mouloud Belbahri, Alejandro Murua, Olivier Gandouet, Vahid Partovi Nia (2019). “Uplift Regression: The R Package tools4uplift”, arXiv:1901.10867 [stat.AP]
[3] ohke (2019) 「Uplift modelingで施策が効く人を見極める」け日記
[4] usaito (2018) 「Uplift Modelingで介入効果を最適化する」 Qiita

ABEJA SIX 2019の1日目に行ってきましたレポート

今日は午後から有給をいただいて、ABEJA SIXの1日目に行ってきました。印象的だなと感じたものに関して、つらつらと雑記を載せておきたいと思います。

こちらは品川グランドプリンスホテルの庭園です。

こちらは会場の雰囲気です。

ブースの様子1です。

ブースの様子2です。

ABEJA SIX 2019

「食事画像認識モデル開発プロジェクトでの10個5個の教訓」株式会社FiNC Technologies 南野充則氏

FiNCは450万ダウンロードされているヘルスケア系のアプリを開発している会社。
ユーザーの継続率を高めるための施策として、機械学習を用いている。
今回の紹介事例ではユーザーの食事に関する情報を入力する手間を機械学習で短縮させ、短縮させることで継続率を高めることを狙っている。
食事の画像は1日に数万枚がアプリに投稿される。
食事の画像から栄養価などを計算することを目指している。
食事レシピ認識モデルでは、画像からレシピを識別し、メニューの量（グラム数）なども推定し、カテゴリ単位で決まっている栄養価から推定している。レシピ本の情報を入力したり、レシピサイトをクローリングし、レシピを一人あたりの栄養価になるように標準化などもしている。きれいな画像と栄養価（材料何グラムか）の伴ったクリーンなデータセットを用意するために自社のキッチンに料理人を呼び2000レシピ分の料理を作ったとのこと。
食材認識モデルでは食材一つ一つ（トマト一つとか、キャベツ一枚とか）を識別して、栄養価を素材単位で計算している。
学習の結果、管理栄養士よりも3%程度の誤差でメニューの栄養価を推定可能になった。
開発期間は6ヶ月間。
東大の松尾研にアドバイスをもらっているらしい。

5つの教訓

１．DL/ML人材をソフトウェアエンジニアから輩出すべき：
インフラ、サーバー、DB、パフォーマンスなどに明るいソフトウェアエンジニアが機械学習や深層学習を学ぶと、分析も実装もできる頼もしいメンバーになるので、ソフトウェアエンジニアのデータサイエンティスト化に注力しているらしい。目指すは論文のリプリケーションができるレベルとのこと。
2.データ取得から学習までのPDCAを最速にする：
ユーザーが画像を出したあとのフローをしっかりしていなかった。予期せぬデータが入ってくるので、そこへの対応も必要。アノテーションした項目を再学習するような仕組みを作り、そばの画像が苦手であれば、そばの画像を集中的に集めて学習させる。
3.オペレーションは自社で構築せよ：
泥臭い仕事と思い、丸投げしてはいけない。データセットの質が最も大事。データセットの質を担保するには評価手法を理解し細かいオペレーションを作る必要がある。アルバイトも自社で雇用、マネジャーもエンジニアとすることで当事者意識も芽生えやすい。
4.評価方法の決定からプロジェクトを始めよう：
AIを使えば、想像を超える何かが出てくると期待していまうフシがある。評価の仕方を決めたほうが、メンバーのゴールが見えるし。やりやすい。10%以内の誤差の難易度がどの程度なのかわからなかったりするし、解釈の多様性が生まれてしまうこともある。
5.プロジェクトはアジャイルで進めるべき：
作ったことのないモデルを作る際にスケジューリングを引くことは難しい。SOTAくらいいけますよと言ってしまい、自らを苦しめることになりかねない。

「機械学習におけるクラウド活用のポイント」アマゾンウェブサービスジャパン株式会社針原佳貴氏 & 宇都宮聖子氏

SageMakerいいぞというお話。
ビジネスにおいて、機械学習を進めるに際して重要なポイントは、
「ビジネス価値に落とし込む」
「データの流れを理解する」
「自分の力で頑張らない」
の3点が挙げられていた。
必要ではあるが、付加価値にはつながりにくい作業のことをUndifferentiated heavy liftingと呼ぶらしい。
機械学習プロジェクトを回す際に重要なこととして、
データ取得
↓
データ前処理
↓
モデルの開発・学習
↓
モデルの評価
↓
モデルの変換（エッジデバイスに送るにはデータを小さくする必要がある。）
↓
本番環境のデプロイ
↓
監視・評価データ変換
のループを繰り返すことが挙げられている。
S3(Simple Storage Service)に蓄積しているデータがあったとして、そのデータに対して、SageMakerで前処理やら機械学習を行い、学習済みの結果をS3にためれば、それを用いてエンドポイントの推論としてカジュアルに活用することができる。S3→SageMaker→S3のコンボが良いとのこと。
ここ1年間で200個くらいAWSのサービスやら機能が増えているので、それを知るだけでも大変そう。でもうまく使えば、Undifferentiated heavy liftingを避けることができる。
わからないことがあれば、ソリューションアーキテクトに質問したり、SageMakerのSlackで聞いたりすると良いらしい。
SageMakerでの学習の進め方としては3種類ある。１つ目は、TensorFlowなどでゴリゴリとアルゴリズムを書く。2つ目はAWS Marketplaceで販売されているアルゴリズムを時間単位で課金して使う。3つ目はAWSのビルトインのアルゴリズム（Object Detection、Semantic Segmentation、Factorization Machineなど）を使う。

「少数データからの学習法の展開とABEJAの取り組み」株式会社ABEJA 藤本敬介氏

データの質がモデルの結果を左右するが、きれいなデータを大量に集めるためにアノテーションをやるのは大変。少ないデータでも性能を出したい。
アプローチとしては、Data Augmentation、Transfer Learning、Meta learningの3つがある。

Data Augmentation（データ拡張）

データを擬似的に増やす手法
mixup:Beyond Empirical Risk Minimizationの研究では画像とラベルを合成してデータを水増しが行われている。
AutoAugment:LearningAugmentation Policies from Dataの研究では、強化学習で精度が上がりやすい水増し方法を学習している。
使わない手はない。

Transfer Learning（転移学習）

異なるデータセットで学習したものを再利用する。
Fine-tuning：別のデータで学習済みのモデルに対して、タスクに対してのデータに適用する。
Domain Adaptation：学習済みのモデルやデータの知識を再利用する。
Fine-tuningは有効な手段。

Meta learning

タスクの学習のしかたを学習する
少数のデータでのうまい学習方法を訓練しておいて、それを使い回す。

ABEJAの取り組み

データが少ない場合はFine-tuningで高精度を出しやすい。
External Network：中間層の情報を利用して、例外的な処理（ネットワークにバイパスみたいなものを通す）をすることで、Fine-tuningした際に精度が落ちないようにしている。不均衡データやクラス追加に対して強い手法とされている。データ数に応じてExternal Networkのサイズを調整でき、クラス1に大量のデータがある場合、1だけネットワークを深くして、2やら3はネットワークを浅くするなどの柔軟な対応が可能。これでもって不均衡データに対応できるとのこと。また、クラス追加に関しては、追加したクラスの分だけ学習すればいいようにネットワークの学習ができるらしい。ただし、学習に時間がかかるとのこと。
（よくわからないが）Model-Agnostic Meta-Learning（MAML（マムル））を応用したら精度が高まるらしい。

うーん、DNNは全然追いかけれていないので断片的にしかわからなかった。悔しいものです。

「Deep Learningの都市伝説と現実」株式会社ABEJA 白川達也氏

リサーチャーをする上で大事なこととしては、
1.先に見つけること
2.シンプルに解くこと
3.先に失敗する（大きな失敗は会社としてしないために）
の3つがある。
クリーンなデータで学習したほうが精度が高くなりやすく、過学習しにくい。ラベルの精度が高ければ、高いほどよい。Big Clean Data + DLで勝つる？
アノテーションは簡単ではない。アノテーターごとにわかりやすい情報がバラバラで、ブレるのが本質的。どこまでやるのか、どこが基準なのかというフレーミングとアンカーリングが重要。人間とかタスクを理解してすすめるのが良い。
半教師あり学習（アノテーションされていないデータを使って精度向上させる取り組み）も魅力的だが、教師データを増やしたほうが効率的。アノテーションできるならば、アノテーションしてしまおう。事前学習も意味があるので行う。
次にどんな技術がくるのか？ Graph Convolution、Annotation、Poincare Embeddings、ML in Hyperbolic Space
Taskonomyという研究が今後熱くなるかも。見たこともないタスクも解けるという柔軟性を持つモデルが構築できる？

感想

機械学習で精度を出すためにそこまで頑張るのか！という事例を聞けたり、知識として不足していたAWS系のサービスの話を聞けたり、自分の足りていない知識を補えた良いイベントだと思いました。

はじめに

目次

パフォーマンスダッシュボード

ダッシュボードの不満

パフォーマンスダッシュボードの２つの原則

戦術的なドライバー

戦略的なドライバー

パフォーマンスダッシュボードは何で構成されるか

3つのアプリケーション

情報の3つのレイヤー

ダッシュボード

スコアカード

パフォーマンスダッシュボードの3つのタイプ

パフォーマンスダッシュボードをどのように作るか？

3つのアーキテクチャー

ビジネスアーキテクチャー

テクニカルアーキテクチャー（パフォーマンスダッシュボードに直接つながるところ）

BIアーキテクチャー

ビジネスアーキテクチャー

データアーキテクチャー

Direct Queryアーキテクチャー

Query and Cacheアーキテクチャー

BIセマンティックレイヤー

Federated Queryアーキテクチャー

データマートアーキテクチャー

Event-drivenアーキテクチャー

おわりに

参考情報

はじめに

受講対象について

アルキメデス向けの教材

Python

R

葉っぱ隊向けの教材

Python

R

読み物

デーサイ候補向けの教材

Python

R

進捗ありマン向けの教材

R

Python

今後について

はじめに

Uplift Modelingとはなにか

Uplift Modelingの卑近な例え話

Uplift Modelingのサンプルデータ

tools4upliftについて

tools4upliftでCriteoデータを試してみる

『仕事ではじめる機械学習』の9章のコードをCriteoデータに試してみる

おわりに

参考文献

ABEJA SIX 2019

「食事画像認識モデル開発プロジェクトでの10個5個の教訓」 株式会社FiNC Technologies 南野 充則 氏

5つの教訓

「機械学習におけるクラウド活用のポイント」 アマゾン ウェブ サービス ジャパン株式会社 針原 佳貴 氏 & 宇都宮 聖子 氏

「少数データからの学習法の展開とABEJAの取り組み」 株式会社ABEJA 藤本 敬介氏

Data Augmentation（データ拡張）

Transfer Learning（転移学習）

Meta learning

ABEJAの取り組み

「Deep Learningの都市伝説と現実」 株式会社ABEJA 白川 達也氏

感想

「食事画像認識モデル開発プロジェクトでの10個5個の教訓」株式会社FiNC Technologies 南野充則氏

「機械学習におけるクラウド活用のポイント」アマゾンウェブサービスジャパン株式会社針原佳貴氏 & 宇都宮聖子氏

「少数データからの学習法の展開とABEJAの取り組み」株式会社ABEJA 藤本敬介氏

「Deep Learningの都市伝説と現実」株式会社ABEJA 白川達也氏