[Stan]ロジスティック回帰の階層ベイズモデルとk-foldsクロスバリデーション

はじめに

stanは意思決定のための分析などでのパラメータ推定に使うことが多く、機械学習のために扱うことはありませんでした。ただ、過去にリク面などでお話したデータサイエンティストの方はstanで機械学習していて、クロスバリデーションもしているとの発言をされていました。
先日、記事を漁っていたらstanでクロスバリデーションを行うためのコードを書いている方を見つけたので、その方のコードをもとに大人のirisであるwineデータを用いて、質の高いワインかどうかを分類するために階層ベイズでのロジスティック回帰モデルを回してみたいと思います。

データについて

UCI Machine Learning Repositoryにある、赤ワインの評価と成分のデータです。データに関する説明はワインの味（美味しさのグレード）は予測できるか？（１）で丁寧になされていますので、ご確認ください。今回は6点以上であれば1を、そうでなければ0を取るものを教師データとしています。

分析方針

今回は階層ベイズモデルを扱うことから、グループごとにロジスティック回帰のパラメータが異なるという仮定を置きます。そのために、citric.acidというデータを3つのカテゴリデータに変換して、それをグループとして扱います。モデルでは、今回のデータセットの変数を全て回帰項として使います。もちろん、回帰用の式からはcitric.acidは除外します。
全体の80%を訓練データに、20%をテストデータとして、10foldsクロスバリデーションでのstanによる予測結果の平均AUCを評価指標とします。最後に、テストデータを用いた予測のAUCを確かめます。また、階層ベイズモデルではないモデルでの10foldsクロスバリデーションでのAUCとも比較します

分析概要

・データ整形
・訓練データとテストデータの分割
・クロスバリデーション用のデータの作成
・stanの実行
・クロスバリデーション結果の出力
・テストデータでの予測
・非階層モデルとの比較

全体のコード以下のリンクにあります。
kick_logistic_regression_allowing_k_hold_cross_validation_hierachical.R
logistic_regression_allowing_k_fold_cross_validation_hierachical.stan

データ整形

階層ベイズで扱うグループをcitric.acidから作っています。

library(tidyverse)
library(rstan)
library(GGally)
library(shinystan)
library(pbmcapply)

rstan_options(auto_write = TRUE)
options(mc.cores = parallel::detectCores())

wine_dataset <- read.csv("dataset/winequality-red.csv")

# Visualization -----------------------------------------------------------
ggpairs(wine_dataset)


# Making group -----------------------------------------------------------
wine_dataset <- wine_dataset %>% mutate(citric_acid_group = if_else(citric.acid < 0.2, 1,
                                                                    if_else(citric.acid < 0.4, 2, 3)))

wine_dataset <- wine_dataset %>% select(-citric.acid)

library(tidyverse)

library(rstan)

library(GGally)

library(shinystan)

library(pbmcapply)

rstan_options(auto_write = TRUE)

options(mc.cores = parallel::detectCores())

wine_dataset <- read.csv("dataset/winequality-red.csv")

# Visualization -----------------------------------------------------------

ggpairs(wine_dataset)

# Making group -----------------------------------------------------------

wine_dataset <- wine_dataset %>% mutate(citric_acid_group = if_else(citric.acid < 0.2, 1,

if_else(citric.acid < 0.4, 2, 3)))

wine_dataset <- wine_dataset %>% select(-citric.acid)

訓練データとテストデータの分割

ワインの質に関するバイナリーデータをこちらで作成し、80%を訓練データに、20%をテストデータに分割しています。

# Split Train and Test ----------------------------------------------------
smp_size <- floor(0.8 * nrow(wine_dataset))

## set the seed to make your partition reproducible
set.seed(123)
train_ind <- sample(seq_len(nrow(wine_dataset)), size = smp_size)

train <- wine_dataset[train_ind, ]
test <- wine_dataset[-train_ind, ]

y <- if_else(wine_dataset$quality > 5, 1, 0)
x <- as.matrix(wine_dataset %>% select(-quality))

y_train <- y[train_ind]
y_test <- y[-train_ind]

x_train <- x[train_ind,]
x_test <- x[-train_ind,]

x_train_group <- x_train[,ncol(x_train)]
x_test_group <- x_test[,ncol(x_test)]

x_train <- x_train[,1:(ncol(x_train)-1)]
x_test <- x_test[,1:(ncol(x_test)-1)]

x_train <- scale(x_train)
x_test <- scale(x_test)

# Split Train and Test ----------------------------------------------------

smp_size <- floor(0.8 * nrow(wine_dataset))

## set the seed to make your partition reproducible

set.seed(123)

train_ind <- sample(seq_len(nrow(wine_dataset)), size = smp_size)

train <- wine_dataset[train_ind, ]

test <- wine_dataset[-train_ind, ]

y <- if_else(wine_dataset$quality > 5, 1, 0)

x <- as.matrix(wine_dataset %>% select(-quality))

y_train <- y[train_ind]

y_test <- y[-train_ind]

x_train <- x[train_ind,]

x_test <- x[-train_ind,]

x_train_group <- x_train[,ncol(x_train)]

x_test_group <- x_test[,ncol(x_test)]

x_train <- x_train[,1:(ncol(x_train)-1)]

x_test <- x_test[,1:(ncol(x_test)-1)]

x_train <- scale(x_train)

x_test <- scale(x_test)

クロスバリデーション用のデータの作成

こちらのコードでは任意の数でクロスバリデーション用のデータを作成し、stanで扱う訓練用データのlistに追加しています。
また、参考にしているブログより転用したstan_kfoldという関数を定義しています。k分割した際のstanの推定結果をリストに格納するための関数です。

N <- length(y_train) # sample size
n_fold <- 10 # number of folds
K <- ncol(x_train) #n umber of predictors

# Create cross validation data --------------------------------------------
# create 10 folds of data
hh <- kfold_split_random(n_fold, N) #hh index the fold ID of each data point
holdout_k <- matrix(0, nrow = N, ncol = n_fold)
for(i in 1:N) holdout_k[i, hh[i]] <- 1

# turn into a list
holdout_k <- split(holdout_k,rep(1:ncol(holdout_k),each=nrow(holdout_k)))


# the basic data object
data_m <- list(N=N,
               K=K,
               M = length(unique(x_train_group)),
               citric_acid_group = x_train_group,
               X=x_train,
               y=y_train
               )

# create a list of data list
data_l <- rep(list(data_m),n_fold)
# add the holdout index to it
for(i in 1:n_fold) data_l[[i]]$holdout <- holdout_k[[i]]


# Define function ---------------------------------------------------------
# function to parrallelize all computations
# need at least two chains !!!
stan_kfold <- function(file, list_of_datas, chains, cores,...){
  library(pbmcapply)
  badRhat <- 1.1 # don't know why we need this?
  n_fold <- length(list_of_datas)
  model <- stan_model(file=file)
  # First parallelize all chains:
  sflist <- 
    pbmclapply(1:(n_fold*chains), mc.cores = cores, 
               function(i){
                 # Fold number:
                 k <- ceiling(i / chains)
                 s <- sampling(model, data = list_of_datas[[k]], 
                               chains = 1, chain_id = i)
                 return(s)
               })
  
  # Then merge the K * chains to create K stanfits:
  stanfit <- list()
  for(k in 1:n_fold){
    inchains <- (chains*k - (chains - 1)):(chains*k)
    #  Merge `chains` of each fold
    stanfit[[k]] <- sflist2stanfit(sflist[inchains])
  }  
  return(stanfit) 
}

N <- length(y_train) # sample size

n_fold <- 10 # number of folds

K <- ncol(x_train) #n umber of predictors

# Create cross validation data --------------------------------------------

# create 10 folds of data

hh <- kfold_split_random(n_fold, N) #hh index the fold ID of each data point

holdout_k <- matrix(0, nrow = N, ncol = n_fold)

for(i in 1:N) holdout_k[i, hh[i]] <- 1

# turn into a list

holdout_k <- split(holdout_k,rep(1:ncol(holdout_k),each=nrow(holdout_k)))

# the basic data object

data_m <- list(N=N,

K=K,

M = length(unique(x_train_group)),

citric_acid_group = x_train_group,

X=x_train,

y=y_train

)

# create a list of data list

data_l <- rep(list(data_m),n_fold)

# add the holdout index to it

for(i in 1:n_fold) data_l[[i]]$holdout <- holdout_k[[i]]

# Define function ---------------------------------------------------------

# function to parrallelize all computations

# need at least two chains !!!

stan_kfold <- function(file, list_of_datas, chains, cores,...){

library(pbmcapply)

badRhat <- 1.1 # don't know why we need this?

n_fold <- length(list_of_datas)

model <- stan_model(file=file)

# First parallelize all chains:

sflist <-

pbmclapply(1:(n_fold*chains), mc.cores = cores,

function(i){

# Fold number:

k <- ceiling(i / chains)

s <- sampling(model, data = list_of_datas[[k]],

chains = 1, chain_id = i)

return(s)

})

# Then merge the K * chains to create K stanfits:

stanfit <- list()

for(k in 1:n_fold){

inchains <- (chains*k - (chains - 1)):(chains*k)

# Merge `chains` of each fold

stanfit[[k]] <- sflist2stanfit(sflist[inchains])

}

return(stanfit)

}

stanの実行

こちらのstanのコードでは、M個のグループごとにパラメータが異なるというモデルを書いています。modelブロックの途中でholdoutを入れることで一部のデータを推定に使わないようにしています。

data {
  int<lower=0> N;   // number of data items
  int<lower=0> K;   // number of predictors
  int<lower=0> M;   // number of group
  row_vector[K] X[N];
  int<lower=0,upper=1> y[N];
  int<lower=0,upper=M> citric_acid_group[N];
  int<lower=0, upper=1> holdout[N];
  // index whether the observation should be held out (1) or used (0)
}

parameters {
  real mu[K];
  real<lower=0> sigma[K];
  vector[K] beta[M];
}

model {
  for (k in 1:K) {
    mu[k] ~ normal(0, 100);
    sigma[k] ~ inv_gamma(1, 1);

    for (m in 1:M)
      beta[m,k] ~ normal(mu[k], sigma[k]);
  }
  for (n in 1:N){
    if(holdout[n] == 0){
      target += bernoulli_lpmf( y[n] | inv_logit(X[n] * beta[citric_acid_group[n]]));
  }
 }
}

data {

int<lower=0> N; // number of data items

int<lower=0> K; // number of predictors

int<lower=0> M; // number of group

row_vector[K] X[N];

int<lower=0,upper=1> y[N];

int<lower=0,upper=M> citric_acid_group[N];

int<lower=0, upper=1> holdout[N];

// index whether the observation should be held out (1) or used (0)

}

parameters {

real mu[K];

real<lower=0> sigma[K];

vector[K] beta[M];

}

model {

for (k in 1:K) {

mu[k] ~ normal(0, 100);

sigma[k] ~ inv_gamma(1, 1);

for (m in 1:M)

beta[m,k] ~ normal(mu[k], sigma[k]);

}

for (n in 1:N){

if(holdout[n] == 0){

target += bernoulli_lpmf( y[n] | inv_logit(X[n] * beta[citric_acid_group[n]]));

}

こちらはstanをキックするためのコードです。いつもと違い、先程定義したstan_kfoldを用いています。

# Kick the stan code ------------------------------------------------------
# run the functions
ss <- stan_kfold(file="model/logistic_regression_allowing_k_fold_cross_validation_hierachical.stan",
                 data_l,
                 chains=4,
                 cores=2)

# Kick the stan code ------------------------------------------------------

# run the functions

ss <- stan_kfold(file="model/logistic_regression_allowing_k_fold_cross_validation_hierachical.stan",

data_l,

chains=4,

cores=2)

クロスバリデーション結果の出力

以下は、k個ずつ手に入ったクロスバリデーションでの推定結果から、各パラメータの平均値を計算し、ロジスティック回帰モデルで２値の予測を行い、平均AUCを計算するコードです。

# Calculate Mean AUC ------------------------------------------------------
## hierachical model
set.seed(123)
cv_mean_auc <- NULL
for (i in 1:n_fold){
  ext_fit <- extract(ss[[i]]) # choose 1 chunk
  
  # グループによって推定したパラメータが違う
  coef_list <- NULL
  group_list <- data_l[[i]]$citric_acid_group[data_l[[i]]$holdout > 0]
  for(j in 1:length(group_list)){
    coef_list <- rbind(coef_list, colMeans(ext_fit$beta[,group_list[j],]))
  }
  
  lin_comb <- rowSums(data_l[[i]]$X[data_l[[i]]$holdout > 0, ] * coef_list)
  prob <- 1/(1 + exp(-lin_comb))
  pred_value <- rbinom(sum(data_l[[i]]$holdout), 1, prob)
  
  # Syntax (response, predictor):
  auc = pROC::auc(data_l[[i]]$y[data_l[[i]]$holdout > 0], pred_value)[1]
  cv_mean_auc <- append(cv_mean_auc, auc)
}

cv_mean_auc
mean(cv_mean_auc)

# Calculate Mean AUC ------------------------------------------------------

## hierachical model

set.seed(123)

cv_mean_auc <- NULL

for (i in 1:n_fold){

ext_fit <- extract(ss[[i]]) # choose 1 chunk

# グループによって推定したパラメータが違う

coef_list <- NULL

group_list <- data_l[[i]]$citric_acid_group[data_l[[i]]$holdout > 0]

for(j in 1:length(group_list)){

coef_list <- rbind(coef_list, colMeans(ext_fit$beta[,group_list[j],]))

}

lin_comb <- rowSums(data_l[[i]]$X[data_l[[i]]$holdout > 0, ] * coef_list)

prob <- 1/(1 + exp(-lin_comb))

pred_value <- rbinom(sum(data_l[[i]]$holdout), 1, prob)

# Syntax (response, predictor):

auc = pROC::auc(data_l[[i]]$y[data_l[[i]]$holdout > 0], pred_value)[1]

cv_mean_auc <- append(cv_mean_auc, auc)

}

cv_mean_auc

mean(cv_mean_auc)

平均AUCは0.675となりました。すごくいいわけではないですが、手抜きモデルとしてはまずまずと言ったところでしょうか。

テストデータでの予測

以下のコードで最初に分けていたテストデータでの予測結果を返します。

# Prediction --------------------------------------------------------------
# Choose best model in cross-validation
ext_fit <- extract(ss[[1]]) # choose 1 chunk

# グループによって推定したパラメータが違う
beta_post <- NULL
group_list <- x_test_group

for(j in 1:length(group_list)){
  beta_post <- rbind(beta_post, colMeans(ext_fit$beta[,group_list[j],]))
}

lin_comb <- rowSums(x_test * beta_post)
prob <- 1/(1 + exp(-lin_comb))
pred_value <- rbinom(nrow(x_test), 1, prob)


# Syntax (response, predictor):
auc = pROC::auc(y_test, pred_value)[1]
auc

# Prediction --------------------------------------------------------------

# Choose best model in cross-validation

ext_fit <- extract(ss[[1]]) # choose 1 chunk

# グループによって推定したパラメータが違う

beta_post <- NULL

group_list <- x_test_group

for(j in 1:length(group_list)){

beta_post <- rbind(beta_post, colMeans(ext_fit$beta[,group_list[j],]))

}

lin_comb <- rowSums(x_test * beta_post)

prob <- 1/(1 + exp(-lin_comb))

pred_value <- rbinom(nrow(x_test), 1, prob)

# Syntax (response, predictor):

auc = pROC::auc(y_test, pred_value)[1]

auc

実行の結果、AUCは0.665と、クロスバリデーションでの平均AUCと比べてあまり下がりませんでした。

非階層モデルとの比較

非階層モデルでも同様に10foldsクロスバリデーションの平均AUCを計算しました。非階層モデルよりもAUCが1%ポイントくらいは高いようです。

> mean(cv_mean_auc)
[1] 0.6745282

> mean(cv_mean_auc_normal)
[1] 0.6640103

> mean(cv_mean_auc)

[1] 0.6745282

> mean(cv_mean_auc_normal)

[1] 0.6640103

おわりに

現時点において、stanでの柔軟なモデリングを機械学習に活かす作法について紹介されている文献はあまりなく、選手人口はどれくらいいるのか気になるところですが、発見したブログのやり方でクロスバリデーションをカジュアルに行えるので、より多くの方がstanでの機械学習にチャレンジしうるものだなと思いました。ただ、このレベルの階層ベイズだとrstanarmで簡単にできてしまうので、より深く分析してモデルをカスタムしていきたいですね。

参考情報

[1]Lionel Hertzog (2018), “K-fold cross-validation in Stan,datascienceplus.com”
[2]Alex Pavlakis (2018), “Making Predictions from Stan models in R”, Medium
[3]Richard McElreath (2016), “Statistical Rethinking: A Bayesian Course with Examples in R and Stan (Chapman & Hall/CRC Texts in Statistical Science)”, Chapman and Hall/CRC
[4]松浦健太郎 (2016), 『StanとRでベイズ統計モデリング (Wonderful R)』, 共立出版
[5]馬場真哉 (2019), 『実践Data Scienceシリーズ RとStanではじめるベイズ統計モデリングによるデータ分析入門』, 講談社

R Advent Calendar 2017 rvestを用いてポケモンデータをスクレイピング&分析してみた

R Advent Calendar 2017の11日目を担当するMr_Sakaueです。
今回はrvestパッケージを用いて、友人がハマっているポケモンの情報を集めてみようと思います。
もっとも、業務でWebスクレイピングする際はPythonでBeautifulSoupやSeleniumを使うことがほとんどなのですが、たまにはRでやってみようと思います。

目次
・やりたいこと
・rvestについて
・データの取得と集計と可視化と分析
・まとめ
・参考情報

やりたいこと

今回はポケモンたちのデータを集めた上で、以下の内容を行いたいと思います。

ポケモンのサイトから種族値を取得
ポケモンの種族値を標準化して再度ランキング
ポケモンのレア度や経験値に関する情報を取得
レア度や経験値と相関しそうな種族値を探る

今回扱った全てのコードはこちらに載せております。
https://github.com/KamonohashiPerry/r_advent_calendar_2017/tree/master

※種族値はゲームにおける隠しパラメータとして設定されている、ポケモンの能力値とされている。

rvestについて

rvestはRでWebスクレイピングを簡単に行えるパッケージです。ここでの説明は不要に思われますが、今回はread_html()、html_nodes()、html_text()、html_attr()の4つ関数を用いました。

基本的に以下の3ステップでWebの情報を取得することができます。

STEP1
read_html()でHTMLからソースコードを取得する。(Pythonでいう、requestとBeautifulSoup)
STEP2
html_nodes()でソースコードから指定した要素を抽出する。(PythonでいうところのfindAll)
STEP3
html_text()やhtml_attr()で抽出した要素からテキストやリンクを抽出する。(Pythonでいうところのget(‘href’)など)

データの取得と集計と可視化

検索エンジンで検索してだいたい1位のサイトがあったので、そちらのWebサイトに載っているポケモンの種族値の一覧をスクレイピング対象とさせていただきます。

ポケモンのサイトから種族値を取得

library(rvest)
library(tidyverse)
library(magrittr)
library(reshape2)

# htmlソースコードを読み込む
pokemon_ranking <- read_html("https://yakkun.com/sm/status_list.htm")

# class属性がtdタグのノードを抽出
node_extracted <- html_nodes(pokemon_ranking, "td")

# ノードからテキストを抽出して行列にして、名前以外を数値に型変換して、変数名を変更する。
pokemon_data <- data.frame(matrix(html_text(node_extracted),
                       ncol = 9,byrow = TRUE),stringsAsFactors = FALSE) %>% 
                set_colnames(c('id', 'name', 'Hit_Points', 'Attack',
                               'Defense', 'Special_Attack',
                               'Special_Defense', 'Speed', 'Total')) %>%
                mutate_at(vars(-name), as.numeric)


# ポケモン別のページを取得するためのURLの取得
pokemon_link <- pokemon_ranking %>% html_nodes("td") %>% html_nodes('a') %>% html_attr('href')
pokemon_link <- gsub(x = pokemon_link,
                     pattern = './zukan',
                     replacement = "https://yakkun.com/sm/zukan")
# ポケモン別のURLを先ほどのデータに加える
pokemon_data <- pokemon_data %>% mutate(url = pokemon_link)

library(rvest)

library(tidyverse)

library(magrittr)

library(reshape2)

# htmlソースコードを読み込む

pokemon_ranking <- read_html("https://yakkun.com/sm/status_list.htm")

# class属性がtdタグのノードを抽出

node_extracted <- html_nodes(pokemon_ranking, "td")

# ノードからテキストを抽出して行列にして、名前以外を数値に型変換して、変数名を変更する。

pokemon_data <- data.frame(matrix(html_text(node_extracted),

ncol = 9,byrow = TRUE),stringsAsFactors = FALSE) %>%

set_colnames(c('id', 'name', 'Hit_Points', 'Attack',

'Defense', 'Special_Attack',

'Special_Defense', 'Speed', 'Total')) %>%

mutate_at(vars(-name), as.numeric)

# ポケモン別のページを取得するためのURLの取得

pokemon_link <- pokemon_ranking %>% html_nodes("td") %>% html_nodes('a') %>% html_attr('href')

pokemon_link <- gsub(x = pokemon_link,

pattern = './zukan',

replacement = "https://yakkun.com/sm/zukan")

# ポケモン別のURLを先ほどのデータに加える

pokemon_data <- pokemon_data %>% mutate(url = pokemon_link)

以上のコードを実行すれば、こんな感じでポケモンの種族値一覧を得る事ができます。

とりあえず、種族値合計（Total Tribal Value 以下、TTV）のランキングの上位を確認してみます。知らないんですが、メガミュウツーとかいうイカつそうなポケモンが上位にいるようです。昭和の世代には縁のなさそうなポケモンばかりですねぇ。

■TTVランキング

取得した種族値を項目別に集計したり、Boxプロットを描いてみます。どうやら、攻撃の平均が高く、ヒットポイントや素早さの平均は低いようです。

# 集計
pokemon_data_melt <- melt(pokemon_data %>% select(-url), id.vars = 'name')
pokemon_data_melt %>% 
    group_by(variable) %>% 
    summarise(mean = mean(value),
              median = median(value),
              sd = sd(value),
              max = max(value),
              min = min(value),
              cv = sd/mean)

# 集計

pokemon_data_melt <- melt(pokemon_data %>% select(-url), id.vars = 'name')

pokemon_data_melt %>%

group_by(variable) %>%

summarise(mean = mean(value),

median = median(value),

sd = sd(value),

max = max(value),

min = min(value),

cv = sd/mean)

■種族値のサマリー

# Box-Plotを描く
ggplot(data = pokemon_data_melt %>% filter(!(variable %in% c('id','Total'))),
       aes(x = variable, y = value)) +
   geom_boxplot() + ggtitle("Tribal Value") + 
   theme(plot.title = element_text(hjust = 0.5)) + coord_flip()

# Box-Plotを描く

ggplot(data = pokemon_data_melt %>% filter(!(variable %in% c('id','Total'))),

aes(x = variable, y = value)) +

geom_boxplot() + ggtitle("Tribal Value") +

theme(plot.title = element_text(hjust = 0.5)) + coord_flip()

■種族値のBoxプロット

ポケモンの種族値を標準化して再度ランキング

さて、攻撃の平均が高かったり、ヒットポイントと素早さの平均が低かったりしたので、各々の項目を標準化した上で、再度ランキングを作ってみたいと思います。

pokemon_data_standardized <- pokemon_data
pokemon_data_standardized <- pokemon_data_standardized %>% 
                              mutate_at(vars(Hit_Points,
                                             Attack,
                                             Defense,
                                             Special_Attack,
                                             Special_Defense,
                                             Speed),funs(scale(.) %>% as.vector))

pokemon_data_standardized <- pokemon_data_standardized %>% 
                              mutate(Total = rowSums(select(.,c(3:8))))

pokemon_data_standardized_ranking <- pokemon_data_standardized %>% arrange(desc(Total))
pokemon_data_standardized_ranking <- pokemon_data_standardized_ranking %>% mutate(standardized_ranking = 1:n())


pokemon_data_standardized_melt <- melt(pokemon_data_standardized %>% select(-url), id.vars = 'name')
pokemon_data_standardized_melt %>% 
  group_by(variable) %>% 
  summarise(mean = mean(value),
            median = median(value),
            sd = sd(value),
            max = max(value),
            min = min(value),
            cv = sd/mean)

pokemon_data_standardized <- pokemon_data

pokemon_data_standardized <- pokemon_data_standardized %>%

mutate_at(vars(Hit_Points,

Attack,

Defense,

Special_Attack,

Special_Defense,

Speed),funs(scale(.) %>% as.vector))

pokemon_data_standardized <- pokemon_data_standardized %>%

mutate(Total = rowSums(select(.,c(3:8))))

pokemon_data_standardized_ranking <- pokemon_data_standardized %>% arrange(desc(Total))

pokemon_data_standardized_ranking <- pokemon_data_standardized_ranking %>% mutate(standardized_ranking = 1:n())

pokemon_data_standardized_melt <- melt(pokemon_data_standardized %>% select(-url), id.vars = 'name')

pokemon_data_standardized_melt %>%

group_by(variable) %>%

summarise(mean = mean(value),

median = median(value),

sd = sd(value),

max = max(value),

min = min(value),

cv = sd/mean)

■標準化した種族値のサマリー

平均0、分散1にできているようです。

# Box-Plotを描く
ggplot(data = pokemon_data_standardized_melt %>% filter(!(variable %in% c('id','Total','Total_standardized'))),
       aes(x = variable, y = value)) +
  geom_boxplot() + ggtitle("Tribal Value") + 
  theme(plot.title = element_text(hjust = 0.5)) + coord_flip()

# Box-Plotを描く

ggplot(data = pokemon_data_standardized_melt %>% filter(!(variable %in% c('id','Total','Total_standardized'))),

aes(x = variable, y = value)) +

geom_boxplot() + ggtitle("Tribal Value") +

theme(plot.title = element_text(hjust = 0.5)) + coord_flip()

■標準化した種族値のBoxプロット

他よりも低かったヒットポイントと、高かった攻撃がならされていることが確認できます。

■標準化前後でのTTVランキングのギャップが大きかったものをピックアップ

ラッキーが144位ほど出世しています。攻撃が低く、ヒットポイントの高いラッキーが標準化により優遇されるようになったと考える事ができます。ポケモン大会の上位ランカーである後輩社員もラッキーは手強いですと言っていたのでまんざらでもないのでしょう。

ポケモンのレア度や経験値に関する情報を取得

今回のサイトには、個別にポケモン別のページが用意されており、そちらから、ゲットしやすさや経験値に関する情報を抽出します。

# ポケモンの個別ページの情報を格納するデータフレームの作成
pokemon_detail_database <- data.frame(url = as.character(),
                                      name = as.character(),
                                      rarity = as.integer(),
                                      experience = as.integer())

# ポケモン別のURLからゲットしやすさなどを抽出するための関数
Pokemon_Detail_Get <- function(pokemon_url){
  pokemon_detail <- read_html(pokemon_url)
  
  # XPathで名前とゲットしやすさと経験値タイプを取得
  node_extracted_pokemon_name <- pokemon_detail %>% html_nodes(xpath="//tr[1]") %>% html_text()
  node_extracted_pokemon_name <- node_extracted_pokemon_name[1]
  
  node_extracted_pokemon_get <- pokemon_detail %>% html_nodes(xpath="//tr[24]/td[2]") %>% html_text()
  node_extracted_pokemon_get <- as.integer(gsub(x = node_extracted_pokemon_get[1], pattern = "\u00A0", replacement = ""))
  
  node_extracted_pokemon_exp <- pokemon_detail %>% html_nodes(xpath="//tr[26]/td[2]") %>% html_text()
  node_extracted_pokemon_exp <- as.integer(gsub(x = node_extracted_pokemon_exp[1], pattern = "万", replacement = "0000"))
  
  pokemon_detail_data <- data.frame(url = pokemon_url,
                                    name = node_extracted_pokemon_name,
                                    rarity = node_extracted_pokemon_get,
                                    experience = node_extracted_pokemon_exp)
  return(pokemon_detail_data)
  
  Sys.sleep(30)
}

# ポケモン別のページをスクレイピングする
pokemon_detail_database <- map_dfr(pokemon_link ,
                               ~Pokemon_Detail_Get(.))

# 重複したURLを削除する
pokemon_detail_database <- pokemon_detail_database %>% distinct(url, .keep_all = TRUE)

# 種族値のデータとゲットしやすさなどのデータを繋ぎこむ
pokemon_data_standardized <- pokemon_data_standardized %>% left_join(pokemon_detail_database %>% select(-name), by ="url")

# ポケモンの個別ページの情報を格納するデータフレームの作成

pokemon_detail_database <- data.frame(url = as.character(),

name = as.character(),

rarity = as.integer(),

experience = as.integer())

# ポケモン別のURLからゲットしやすさなどを抽出するための関数

Pokemon_Detail_Get <- function(pokemon_url){

pokemon_detail <- read_html(pokemon_url)

# XPathで名前とゲットしやすさと経験値タイプを取得

node_extracted_pokemon_name <- pokemon_detail %>% html_nodes(xpath="//tr[1]") %>% html_text()

node_extracted_pokemon_name <- node_extracted_pokemon_name[1]

node_extracted_pokemon_get <- pokemon_detail %>% html_nodes(xpath="//tr[24]/td[2]") %>% html_text()

node_extracted_pokemon_get <- as.integer(gsub(x = node_extracted_pokemon_get[1], pattern = "\u00A0", replacement = ""))

node_extracted_pokemon_exp <- pokemon_detail %>% html_nodes(xpath="//tr[26]/td[2]") %>% html_text()

node_extracted_pokemon_exp <- as.integer(gsub(x = node_extracted_pokemon_exp[1], pattern = "万", replacement = "0000"))

pokemon_detail_data <- data.frame(url = pokemon_url,

name = node_extracted_pokemon_name,

rarity = node_extracted_pokemon_get,

experience = node_extracted_pokemon_exp)

return(pokemon_detail_data)

Sys.sleep(30)

}

# ポケモン別のページをスクレイピングする

pokemon_detail_database <- map_dfr(pokemon_link ,

~Pokemon_Detail_Get(.))

# 重複したURLを削除する

pokemon_detail_database <- pokemon_detail_database %>% distinct(url, .keep_all = TRUE)

# 種族値のデータとゲットしやすさなどのデータを繋ぎこむ

pokemon_data_standardized <- pokemon_data_standardized %>% left_join(pokemon_detail_database %>% select(-name), by ="url")

以上のコードを実行すれば、やや時間がかかりますが、全ポケモンのゲットしやすさや経験値のデータを抽出する事ができます。それらの情報がゲットできたら、まずは可視化します。

# ゲットしやすさのヒストグラム
ggplot(data = pokemon_data_standardized, aes(x = rarity)) + geom_histogram() 

# 経験値のヒストグラム
ggplot(data = pokemon_data_standardized, aes(x = experience)) + geom_histogram()

# ゲットしやすさのヒストグラム

ggplot(data = pokemon_data_standardized, aes(x = rarity)) + geom_histogram()

# 経験値のヒストグラム

ggplot(data = pokemon_data_standardized, aes(x = experience)) + geom_histogram()

■ゲットしやすさのヒストグラム

ゲットのしやすさは、小さいほど捕まえる難易度が高くなっています。難易度の高いポケモンである0が多過ぎるので、このデータは欠損値が0になっているのではないかと疑われます。

■経験値のヒストグラム

経験値は、レベル100になるまでに要する経験値をさしています。ほとんどが100万程度となっているようです。

■ゲットしやすさと標準化TTVの散布図

やはり、ゲットしやすさに関してはデータに不備があるようで、コラッタ（アローラの姿）のような雑魚ポケのゲットのしやすさが0だったり、伝説のポケモンであるネクロズマが255だったりします。ただ、上限と下限のデータを間引けば右下がりの傾向が見られそうです。

■経験値と標準化TTVの散布図

経験値が多く必要にも関わらず、TTVが低い集団があります。どうやらこの集団に属するのは、「キノガッサ」・「マクノシタ」・「イルミーゼ」・「ゴクリン」・「シザリガー」などで、一回しか進化しないポケモンのようです。これらのポケモンは育てにくく、TTVの低い、コスパの悪そうなポケモンと考えることができるのではないでしょうか。（技や特性によってはバリューあるかもしれませんが。）

レア度や経験値と相関しそうな種族値を探る

先ほどのレア度に関しては、データがおかしそうだったので、レア度0と255に関しては除外してみます。

# おかしそうなレア度0と255のデータを除外する。
pokemon_data_standardized_filtered <- pokemon_data_standardized %>% filter(rarity > 0, rarity < 255)

# ゲットのしやすさと標準化TTV
ggplot(data = pokemon_data_standardized_filtered, aes(x = rarity, y = Total)) + 
  geom_point() + ylab('Total Tribal Value')

# おかしそうなレア度0と255のデータを除外する。

pokemon_data_standardized_filtered <- pokemon_data_standardized %>% filter(rarity > 0, rarity < 255)

# ゲットのしやすさと標準化TTV

ggplot(data = pokemon_data_standardized_filtered, aes(x = rarity, y = Total)) +

geom_point() + ylab('Total Tribal Value')

■ゲットしやすさと標準化TTVの散布図

やはり除外する事で、理想的な右下がりの傾向を示す散布図が得られたと思います。
さて、各種族値がレア度にどれだけ相関しているのかを分析したいのですが、その前にレア度を表す二項変数を作成します。

■ゲットしやすさが50以下であれば1、それ以外を0にする変数を作成

pokemon_data_standardized_filtered <- pokemon_data_standardized_filtered %>% mutate(y = ifelse(rarity <= 50, 1, 0))

1	pokemon_data_standardized_filtered <- pokemon_data_standardized_filtered %>% mutate(y = ifelse(rarity <= 50, 1, 0))

続いて、各種族値を説明変数として、レア度を目的変数としたロジスティック回帰モデルの推定をrstanで実行させます。

■stanコード

data {
  int N;
  real Hit_Points[N];
  real Attack[N];
  real Defense[N];
  real Special_Attack[N];
  real Special_Defense[N];
  real Speed[N];
  int<lower=0, upper=1> Y[N];
}


parameters {
  real b[7];
}


model {
  for (n in 1:N)
    Y[n] ~ bernoulli_logit(b[1] + b[2]*Hit_Points[n] + b[3]*Attack[n] + b[4]*Defense[n] + b[5]*Special_Attack[n] + b[6]*Special_Defense[n] + b[7]*Speed[n]);
}

data {

int N;

real Hit_Points[N];

real Attack[N];

real Defense[N];

real Special_Attack[N];

real Special_Defense[N];

real Speed[N];

int<lower=0, upper=1> Y[N];

}

parameters {

real b[7];

}

model {

for (n in 1:N)

Y[n] ~ bernoulli_logit(b[1] + b[2]*Hit_Points[n] + b[3]*Attack[n] + b[4]*Defense[n] + b[5]*Special_Attack[n] + b[6]*Special_Defense[n] + b[7]*Speed[n]);

}

■rstanでロジスティック回帰を行い、推定結果を可視化するコード

library(rstan)

N <- nrow(pokemon_data_standardized_filtered)

data <- list(N = N,
             Hit_Points = pokemon_data_standardized_filtered$Hit_Points,
             Attack = pokemon_data_standardized_filtered$Attack,
             Defense = pokemon_data_standardized_filtered$Defense,
             Special_Attack = pokemon_data_standardized_filtered$Special_Attack,
             Special_Defense = pokemon_data_standardized_filtered$Special_Defense,
             Speed = pokemon_data_standardized_filtered$Speed,
             Y = pokemon_data_standardized_filtered$y)

fit <- stan(file = 'logistic_regression.stan',
            data = data,
            seed = 1234)

summary(fit)

traceplot(fit)

source('common.R')

ms <- rstan::extract(fit)
N_mcmc <- length(ms$lp__)

param_names <- c('mcmc', paste0('b', 1:7))
d_est <- data.frame(1:N_mcmc, ms$b)
colnames(d_est) <- param_names
d_qua <- data.frame.quantile.mcmc(x=param_names[-1], y_mcmc=d_est[,-1])
d_melt <- reshape2::melt(d_est, id=c('mcmc'), variable.name='X')
d_melt$X <- factor(d_melt$X, levels=rev(levels(d_melt$X)))

p <- ggplot()
p <- p + theme_bw(base_size=18)
p <- p + coord_flip()
p <- p + geom_violin(data=d_melt, aes(x=X, y=value), fill='white', color='grey80', size=2, alpha=0.3, scale='width')
p <- p + geom_pointrange(data=d_qua, aes(x=X, y=p50, ymin=p2.5, ymax=p97.5), size=1)
p <- p + labs(x='parameter', y='value')
p <- p + scale_y_continuous(breaks=seq(from=-2, to=6, by=2))
p

library(rstan)

N <- nrow(pokemon_data_standardized_filtered)

data <- list(N = N,

Hit_Points = pokemon_data_standardized_filtered$Hit_Points,

Attack = pokemon_data_standardized_filtered$Attack,

Defense = pokemon_data_standardized_filtered$Defense,

Special_Attack = pokemon_data_standardized_filtered$Special_Attack,

Special_Defense = pokemon_data_standardized_filtered$Special_Defense,

Speed = pokemon_data_standardized_filtered$Speed,

Y = pokemon_data_standardized_filtered$y)

fit <- stan(file = 'logistic_regression.stan',

data = data,

seed = 1234)

summary(fit)

traceplot(fit)

source('common.R')

ms <- rstan::extract(fit)

N_mcmc <- length(ms$lp__)

param_names <- c('mcmc', paste0('b', 1:7))

d_est <- data.frame(1:N_mcmc, ms$b)

colnames(d_est) <- param_names

d_qua <- data.frame.quantile.mcmc(x=param_names[-1], y_mcmc=d_est[,-1])

d_melt <- reshape2::melt(d_est, id=c('mcmc'), variable.name='X')

d_melt$X <- factor(d_melt$X, levels=rev(levels(d_melt$X)))

p <- ggplot()

p <- p + theme_bw(base_size=18)

p <- p + coord_flip()

p <- p + geom_violin(data=d_melt, aes(x=X, y=value), fill='white', color='grey80', size=2, alpha=0.3, scale='width')

p <- p + geom_pointrange(data=d_qua, aes(x=X, y=p50, ymin=p2.5, ymax=p97.5), size=1)

p <- p + labs(x='parameter', y='value')

p <- p + scale_y_continuous(breaks=seq(from=-2, to=6, by=2))

■MCMCのシミュレーション結果のトレースプロット

どうやら収束してそうです。

■ロジスティック回帰の推定結果

見にくいので、推定結果を松浦さんの「StanとRでベイズ統計モデリング」にあるコードを用いて可視化します。

■推定結果の可視化

どうやら、0を含まない係数について見てみると、b3（攻撃）、b5（特殊攻撃）、b6（特殊防御）が高いほど、レア度が増す傾向があるようです。珍しいポケモンは攻撃が強いという傾向があると言えるのではないでしょうか。

まとめ

rvestは簡単にスクレイピングできて便利。
ポケモンデータは色々整備されてそうで今後も分析したら面白そう。
珍しいポケモンは「攻撃」、「特殊攻撃」、「特殊防御」が高い傾向がある。
経験値が必要なのにTTVの低い、コスパの悪そうなポケモンたちがいる。

それでは、どうか良い年末をお過ごし下さい！
メリークリスマス！

参考情報

顧客生涯価値(CLV)の計算 with R

顧客生涯価値(CLV：Customer Lifetime Value)を計算してくれるRのコード（Calculating Customer Lifetime Value with Recency, Frequency, and Monetary (RFM)）があったので、今更感がありますが取り上げたいと思います。

目次

・顧客生涯価値の数式
・データセット
・関数
・データセットの読み込みと加工
・再購買率とRFMとの関係
・再購買率の推定
・顧客生涯価値の計算
・参考情報

顧客生涯価値の数式

まず、顧客生涯価値の数式は以下の通りです。

t：年や月などの期間
n：顧客が解約するまでの期間合計
r：保持率（1-解約率）
P(t)：t期に顧客から得られる収益
d：割引率

rは数式上では固定ですが、実際にはデモグラ属性（年齢、地理情報、職種など）や行動（RFMなど）や在職中かどうかなどの要因により変わりうるものだと考えられます。参考文献のブログでは、このrのロジスティック回帰による推定がなされています。

データセット

データ名：CDNow
概要：1997年の第一四半期をスタート時点とした顧客の購買行動データ
期間：1997年1月〜1998年6月
顧客数：23570
取引レコード数：69659
変数：顧客ID、購入日、購入金額
入手方法：DatasetsでCDNOW dataset (full dataset)をダウンロード

関数

参考文献にはgetDataFrame関数、getPercentages関数、getCLV関数の三つの関数が出てきますが、CLVの計算に必要なのはgetDataFrame関数、getCLV関数の二つです。getPercentages関数はRecencyなどに応じて細かく分析する際に用います。

getDataFrame関数・・・生のデータセットから、指定した期間に応じたRecencyのデータを作成する関数です。

getDataFrame <- function(df,startDate,endDate,tIDColName="ID",tDateColName="Date",tAmountColName="Amount"){
  
  #日付について降順でデータフレームを並び替える
  df <- df[order(df[,tDateColName],decreasing = TRUE),]
  
  #開始期間の前と終了期間の後のデータを取り除く
  df <- df[df[,tDateColName]>= startDate,]
  df <- df[df[,tDateColName]<= endDate,]
  
  #重複したIDの行を除外して新しいデータフレームを生成する
  newdf <- df[!duplicated(df[,tIDColName]),]
  
  # 終了期間に対してのRecencyを計算する（最も小さい値は最も最近であることを示す）
  Recency <- as.numeric(difftime(endDate,newdf[,tDateColName],units="days"))
  
  # newdfデータフレームに日付の列を加える
  newdf <- cbind(newdf,Recency)
  
  # table関数やtapply関数の返す順番と揃うようにデータフレームをIDごとに並べ替える
  newdf <- newdf[order(newdf[,tIDColName]),]
  
  # 頻度を計算する
  fre <- as.data.frame(table(df[,tIDColName]))
  Frequency <- fre[,2]
  newdf <- cbind(newdf,Frequency)
  
  # 取引ごとの金額を計算する
  m <- as.data.frame(tapply(df[,tAmountColName],df[,tIDColName],sum))
  Monetary <- m[,1]/Frequency
  newdf <- cbind(newdf,Monetary)
  
  return(newdf)
  
}

getDataFrame <- function(df,startDate,endDate,tIDColName="ID",tDateColName="Date",tAmountColName="Amount"){

#日付について降順でデータフレームを並び替える

df <- df[order(df[,tDateColName],decreasing = TRUE),]

#開始期間の前と終了期間の後のデータを取り除く

df <- df[df[,tDateColName]>= startDate,]

df <- df[df[,tDateColName]<= endDate,]

#重複したIDの行を除外して新しいデータフレームを生成する

newdf <- df[!duplicated(df[,tIDColName]),]

# 終了期間に対してのRecencyを計算する（最も小さい値は最も最近であることを示す）

Recency <- as.numeric(difftime(endDate,newdf[,tDateColName],units="days"))

# newdfデータフレームに日付の列を加える

newdf <- cbind(newdf,Recency)

# table関数やtapply関数の返す順番と揃うようにデータフレームをIDごとに並べ替える

newdf <- newdf[order(newdf[,tIDColName]),]

# 頻度を計算する

fre <- as.data.frame(table(df[,tIDColName]))

Frequency <- fre[,2]

newdf <- cbind(newdf,Frequency)

# 取引ごとの金額を計算する

m <- as.data.frame(tapply(df[,tAmountColName],df[,tIDColName],sum))

Monetary <- m[,1]/Frequency

newdf <- cbind(newdf,Monetary)

return(newdf)

}

getPercentages関数・・・Recencyなどの回数に応じて、購入した顧客の割合などを計算するための関数です。

require(plyr)
getPercentages <- function(df,colNames){
  #指定した列の名前とBuyからなるベクトルの作成
  Var <- c(colNames,"Buy")
  #指定した変数とBuyが合致する列だけを抽出
  df <- df[,names(df) %in% Var,drop=F]
  
  #購買した回数に応じたデータ数を返す
  a <- ddply(df,Var,summarize,Number=length(Buy))
  #回数に応じたデータ数に対して、全体の割合を返す
  b <- ddply(a,
             .(),
             .fun=function(x){
               transform(x, Percentage=with(x,round(ave(Number,a[,names(a) %in% Var,drop=F],FUN=sum)/ave(Number,a[,names(a) %in% colNames,drop=F],FUN=sum),2)))
             })
  #1列目を除外する
  b <- b[b$Buy==1,-1]
  
  return(b)
  
}

require(plyr)

getPercentages <- function(df,colNames){

#指定した列の名前とBuyからなるベクトルの作成

Var <- c(colNames,"Buy")

#指定した変数とBuyが合致する列だけを抽出

df <- df[,names(df) %in% Var,drop=F]

#購買した回数に応じたデータ数を返す

a <- ddply(df,Var,summarize,Number=length(Buy))

#回数に応じたデータ数に対して、全体の割合を返す

b <- ddply(a,

.(),

.fun=function(x){

transform(x, Percentage=with(x,round(ave(Number,a[,names(a) %in% Var,drop=F],FUN=sum)/ave(Number,a[,names(a) %in% colNames,drop=F],FUN=sum),2)))

})

#1列目を除外する

b <- b[b$Buy==1,-1]

return(b)

}

getCLV関数・・・Recency、Frequency、Monetary、購入者の数（1人と置く）、コスト（0としている）、期間、割引率、推定したモデルをもとにCLVを計算する関数です。

getCLV<-function(r,f,m,n,cost,periods,dr,pModel){
  
  df<-data.frame(period=c(0),r=c(r),f=c(f),n=c(n),value=c(0))
  
  for(i in 1:periods){
    backstep<-df[df$period==i-1,]
    nrow<-nrow(backstep)
    for(j in 1:nrow){
      r<-backstep[j,]$r
      f<-backstep[j,]$f
      n<-backstep[j,]$n
      p<-predict(pModel,data.frame(Recency=r,Frequency=f),type='response')[1]
      buyers<-n*p
      df<-rbind(df,c(i,0,f+1,buyers,buyers*(m-cost) / (1+dr)^i))
      df<-rbind(df,c(i,r+1,f,n-buyers,(n-buyers)*(-cost)  / (1+dr)^i ))
    }
  }
  
  return(sum(df$value))
  
}

getCLV<-function(r,f,m,n,cost,periods,dr,pModel){

df<-data.frame(period=c(0),r=c(r),f=c(f),n=c(n),value=c(0))

for(i in 1:periods){

backstep<-df[df$period==i-1,]

nrow<-nrow(backstep)

for(j in 1:nrow){

r<-backstep[j,]$r

f<-backstep[j,]$f

n<-backstep[j,]$n

p<-predict(pModel,data.frame(Recency=r,Frequency=f),type='response')[1]

buyers<-n*p

df<-rbind(df,c(i,0,f+1,buyers,buyers*(m-cost) / (1+dr)^i))

df<-rbind(df,c(i,r+1,f,n-buyers,(n-buyers)*(-cost) / (1+dr)^i ))

}

return(sum(df$value))

}

データセットの読み込みと加工

#　CDNOW_SAMPLE.txtを読み込む
df <- read.table(file = "CDNOW_master.txt",header=F)

# 取引ごと且つ顧客ごとに、ID、取引日、購入金額の列からなるデータフレームを生成する
df <- as.data.frame(cbind(df[,1],df[,2],df[,4]))

# 列名の変更
names <- c("ID","Date","Amount")
names(df) <- names

#日付の型の変更
df[,2] <- as.Date(as.character(df[,2]),"%Y%m%d")

#　CDNOW_SAMPLE.txtを読み込む

df <- read.table(file = "CDNOW_master.txt",header=F)

# 取引ごと且つ顧客ごとに、ID、取引日、購入金額の列からなるデータフレームを生成する

df <- as.data.frame(cbind(df[,1],df[,2],df[,4]))

# 列名の変更

names <- c("ID","Date","Amount")

names(df) <- names

#日付の型の変更

df[,2] <- as.Date(as.character(df[,2]),"%Y%m%d")

> head(df)
  ID       Date Amount
1  1 1997-01-01  11.77
2  2 1997-01-12  12.00
3  2 1997-01-12  77.00
4  3 1997-01-02  20.76
5  3 1997-03-30  20.76
6  3 1997-04-02  19.54

> head(df)

ID Date Amount

1 1 1997-01-01 11.77

2 2 1997-01-12 12.00

3 2 1997-01-12 77.00

4 3 1997-01-02 20.76

5 3 1997-03-30 20.76

6 3 1997-04-02 19.54

再購買率とRFMとの関係

まず初めにデータセットを加工します。ロジットの推定における説明変数用のデータとして19970101〜19980228のデータを用い、被説明変数にあたる購入したかどうかのデータを19980301〜19980430のデータを用いて作ります。

# 取引期間の範囲を指定する
startDate_history <- as.Date("19970101","%Y%m%d")
endDate_history <- as.Date("19980228","%Y%m%d")

# 2ヶ月間の購入サイクルにあたる予測期間を指定する
startDate_forcast <- as.Date("19980301","%Y%m%d")
endDate_forcast <- as.Date("19980430","%Y%m%d")

# getDataFrame関数でRFMデータに変換する
history <- getDataFrame(df,startDate_history,endDate_history)
forcast <- getDataFrame(df,startDate_forcast,endDate_forcast)

# 購入サイクルを60日とし、Recencyを離散化する
history$Recency <- history$Recency %/% 60 

# Monetaryを10ドル単位で離散化する
breaks <- seq(0,round(max(history$Monetary)+9),by=10)
history$Monetary <- as.numeric(cut(history$Monetary,breaks,labels=FALSE))

# RFMのデータフレームに購入・非購入データを加える
Buy <- rep(0,nrow(history))
history <- cbind(history,Buy)

# Buyに関して、予測期間（1998/3/1~1998/4/30）の期間で再度購入しているならば1を返すようにする
history[history$ID %in% forcast$ID, ]$Buy<-1
train　<-　history

# 取引期間の範囲を指定する

startDate_history <- as.Date("19970101","%Y%m%d")

endDate_history <- as.Date("19980228","%Y%m%d")

# 2ヶ月間の購入サイクルにあたる予測期間を指定する

startDate_forcast <- as.Date("19980301","%Y%m%d")

endDate_forcast <- as.Date("19980430","%Y%m%d")

# getDataFrame関数でRFMデータに変換する

history <- getDataFrame(df,startDate_history,endDate_history)

forcast <- getDataFrame(df,startDate_forcast,endDate_forcast)

# 購入サイクルを60日とし、Recencyを離散化する

history$Recency <- history$Recency %/% 60

# Monetaryを10ドル単位で離散化する

breaks <- seq(0,round(max(history$Monetary)+9),by=10)

history$Monetary <- as.numeric(cut(history$Monetary,breaks,labels=FALSE))

# RFMのデータフレームに購入・非購入データを加える

Buy <- rep(0,nrow(history))

history <- cbind(history,Buy)

# Buyに関して、予測期間（1998/3/1~1998/4/30）の期間で再度購入しているならば1を返すようにする

history[history$ID %in% forcast$ID, ]$Buy<-1

train　<-　history

データを確認します。

> head(train)
   ID       Date Amount Recency Frequency Monetary Buy
1   1 1997-01-01  11.77       7         1        2   0
2   2 1997-01-12  12.00       6         2        5   0
8   3 1997-11-25  20.96       1         5        3   0
13  4 1997-12-12  26.48       1         4        3   0
24  5 1998-01-03  37.47       0        11        4   0
25  6 1997-01-01  20.99       7         1        3   0

> head(train)

ID Date Amount Recency Frequency Monetary Buy

1 1 1997-01-01 11.77 7 1 2 0

2 2 1997-01-12 12.00 6 2 5 0

8 3 1997-11-25 20.96 1 5 3 0

13 4 1997-12-12 26.48 1 4 3 0

24 5 1998-01-03 37.47 0 11 4 0

25 6 1997-01-01 20.99 7 1 3 0

# getPercentages関数を用いて、Recency変数に基づいて購入者の割合を計算する
colNames <- c("Recency")
p <- getPercentages(train,colNames)

# getPercentages関数を用いて、Recency変数に基づいて購入者の割合を計算する

colNames <- c("Recency")

p <- getPercentages(train,colNames)

> p
   Recency Buy Number Percentage
2        0   1   1180       0.45
4        1   1    581       0.28
6        2   1    279       0.22
8        3   1    198       0.17
10       4   1    163       0.14
12       5   1    249       0.05
14       6   1    316       0.03
16       7   1     13       0.03

> p

Recency Buy Number Percentage

2 0 1 1180 0.45

4 1 1 581 0.28

6 2 1 279 0.22

8 3 1 198 0.17

10 4 1 163 0.14

12 5 1 249 0.05

14 6 1 316 0.03

16 7 1 13 0.03

60日以内に購入した顧客（Recency=0）のうち、45%が再び購入しているようです。

# getPercentages関数を用いて、Monetary変数に基づいて購入者の割合を計算する
colNames <- c("Monetary")
p <- getPercentages(train,colNames)

# getPercentages関数を用いて、Monetary変数に基づいて購入者の割合を計算する

colNames <- c("Monetary")

p <- getPercentages(train,colNames)

> head(p,10)
   Monetary Buy Number Percentage
2         1   1     43       0.05
4         2   1    727       0.09
6         3   1    760       0.15
8         4   1    525       0.17
10        5   1    333       0.16
12        6   1    218       0.17
14        7   1    117       0.16
16        8   1     87       0.16
18        9   1     45       0.13
20       10   1     44       0.19

> head(p,10)

Monetary Buy Number Percentage

2 1 1 43 0.05

4 2 1 727 0.09

6 3 1 760 0.15

8 4 1 525 0.17

10 5 1 333 0.16

12 6 1 218 0.17

14 7 1 117 0.16

16 8 1 87 0.16

18 9 1 45 0.13

20 10 1 44 0.19

100ドル購入した顧客（Monetary=10）のうち、19%が再び購入しているようです。

# getPercentages関数を用いて、Frequency変数に基づいて購入者の割合を計算する
colNames<-c("Frequency")
p<-getPercentages(train,colNames)

# getPercentages関数を用いて、Frequency変数に基づいて購入者の割合を計算する

colNames<-c("Frequency")

p<-getPercentages(train,colNames)

> head(p,10)
   Frequency Buy Number Percentage
2          1   1    399       0.03
4          2   1    455       0.11
6          3   1    411       0.18
8          4   1    299       0.23
10         5   1    293       0.32
12         6   1    212       0.38
14         7   1    164       0.42
16         8   1    123       0.41
18         9   1    108       0.50
20        10   1     70       0.49

> head(p,10)

Frequency Buy Number Percentage

2 1 1 399 0.03

4 2 1 455 0.11

6 3 1 411 0.18

8 4 1 299 0.23

10 5 1 293 0.32

12 6 1 212 0.38

14 7 1 164 0.42

16 8 1 123 0.41

18 9 1 108 0.50

20 10 1 70 0.49

10回購入したことのある顧客（Frequency=10）は49%が再び購入しているようです。

再購買率の推定

RFM（Recency、Frequency、Monetary）のデータに基づいて、再購買率をロジスティック回帰によって推定し、予測確率を用いて顧客生涯価値を計算します。

# 再購買の割合をRecencyでロジスティック回帰
r.glm = glm(Percentage~Recency,family=quasibinomial(link='logit'),data=p)
p_r <- p

# 再購買の割合をRecencyでロジスティック回帰

r.glm = glm(Percentage~Recency,family=quasibinomial(link='logit'),data=p)

p_r <- p

> summary(r.glm)

Call:
glm(formula = Percentage ~ Recency, family = quasibinomial(link = "logit"), 
    data = p)

Deviance Residuals: 
      Min         1Q     Median         3Q        Max  
-0.085865  -0.067551   0.000333   0.041373   0.116927  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.28538    0.11395  -2.504   0.0462 *  
Recency     -0.47037    0.04035 -11.657  2.4e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 0.005805806)

    Null deviance: 1.052105  on 7  degrees of freedom
Residual deviance: 0.034439  on 6  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

> summary(r.glm)

Call:

glm(formula = Percentage ~ Recency, family = quasibinomial(link = "logit"),

data = p)

Deviance Residuals:

Min 1Q Median 3Q Max

-0.085865 -0.067551 0.000333 0.041373 0.116927

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.28538 0.11395 -2.504 0.0462 *

Recency -0.47037 0.04035 -11.657 2.4e-05 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 0.005805806)

Null deviance: 1.052105 on 7 degrees of freedom

Residual deviance: 0.034439 on 6 degrees of freedom

AIC: NA

Number of Fisher Scoring iterations: 6

# 再購買の割合を頻度でロジスティック回帰
f.glm = glm(Percentage~Frequency,family=quasibinomial(link='logit'),data=p)
p_f <- p

# 再購買の割合を頻度でロジスティック回帰

f.glm = glm(Percentage~Frequency,family=quasibinomial(link='logit'),data=p)

p_f <- p

> summary(f.glm)

Call:
glm(formula = Percentage ~ Frequency, family = quasibinomial(link = "logit"), 
    data = p)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79432  -0.03744   0.10447   0.19982   0.52309  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.48217    0.21490  -6.897 6.05e-09 ***
Frequency    0.12601    0.01139  11.067 1.67e-15 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 0.08078336)

    Null deviance: 25.652  on 55  degrees of freedom
Residual deviance:  4.053  on 54  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 7

> summary(f.glm)

Call:

glm(formula = Percentage ~ Frequency, family = quasibinomial(link = "logit"),

data = p)

Deviance Residuals:

Min 1Q Median 3Q Max

-0.79432 -0.03744 0.10447 0.19982 0.52309

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.48217 0.21490 -6.897 6.05e-09 ***

Frequency 0.12601 0.01139 11.067 1.67e-15 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 0.08078336)

Null deviance: 25.652 on 55 degrees of freedom

Residual deviance: 4.053 on 54 degrees of freedom

AIC: NA

Number of Fisher Scoring iterations: 7

# 再購買の割合をMonetaryでロジスティック回帰
m.glm = glm(Percentage~Monetary,family=quasibinomial(link='logit'),data=p)
p_m <- p

# 再購買の割合をMonetaryでロジスティック回帰

m.glm = glm(Percentage~Monetary,family=quasibinomial(link='logit'),data=p)

p_m <- p

> summary(m.glm)

Call:
glm(formula = Percentage ~ Monetary, family = quasibinomial(link = "logit"), 
    data = p)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.40487  -0.16209   0.00298   0.15201   0.96271  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.61381    0.27229  -9.599 2.53e-09 ***
Monetary     0.07482    0.01266   5.908 6.04e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 0.06566381)

    Null deviance: 4.2966  on 23  degrees of freedom
Residual deviance: 1.8027  on 22  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 5

> summary(m.glm)

Call:

glm(formula = Percentage ~ Monetary, family = quasibinomial(link = "logit"),

data = p)

Deviance Residuals:

Min 1Q Median 3Q Max

-0.40487 -0.16209 0.00298 0.15201 0.96271

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.61381 0.27229 -9.599 2.53e-09 ***

Monetary 0.07482 0.01266 5.908 6.04e-06 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasibinomial family taken to be 0.06566381)

Null deviance: 4.2966 on 23 degrees of freedom

Residual deviance: 1.8027 on 22 degrees of freedom

AIC: NA

Number of Fisher Scoring iterations: 5

RecencyとFrequencyによるロジスティック回帰

model <- glm(Buy~Recency+Frequency,family=quasibinomial(link='logit'),data=train)
pred <- predict(model,data.frame(Recency=c(0),Frequency=c(1)),type='response')

1 2	model <- glm(Buy~Recency+Frequency,family=quasibinomial(link='logit'),data=train) pred <- predict(model,data.frame(Recency=c(0),Frequency=c(1)),type='response')

> pred
        1 
0.2579282

> pred

0.2579282

顧客生涯価値の計算

推定したロジットを用いて、生涯価値を計算します。

# 3期間に関する顧客生涯価値の計算（Recency=0、Frequency=1、平均収益=100ドル、割引率=2%）
v<-getCLV(0,1,100,1,0,3,0.02,model)

1 2	# 3期間に関する顧客生涯価値の計算（Recency=0、Frequency=1、平均収益=100ドル、割引率=2%） v<-getCLV(0,1,100,1,0,3,0.02,model)

> v
[1] 63.91906

1 2	> v [1] 63.91906

それではさっそく、1998年5月〜6月のデータを用いて、今回推定した顧客生涯価値が妥当なのかどうかを確かめたいと思います。

#トレーニングデータをもとにCLVを計算する
train_pred <- cbind(train,lifetimevalue=matrix(,nrow(train),1))

pb <- txtProgressBar(min = 1, max = nrow(train_pred), style = 3)

for(i in 1:nrow(train_pred)){
  train_pred$lifetimevalue[i] <- getCLV(train_pred$Recency[i],train_pred$Frequency[i],100,1,0,3,0.02,model)
  setTxtProgressBar(pb, i) 
}

#1998年5月1日〜6月30日の間の取引データからIDと購入金額を集計する。
startDate_test <- as.Date("19980501","%Y%m%d")
endDate_test <- as.Date("19980630","%Y%m%d")
test <- getDataFrame(df,startDate_test,endDate_test)
test_monetary <- dplyr::select(test,ID,Monetary)

#予測したCLVと実際の取引金額のデータをマージする。
train_pred_2 <- data.frame(train_pred[,colnames(train_pred) %in% c("ID","lifetimevalue")])
train_pred_2 <- merge(train_pred,test_monetary,by = "ID",all=T)
train_pred_2$Monetary.y[is.na(train_pred_2$Monetary.y)] <- 0

#トレーニングデータをもとにCLVを計算する

train_pred <- cbind(train,lifetimevalue=matrix(,nrow(train),1))

pb <- txtProgressBar(min = 1, max = nrow(train_pred), style = 3)

for(i in 1:nrow(train_pred)){

train_pred$lifetimevalue[i] <- getCLV(train_pred$Recency[i],train_pred$Frequency[i],100,1,0,3,0.02,model)

setTxtProgressBar(pb, i)

}

#1998年5月1日〜6月30日の間の取引データからIDと購入金額を集計する。

startDate_test <- as.Date("19980501","%Y%m%d")

endDate_test <- as.Date("19980630","%Y%m%d")

test <- getDataFrame(df,startDate_test,endDate_test)

test_monetary <- dplyr::select(test,ID,Monetary)

#予測したCLVと実際の取引金額のデータをマージする。

train_pred_2 <- data.frame(train_pred[,colnames(train_pred) %in% c("ID","lifetimevalue")])

train_pred_2 <- merge(train_pred,test_monetary,by = "ID",all=T)

train_pred_2$Monetary.y[is.na(train_pred_2$Monetary.y)] <- 0

予測したCLVと実際の取引金額データを散布図で描き、回帰線を引く。

library(ggplot2)
g <- ggplot(train_pred_2,aes (x = lifetimevalue,y = Monetary.y))
g <- g +  geom_point(shape = 20,size = 0.8,na.rm = TRUE)
g <- g + geom_smooth(method = glm) + xlab("lifetimevalue") + ylab("Monetary")
plot(g)

library(ggplot2)

g <- ggplot(train_pred_2,aes (x = lifetimevalue,y = Monetary.y))

g <- g + geom_point(shape = 20,size = 0.8,na.rm = TRUE)

g <- g + geom_smooth(method = glm) + xlab("lifetimevalue") + ylab("Monetary")

plot(g)

CLVが上がれば、1998年5月1日〜6月30日の間（未来）の取引金額が増すような傾向が出ています。

参考情報

RFM Customer Analysis with R Language
Calculating Customer Lifetime Value with Recency, Frequency, and Monetary (RFM)

ロジスティック回帰分析に関する参考文献

ロジスティック回帰分析に関する参考文献を載せています。
限界効果についてや、多項ロジットなどについての文献もあります。

Rのパッケージ

Package ‘mfx’
http://cran.r-project.org/web/packages/mfx/mfx.pdf
限界効果を計算できるmfxパッケージ。

Package ‘mlogit’
http://cran.r-project.org/web/packages/mlogit/mlogit.pdf
多項ロジットを計算できる。

実行例

R Data Analysis Examples: Logit Regression
http://www.ats.ucla.edu/stat/r/dae/logit.htm

R Data Analysis Examples: Multinomial Logistic Regression
http://www.ats.ucla.edu/stat/r/dae/mlogit.htm