・Contextual Bandit問題とは
・推薦システムにおけるコールドスタート問題:ネットフリックスが情報推薦の際にContextual Banditを適用
また、マーケティングとは違いますが、株価のトレーディングの際にバンディットアルゴリズムを使っているという事例(Bandits and Stocks)が当然ながらあるようです。
『バンディット問題の理論とアルゴリズム』を読む上で前提となっていそうな知識として、スタンフォード大学の講義資料(CS229 Supplemental Lecture notes Hoeffding’s inequality)を運良く見つけることが出来たので、これをもとに学ぶと理解が捗ると思います。
- 概要:スロットを回す回数のうち、一定割合(ε)をスロットの探索に当て、残りの期間を良いとされるスロットを回し続ける。
- メリット:実装が容易でシステムに組み込み易い
- デメリット:期待値が悪いスロットも良いスロットも同じ回数引いてしまうので性能が悪くなる。スロットの種類が多い際はより一層悪くなりやすい。
UCB(Upper Confidence Bound)方策
- 概要:標本平均に補正項を足した、UCBスコアを各時点ごとに計算し、最もスコアが高いスロットを回す。なお、補正項は選択回数の少ないスロットに対して大きくなります。
- メリット:ε-貪欲法と異なり、リグレットの上限がεなどの水準に左右されない。ハイパーパラメータが少ない。
- デメリット:真の期待値についての信頼区間を求めることは本質的ではない。
- 概要:KLダイバージェンスを用いてUCBスコアを計算し、最もスコアが高いスロットを回す。
- メリット:KLダイバージェンスを様々なモデルに応じて置き換えることができるなど、柔軟性がある。
- デメリット:KLダイバージェンスの逆関数を計算する必要があり、毎回ニュートン法などを適用する必要がある。
MED(Minimum Empirical Divergence)方策
- 概要:期待値最大である際の尤度が一定以上のスロットを回すという方策。
- メリット:KLダイバージェンスの逆関数を計算する必要がない。
- デメリット:KL-UCBよりも性能が悪い。IMEDという方策であればその弱点を克服している。
- 概要:期待値最大でないスロットの選択数の期待値を近似的に最小化するという取り組みを、ベイズ統計の枠組みで行ったもの。
- メリット:経験的に高い性能となりやすい。
- デメリット:?
Contextual Bandit問題とは
ユーザーの各行動の特徴量が時刻により異なる値を取ることを許すという設定を、文脈付きバンディット(Contextual Bandit)と呼びます。
つまり、Contextual Banditは時刻により異なるユーザーの特徴量が与えられたもとでの、利得の期待値の最大化問題となります。
このContextual Banditにおいても、先程あげたようなリグレットを最小にするような様々な方策があります。LinUCB方策や、線形モデルのトンプソン抽出、ロジスティック回帰モデルのバンディットなどです。
にコードがありました。Bandit Algorithms for Website Optimizationという書籍に登場してきている例をRで実行できるサンプルです。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 |
library(contextual) # Bandit algorithms for website optimization ----------------------------------------------------------------- ## Simulation of the multi-armed Bandit examples in ## of "Bandit algorithms for website optimization" ## by John Miles White. # The code from the book chooses the arm with the first index when all arms are equal. # Contextuals policies correctly picks one of the max arms. # That's why the plots below are slightly different from the book - they are correct, though. # Chapter 4 - Debugging and epsilon greedy ------------------------------------------------------------------- prob_per_arm <- c(0.1, 0.1, 0.1, 0.1, 0.9) horizon <- 250 simulations <- 5000 bandit <- BasicBernoulliBandit$new(prob_per_arm) agents <- list(Agent$new(EpsilonGreedyPolicy$new(0.1), bandit, "Epsilon = 0.1"), Agent$new(EpsilonGreedyPolicy$new(0.2), bandit, "Epsilon = 0.2"), Agent$new(EpsilonGreedyPolicy$new(0.3), bandit, "Epsilon = 0.3"), Agent$new(EpsilonGreedyPolicy$new(0.4), bandit, "Epsilon = 0.4"), Agent$new(EpsilonGreedyPolicy$new(0.5), bandit, "Epsilon = 0.5")) simulation <- Simulator$new(agents, horizon, simulations) history <- simulation$run() # Figure 4-2. How often does the epsilon greedy algorithm select the best arm? plot(history, type = "optimal", legend_position = "bottomright", ylim = c(0,1)) # Figure 4-3. How much reward does the epsilon greedy algorithm earn on average? plot(history, type = "average", regret = FALSE, legend_position = "bottomright", ylim = c(0,1)) # Figure 4-4. How much reward has the epsilon greedy algorithm earned by trial t? plot(history, type = "cumulative", regret = FALSE) # Chapter 5 - Softmax ---------------------------------------------------------------------------------------- agents <- list(Agent$new(SoftmaxPolicy$new(0.1), bandit, "Tau = 0.1"), Agent$new(SoftmaxPolicy$new(0.2), bandit, "Tau = 0.2"), Agent$new(SoftmaxPolicy$new(0.3), bandit, "Tau = 0.3"), Agent$new(SoftmaxPolicy$new(0.4), bandit, "Tau = 0.4"), Agent$new(SoftmaxPolicy$new(0.5), bandit, "Tau = 0.5")) simulation <- Simulator$new(agents, horizon, simulations) history <- simulation$run() # Figure 5-2. How often does the softmax algorithm select the best arm? plot(history, type = "optimal", legend_position = "bottomright", ylim = c(0,1)) # Figure 5-3. How much reward does the softmax algorithm earn on average? plot(history, type = "average", regret = FALSE, legend_position = "bottomright", ylim = c(0,1)) # Figure 5-4. How much reward has the softmax algorithm earned by trial t? plot(history, type = "cumulative", regret = FALSE) # Chapter 6 - UCB -------------------------------------------------------------------------------------------- agents <- list(Agent$new(SoftmaxPolicy$new(0.1), bandit, "Softmax"), Agent$new(EpsilonGreedyPolicy$new(0.1), bandit, "EpsilonGreedy"), Agent$new(UCB1Policy$new(), bandit, "UCB1")) simulation <- Simulator$new(agents, horizon, simulations) history <- simulation$run() # Figure 6-3. How often does the UCB algorithm select the best arm? plot(history, type = "optimal", legend_position = "bottomright", ylim = c(0,1)) # Figure 6-4. How much reward does the UCB algorithm earn on average? plot(history, type = "average", regret = FALSE, legend_position = "bottomright", ylim = c(0,1)) # Figure 6-5. How much reward has the UCB algorithm earned by trial t? plot(history, type = "cumulative", regret = FALSE) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 |
library(contextual) library(data.table) # Import personalization data-set # Info: https://d1ie9wlkzugsxr.cloudfront.net/data_irecsys_CARSKit/Movie_DePaulMovie/README.txt url <- "http://d1ie9wlkzugsxr.cloudfront.net/data_irecsys_CARSKit/Movie_DePaulMovie/ratings.csv" data <- fread(url, stringsAsFactors=TRUE) # Convert data data <- contextual::one_hot(data, cols = c("Time","Location","Companion"), sparsifyNAs = TRUE) data[, itemid := as.numeric(itemid)] data[, rating := ifelse(rating <= 3, 0, 1)] # Set simulation parameters. simulations <- 10 # here, "simulations" represents the number of boostrap samples horizon <- nrow(data) # Initiate Replay bandit with 10 arms and 100 context dimensions log_S <- data formula <- formula("rating ~ itemid | Time_Weekday + Time_Weekend + Location_Cinema + Location_Home + Companion_Alone + Companion_Family + Companion_Partner") bandit <- OfflineBootstrappedReplayBandit$new(formula = formula, data = data) # Define agents. agents <- list(Agent$new(RandomPolicy$new(), bandit, "Random"), Agent$new(EpsilonGreedyPolicy$new(0.03), bandit, "EGreedy 0.05"), Agent$new(ThompsonSamplingPolicy$new(), bandit, "ThompsonSampling"), Agent$new(LinUCBDisjointOptimizedPolicy$new(0.37), bandit, "LinUCB 0.37")) # Initialize the simulation. simulation <- Simulator$new( agents = agents, simulations = simulations, horizon = horizon ) # Run the simulation. # Takes about 5 minutes: bootstrapbandit loops for arms x horizon x simulations (times nr of agents). sim <- simulation$run() # plot the results plot(sim, type = "cumulative", regret = FALSE, rate = TRUE, legend_position = "topleft", ylim=c(0.48,0.87)) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
library(contextual) library(data.table) library(splitstackshape) # Movielens 100k --------------------------------------------------------------------------------------------- # Info: https://d1ie9wlkzugsxr.cloudfront.net/data_movielens/ml-100k/ml-100k-README.txt movies_dat <- "http://d1ie9wlkzugsxr.cloudfront.net/data_movielens/ml-100k/u.item" ratings_dat <- "http://d1ie9wlkzugsxr.cloudfront.net/data_movielens/ml-100k/u.data" # Import and merge files movies_dat <- fread(movies_dat, sep = "|", quote="") setnames(movies_dat, c("V1", "V2"), c("MovieID", "Name")) movies_dat[, (3:5) := NULL ] ratings_dat <- fread(ratings_dat, quote="") setnames(ratings_dat, c("V1", "V2", "V3", "V4"), c("UserID", "MovieID", "Rating", "Timestamp")) all_movies <- ratings_dat[movies_dat, on=c(MovieID = "MovieID")] rm(movies_dat,ratings_dat) # Data wrangling --------------------------------------------------------------------------------------------- count_movies <- all_movies[,.(MovieCount = .N), by = MovieID] top_50 <- as.vector(count_movies[order(-MovieCount)][1:50]$MovieID) not_50 <- as.vector(count_movies[order(-MovieCount)][51:nrow(count_movies)]$MovieID) top_50_movies <- all_movies[MovieID %in% top_50] # User features: tags they've watched for non-top-50 movies normalized per user user_features <- all_movies[MovieID %in% not_50] rm(all_movies) user_features[, c("MovieID", "Rating", "Timestamp", "Name"):=NULL] user_features <- user_features[, lapply(.SD, sum, na.rm=TRUE), by=UserID ] user_features[, total := rowSums(.SD, na.rm = TRUE), .SDcols = 2:20] user_features[, 2:20 := lapply(.SD, function(x) x/user_features$total), .SDcols = 2:20] user_features$total <- NULL # Add user features to top50 top_50_movies <- top_50_movies[user_features, on=c(UserID = "UserID")] top_50_movies <- na.omit(top_50_movies) rm(user_features, not_50, top_50, count_movies) top_50_movies[, choice := as.numeric(as.factor(MovieID))] top_50_movies[, reward := ifelse(Rating <= 4, 0, 1)] # Run simulation --------------------------------------------------------------------------------------------- simulations <- 1 horizon <- nrow(top_50_movies) formula <- formula("reward ~ choice | i.V6 + i.V7 + i.V8 +i.V9 + i.V10 + i.V11 + i.V12 + i.V13 + i.V14 + i.V15 + i.V16 + i.V17 + i.V18 + i.V19 + i.V20 + i.V21 + i.V22 + i.V23 + i.V24") bandit <- OfflineBootstrappedReplayBandit$new(formula = formula, data = top_50_movies) agents <- list(Agent$new(ThompsonSamplingPolicy$new(), bandit, "Thompson"), Agent$new(RandomPolicy$new(), bandit, "Random"), Agent$new(LinUCBDisjointOptimizedPolicy$new(2.05), bandit, "LinUCB Dis")) simulation <- Simulator$new( agents = agents, simulations = simulations, horizon = horizon ) sim <- simulation$run() plot(sim, type = "cumulative", regret = FALSE, rate = TRUE, legend_position = "bottomright") |
2~3年前に、Tokyo Web Miningの懇親会でContextual Banditの論文いいぞとテラモナギさんが紹介していて、へー、そんなのあるんだと、「へー」の域を出なかったんですが、一歩前進した気がします。先人が切り開いた道を2~3年後に舗装されてから通るというのも遅いなと感じられるので、残業もっと減らして勉強時間増やしたいと思います。
バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)
Bandit Algorithms for Website Optimization: Developing, Deploying, and Debugging
Contextual package ~ Japan.R Shota Yasui
Package ‘contextual’
バンディットアルゴリズムの復習3:UCB(Upper Confidence Bound)