社内に分析チームがないことから、私は月に3~4件は刺激を求めて勉強会に足を運んでいます。新しい知見を得れることは然ることながら、社内だともらえないフィードバックをいただけたり、課題の共有などをできるのが良いと思います。
目の肥えた皆さんにとって新規性のある情報はあまりないかもしれませんが、詰め合わせた情報をお楽しみください。
統計学まわり
- 勉強会名
KDD論文読み会- 会社名
LINE - 知見
Winner’s Curse Bias(勝者の呪いバイアス)という問題を回避するための効果検証のアプローチで、ABテストに勝とうが負けようがテストごとに負債を負っていくモデルとされています。100回ABテストやって99回負けたら99回分の負債を計算した上で、累積の価値貢献額を見積もろうという仕組みのようです。 - 発表資料
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments 」
- 会社名
- 勉強会名
KDD論文読み会- 会社名
LINE - 知見
因果推論に関するチュートリアルの文献を知れた
Tutorial on Causal Inference and Counterfactual Reasoning
DoWhyライブラリについても語られていたので、関連リンクも。
統計的因果推論のためのPythonライブラリDoWhyについて解説:なにができて、なにに注意すべきか
- 会社名
機械学習まわり
- 勉強会名
merpay×M3 機械学習 NIGHT- 会社名
M3 - 知見
コンテンツをレコメンドする際のテクニックとして、MFとCNNの合わせ技について紹介されていました。訓練時には、アクセスログデータをもとにMFで潜在的な表現を抽出しそれのアイテム間の類似度を計算し、推薦時には、テキストのタイトルとキーワードなどをCNNで学習し訓練時と同じ次元になるようにアイテムのベクトルを出力する。そして、訓練時のものと近いアイテムを推薦することでCold-Start問題を克服するとのことでした。 - 発表資料
Matrix Factorization と Text CNN による Cold Start Problem への取り組み
- 会社名
- 勉強会名
MLCT- 会社名
LINE - 知見
GBDTの木の結果として得られるノード自体を特徴量として、予測を行う。特徴量圧縮に繋がり、予測の精度に関しても遜色ないらしい。 - 発表資料
The Road to Machine Learning Engineer from Data Scientistの32ページ目
- 会社名
The Road to Machine Learning Engineer from Data Scientist
- 勉強会名
NetaDashi Meetup- 会社名
NRI - 知見
Elmoを用いた文書分類。Word2Vecなどではできなかった、文脈を考慮して類似度などを算出できる。
Elmoの多言語対応に関しては、このGitHubを参照すると良いらしい。
https://github.com/HIT-SCIR/ELMoForManyLangs
- 会社名
- 勉強会名
NetaDashi Meetup- 会社名
??? - 知見
異常検知の評価指標についてのお話でした。訓練データは正常なデータだけで、テストが異常かどうかを知りたいというユースケースで、Lee-Liu metricと呼ばれる評価指標があるそうです。ベイズの定理を使っているらしい。
それを計算するためのkenchiというPythonモジュールもある。
https://kenchi.readthedocs.io/en/latest/_modules/kenchi/metrics.html - 発表資料
https://speakerdeck.com/yohrn/metrics-for-one-class-classification
- 会社名
異常検知の評価指標って何を使えばいいの? / Metrics for one-class classification
- 勉強会名
グリー開発本部 Meetup #1 DataEngConf NYC報告会- 会社名
GREE - 知見
Contextual Banditについての紹介
「Artwork Personalization at Netflix」という記事で2017年ごろに取り上げられていたようです。
- 会社名
エンジニアリングまわり
- 勉強会名
グリー開発本部 Meetup #1 DataEngConf NYC報告会- 会社名
GREE - 知見
LUIJI
・メリットとしては、少なくとも以下のものがあるそうな。
・Pythonで書ける
・エラーの途中で処理を止めて、それを解消したら、止めたポイントから開始できる
・様々なツール群と連携できる柔軟性
・10行程度でスクリプト書ける。
・複雑な依存関係も描ける。 - 発表資料
https://www.slideshare.net/greetech/dataengconf-nyc18-1
- 会社名
- 勉強会名
bq_sushi tokyo #9 2018総集編- 会社名
オープンハウス - 知見
BigQueryGIS
BigQueryからGISの情報を扱うことが可能になったらしい。顧客の希望する物件の情報をレコメンドするために地理情報を扱うらしいです。
ただ、基準とする測地系が国によって異なり、それらを考慮しないで推薦すると1~2kmはズレてしまうとのこと。家買う際にそんだけズレるとキツイですね。こちら(BigQueryGIS: Google und PostGIS )はBigQueryGISに関連した情報を漁って見つけた記事ですが、BQで抽出した情報をそのままGoogleMapに表示できるのは面白いですね。
- 会社名
データ分析のツラミ系
- 勉強会名
merpay×M3 機械学習 NIGHT- 会社名
M3 - 知見
メタデータの検索システムについて
データセット名、テーブル名、カラム名、カラムのディスクリプションをキーワードで検索できる。
日次でディスクリプションを取ってくるようにしている。どのドキュメントが一番見られているのかもモニタリングできるとのこと。似たような取り組みとして、リクルートがMetaLookingとかいう内製ツールを作っていたりしますね。私は各サービスごとのDBのテーブルの注意点などを適宜スプレッドシートに残す程度しかしていませんが、分析者がすぐにキャッチアップできる環境は重要ですね。
- 会社名
- 勉強会名
MLCT- 会社名
??? - 知見
事業計画書を作るリーンキャンバスの機械学習版とも言える、機械学習キャンバス0.1というものが質疑応答の際に紹介されていました。
- 会社名
機械学習キャンバス0.1 from nishio
- 勉強会名
グリー開発本部 Meetup #1 DataEngConf NYC報告会- 会社名
GREE - 知見
データリーク問題はどこも苦しんでいる?
SalesForce社が顧客企業15万社の情報を活用して、機械学習モデルを構築しようとしたが、
蓄積されたデータにおいては、ビジネスプロセスをやたらと予測できてしまうようなデータリーク問題が起きまくっていた。
原因としては、データサイエンティスト不足(分析を前提としたデータ蓄積ができていない。)、手入力によるラベリングミスなどがあるらしい。
どこの企業も苦しんでいると思うと、分析を前提にスナップショットを残し続けるという取り組みは競争優位性につながるのだろうか。
SalesForce社は、訓練と検証の精度の差が大きいと注意したり時系列データを確認するなどして、データの信憑性に気をつけてモデルを作ったそうです。
15万社にうまくフィットするモデルなので、精度は70~75%で満足できるものらしい。 - 発表資料
https://www.slideshare.net/greetech/dataengconf-nyc18-1
- 会社名