データ分析周りの情報の忘備録と研究報告の場

都内の事業会社で分析やWebマーケティングの仕事をしている「SKUE」と申します。大学・大学院では経済学を通じて統計解析を行うなどしておりました。
企業に勤めてからは、機械学習やテキストマイニングなどに関心を持つに至りました。

このブログでは、今後仕事で使いたいなと思うような情報をメインに扱っています。仕事で使ったものは載せれないので、できるだけ先回りして面白いものを扱っていけたらなと思います。

スライドシェアなど

実務と論文で学ぶジョブレコメンデーション最前線2022 from Teruyuki Sakaue

警察庁オープンデータで交通事故の世界にDeepDive！ from Teruyuki Sakaue

[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み from Teruyuki Sakaue

データ分析ランチセッション#24 OSSのAutoML~TPOTについて from Teruyuki Sakaue

[第11回]データ分析ランチセッション – モダンな機械学習データパイプラインKedroを触ってみる from Teruyuki Sakaue

[DSO] Machine Learning Seminar Vol.2 Chapter 3 from Teruyuki Sakaue

[第6回]データ分析ランチセッション – Camphrでモダンな自然言語処理 from Teruyuki Sakaue

[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2 from Teruyuki Sakaue

地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16 from Teruyuki Sakaue

[DSO]勉強会_データサイエンス講義_Chapter8 from tatsuyasakaeeda

データサイエンス講義第4章スパムフィルタ、単純ベイズ、データラングリング from tatsuyasakaeeda

流行りの分散表現を用いた文書分類について Netadashi Meetup 7 from Teruyuki Sakaue

HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1 from Teruyuki Sakaue

Marketing×Python/Rで頑張れる事例16本ノック from Teruyuki Sakaue

過去の記事一覧

・仕事用にTransformer/BERTの情報をまとめる
 ・FacebookのMMMのOSS「Robyn」のチュートリアルさわってみた
 ・ディリクレNBDモデルのマーケティング分野での適用に関して色々調べてみた
 ・データサイエンティストがオブジェクト指向を学んでみた際のメモ〜scikit-learnの作法を知る
 ・Flaskでイコちゃんペリー画像分類器の予測結果を返す
 ・OpenCVで遊んだり、Kerasで「かものはしペリー」と「イコちゃん」の画像分類をするの巻
 ・各業界でのデータサイエンスの活用について調べてみた（随時追加）
・今さら”Recommendations as Treatments: Debiasing Learning and Evaluation”を読みソースコードを眺めるなど
 ・警察庁オープンデータの前処理と死亡事故発生予測のための機械学習について
 ・Bias Correction For Paid Search In Media Mix Modeling[A4一枚まで備忘録]
・[PRの巻]RユーザのためのRStudio[実践]入門（改訂2版）
・Bayesian Methods for Media Mix Modeling with Carryover and Shape Effects[A4一枚まで備忘録]
・Recommender Systems: The Textbookの要点まとめ(随時更新)
・[Python]Music×AnalyticsというイベントでLTをやってきましたレポート
 ・[Python]仕事で使えそうな確率まとめ
 ・[Python]スペクトグラムで楽器の試奏データを比較（プロ奏者とも）
・[Python]データ分析業務で使いそうなコードまとめ(随時更新)
・Uncertainty in Gradient Boosting via Ensembles[A4一枚まで備忘録]
・[Python]音声解析でトランペットの録音データを可視化してみる
 ・[数理統計学]統計的検定のまとめ
 ・[数理統計学]統計的推定のまとめ
 ・BLSTMを用いた文書分類でデザイナーズマンション予測に再挑戦
 ・[数理統計学]正規分布から導かれる分布(カイ二乗分布/t分布/F分布)の期待値と分散の導出まとめ
 ・[R]ボージョレ・ヌーボーのコメントに対してLDATSパッケージを使って時系列トピックモデルを扱う
 ・RStudioをdockerで使える、Rockerを触ってみた
 ・2019年に読んだデータ分析系の本の振り返り（21+1冊）
・R advent calendar 2019 RSelenium、jpmesh、sfパッケージで東京23区の事故物件を分析してみよう！
・[数理統計学]連続型確率分布の期待値と分散の導出まとめ
 ・[数理統計学]離散分布の期待値と分散の導出まとめ
 ・[Stan]ロジスティック回帰の階層ベイズモデルとk-foldsクロスバリデーション
 ・Causal Inference in Economics and Marketingを（今更）読んだ感想と備忘録
 ・[Python]機械学習などでテキストデータを特徴量にする際のソースコード集
 ・ベイジアン線形回帰モデルの式変形とRでのギブスサンプリングの適用
 ・[Stan]生存時間分析のコードと便利なデータセットについて
 ・[Stan]項目反応理論(IRT)の段階反応モデルでbaysemのアンケートデータの分析をしてみる
 ・データアナリストがBIダッシュボードのお手伝いをする前の調べ物
 ・Python/Rもくもく会をプライベートで開催するための参考図書・資料をまとめる
 ・Uplift Modeling用のパッケージtools4upliftを使ってみた
 ・ABEJA SIX 2019の1日目に行ってきましたレポート
 ・RのContextualパッケージをいじってみた際のメモ書き
 ・Rでオペレーションズ・リサーチ(OR)に関する情報をあさる/コード付き
 ・2018年に参加したデータ分析系の勉強会で得た知識の詰め合わせ
 ・R Advent Calendar 2018 一発屋芸人の検索トレンドの分析
 ・参加できなかった第74回TokyoRのキャッチアップと結婚式について
 ・学習済み分散表現を用いた文書分類に挑戦（一部再学習も）
・pyreaperで音声データのピッチを掴むためのメモ書き（F0の抽出）
・rstanarmパッケージを使って簡単にベイズモデリングを実行する
 ・Stanで順序プロビット(Ordered Probit)の推定のためのメモ書き
 ・Bayesian Statistics and Marketing – 混合ガウス×階層モデルのマーガリン購買データへの適用
 ・Bayesian Statistics and Marketingの5章 – 家計の異質性を考慮した階層ベイズモデル
 ・蒙古タンメン中本コーパスに対してのLDAの適用とトピック数の探索
 ・Word2Vecを用いて蒙古タンメン中本の口コミ評価を予測してみる
 ・「NOSQLの基礎知識」を読んで基礎知識を養う
 ・データアナリストもLinuxについて学んでみる
 ・LIMEで赤ワインのデータをいじってみる with Python
・深層学習のマーケティング適用事例をarXivから漁る
 ・R Advent Calendar 2017 rvestを用いてポケモンデータをスクレイピング&分析してみた
 ・分散表現を特徴量として文書分類するための方法について調べてみた
 ・階層ベイズモデルの直帰率分析への適用 with rstan
・確率的プログラミングライブラリ「Edward」まとめ
 ・RのFactoRizationMachinesパッケージを用いたFMのページビューデータへの適用
 ・非負値行列因子分解(NMF)でブログ記事のレコメンドをしてみる
 ・人工知能学会全国大会2017のWebマーケティングで参考になりそうな研究9選
 ・Kaggleで使われた特徴量エンジニアリングとアルゴリズムまとめ
 ・ベイジアンネットワークをRのbnlearnパッケージで推定して予測してみる
 ・洋楽の歌詞データでDoc2vecを実行してみる
 ・Billboard100位以内の楽曲の歌詞情報にLDAを適用してみた
 ・某洋楽ヒットチャートの週次ランキングデータをBeautiful Soupで集めてみた
 ・ラーメン二郎の某飲食店レビューサイトデータに対して共分散構造分析をしてみる
 ・RStanで学部時代の研究を振り返ってみる
 ・データマイニングに関するSlideShareを大量に集めてみた#2
・SlideShareの機械学習に関するスライドを大量に集めてみた
 ・言語処理学会第23回年次大会〜Webマーケティングで使えそうな発表資料まとめ〜
・PythonやRを用いたアルゴリズム取引・株価分析まとめ
 ・Rで株価の時系列データを簡単に集計する
 ・顧客生涯価値(CLV)の計算 with R
・Japan.R 2016のスライドまとめ
 ・『マーケティング・サイエンス入門』に出てくる手法をRで実行してみる
 ・Cloud Vision APIをRで動かしてみる
 ・大学におけるStanの講義資料などを探してみた
 ・ExploratoryをさわってRでGoogleSearchConsoleのデータを集計・可視化
 ・scikit-learnのモジュールのGitHubでの利用頻度を調べてみた
 ・統計的因果推論に関するスライドとRのサンプルコード
 ・XGBoostのパラメータチューニング実践 with Python
・不均衡なデータの分類問題について with Python
・Tokyo.R#53で得たパッケージ情報とその実践
 ・XGBoostやパラメータチューニングの仕方に関する調査
 ・GensimのHDP(Hierarchical Dirichlet Process)をクラシック音楽情報に対して試してみる
 ・Word2Vecでクラシックの楽曲情報をコーパスとして類似度を出してみる
 ・iPython notebookチャレンジ(カイ二乗検定)
・RstanでCVRの前後比較をするためのコード
 ・ディープラーニングの基礎まとめ
 ・OS X YosemiteへのTensorFlowのインストールと簡易な分類モデルの実行
 ・RのChannelAttributionパッケージでマルコフ連鎖モデルのアトリビューション分析にチャレンジ
 ・LDA（潜在的ディリクレ配分法）まとめ手法の概要と試行まで
 ・Rのleafletパッケージを使って蒙古タンメン中本をプロットしてみた
 ・Japan.R 2015に参加して得た情報まとめ
 ・RstanでGoogleトレンドの推定
 ・推薦システムに関する参考情報
 ・統計解析の学習用動画まとめ
 ・Sparkの仕組み・導入メリット・インストール方法など
 ・多腕バンディットモデルに関する参考文献
 ・状態空間モデルに関する参考文献
 ・ロジスティック回帰分析に関する参考文献
 ・テキストマイニングに関する参考文献
 ・Rstanの参考文献（インストール・使い方・実践）
・海外のマーケティング系ジャーナルまとめ
 ・サポートベクターマシン(SVM)のまとめ・参考文献