2018年に参加したデータ分析系の勉強会で得た知識の詰め合わせ

社内に分析チームがないことから、私は月に3~4件は刺激を求めて勉強会に足を運んでいます。新しい知見を得れることは然ることながら、社内だともらえないフィードバックをいただけたり、課題の共有などをできるのが良いと思います。

目の肥えた皆さんにとって新規性のある情報はあまりないかもしれませんが、詰め合わせた情報をお楽しみください。

統計学まわり

  • 勉強会名
    KDD論文読み会

論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments 」

機械学習まわり

  • 勉強会名
    merpay×M3 機械学習 NIGHT

    • 会社名
      M3
    • 知見
      コンテンツをレコメンドする際のテクニックとして、MFとCNNの合わせ技について紹介されていました。訓練時には、アクセスログデータをもとにMFで潜在的な表現を抽出しそれのアイテム間の類似度を計算し、推薦時には、テキストのタイトルとキーワードなどをCNNで学習し訓練時と同じ次元になるようにアイテムのベクトルを出力する。そして、訓練時のものと近いアイテムを推薦することでCold-Start問題を克服するとのことでした。
    • 発表資料
      Matrix Factorization と Text CNN による Cold Start Problem への取り組み

The Road to Machine Learning Engineer from Data Scientist

  • 勉強会名
    NetaDashi Meetup

    • 会社名
      NRI
    • 知見
      Elmoを用いた文書分類。Word2Vecなどではできなかった、文脈を考慮して類似度などを算出できる。
      Elmoの多言語対応に関しては、このGitHubを参照すると良いらしい。
      https://github.com/HIT-SCIR/ELMoForManyLangs

異常検知の評価指標って何を使えばいいの? / Metrics for one-class classification

  • 勉強会名
    グリー開発本部 Meetup #1 DataEngConf NYC報告会

    • 会社名
      GREE
    • 知見
      Contextual Banditについての紹介
      Artwork Personalization at Netflix」という記事で2017年ごろに取り上げられていたようです。

エンジニアリングまわり

  • 勉強会名
    グリー開発本部 Meetup #1 DataEngConf NYC報告会

    • 会社名
      GREE
    • 知見
      LUIJI
      ・メリットとしては、少なくとも以下のものがあるそうな。
       ・Pythonで書ける
       ・エラーの途中で処理を止めて、それを解消したら、止めたポイントから開始できる
       ・様々なツール群と連携できる柔軟性
       ・10行程度でスクリプト書ける。
       ・複雑な依存関係も描ける。
    • 発表資料
      https://www.slideshare.net/greetech/dataengconf-nyc18-1

  • 勉強会名
    bq_sushi tokyo #9 2018総集編

    • 会社名
      オープンハウス
    • 知見
      BigQueryGIS
      BigQueryからGISの情報を扱うことが可能になったらしい。顧客の希望する物件の情報をレコメンドするために地理情報を扱うらしいです。
      ただ、基準とする測地系が国によって異なり、それらを考慮しないで推薦すると1~2kmはズレてしまうとのこと。家買う際にそんだけズレるとキツイですね。こちら(BigQueryGIS: Google und PostGIS )はBigQueryGISに関連した情報を漁って見つけた記事ですが、BQで抽出した情報をそのままGoogleMapに表示できるのは面白いですね。

データ分析のツラミ系

  • 勉強会名
    merpay×M3 機械学習 NIGHT

    • 会社名
      M3
    • 知見
      メタデータの検索システムについて
      データセット名、テーブル名、カラム名、カラムのディスクリプションをキーワードで検索できる。
      日次でディスクリプションを取ってくるようにしている。どのドキュメントが一番見られているのかもモニタリングできるとのこと。似たような取り組みとして、リクルートがMetaLookingとかいう内製ツールを作っていたりしますね。私は各サービスごとのDBのテーブルの注意点などを適宜スプレッドシートに残す程度しかしていませんが、分析者がすぐにキャッチアップできる環境は重要ですね。

  • 勉強会名
    MLCT

    • 会社名
      ???
    • 知見
      事業計画書を作るリーンキャンバスの機械学習版とも言える、機械学習キャンバス0.1というものが質疑応答の際に紹介されていました。

  • 勉強会名
    グリー開発本部 Meetup #1 DataEngConf NYC報告会

    • 会社名
      GREE
    • 知見
      データリーク問題はどこも苦しんでいる?
      SalesForce社が顧客企業15万社の情報を活用して、機械学習モデルを構築しようとしたが、
      蓄積されたデータにおいては、ビジネスプロセスをやたらと予測できてしまうようなデータリーク問題が起きまくっていた。
      原因としては、データサイエンティスト不足(分析を前提としたデータ蓄積ができていない。)、手入力によるラベリングミスなどがあるらしい。
      どこの企業も苦しんでいると思うと、分析を前提にスナップショットを残し続けるという取り組みは競争優位性につながるのだろうか。
      SalesForce社は、訓練と検証の精度の差が大きいと注意したり時系列データを確認するなどして、データの信憑性に気をつけてモデルを作ったそうです。
      15万社にうまくフィットするモデルなので、精度は70~75%で満足できるものらしい。
    • 発表資料
      https://www.slideshare.net/greetech/dataengconf-nyc18-1

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です