自身の結婚式があったため、参加できなかった第74回目のTokyoRについてキャッチアップするために、公開資料を読んだ際に感じたメモをここに記します。
そして、世のデータサイエンティストが結婚式の際に苦しまないように参考になりそうな情報を少し書きました。
今回はTogetterも初めて作ってみました。(第74回R勉強会@東京(#TokyoR)のタグが付いたものたち)
初心者セッション
初心者セッション1 – Data Import & Export –
資料なし
初心者セッション2 – Data Handling –
https://ymattu.github.io/TokyoR74/slide.html#/
いつもながら良い資料です。まだ社内でアクティブにRを広めてはいないですが、広めるならこの資料が良いですね。
上から下に直感的に書けるのは初学者には大事なので。
ただ、SQLの知識がないメンバーとかには補助教材が必要ですね。
登場するパッケージはdplyrとlubridateとstringrとforcatsとpurrr。
初心者セッション3 – Plot & Visualization –
資料なし
応用セッション
How LINE Corp Use R to Compete in a Data-Driven World
資料なし
LINEでのRの活用最前線の話なのでしょうが、資料がないのが寂しいです。
きっと、タイムラインで共有されていたこの記事をベースに話されているのではないか。
LINE の全社員が必要に応じて担当サービスのデータを分析できる環境の構築
- 総勢50名の機械学習エンジニア・データサイエンティスト・データプランナー・データエンジニアが活躍できる分析基盤を作っていますよと。
- Hadoop クラスタのデータの全社公開&活用のために、エンドユーザ向けのWebインターフェース「OASIS」をゼロから新規に開発。
Spark, Spark SQL, PySpark, SparkRおよびPrestoクエリを叩くことができる。
約20のサービス・部署で利用され、月間利用者数は約200人(データ関連の人以外で150人は触っていることになる。すごく層が厚そう。)
あと、ブリスベンの写真がTwitterで写り込んでいたので、UseR!2018のお話をされているのだろうと思われます。
linerパッケージについても語られている模様。
UseR!2018に参加し、社内Rパッケージ「liner」の活用事例を紹介しました
これのことでしょう。写真も合致している。
「いらすとや」の画像がワールドワイドに使われているのがシュールでいいですね。
「データの取得、分析、レポーティング、そして結果の共有にいたるまで、様々な便利機能を提供」と書かれています。
図を見る限りは、
- RStudioでの解析結果をDBにカジュアルに保存したり、通知したり、ドキュメント化したりできる
- PrestoやらHiveQLなどもRStudio上で実行できる(Tab補完とかもしてくれるんでしょうか?そこは聞いてみないとわからない。)
- コーポレートカラーを適用したggplot2を利用できる
- A/Bテストの結果をShinyのアプリで確認できる
などの機能があるようです。50人もいる高単価な人達の時間を節約できるという点でも、すごくインパクトのある取り組みですね。
tidyeval入門以前
(speakerdeckのembedに若干苦戦しましたw)
湯谷さんの考えるtidyevalについて英語で書かれています。
環境に応じた値をRは自動で引っ張ってくるけど、たまに干渉してしまうことがあり、実際dplyrとstatsは共にfilter()関数を持っていると。
どの優先順位をもたせるかのコントロールって難しそうですね。
干渉を避けるためにquosureやunquoteというのが説明されています。私の理解が追いついていないので、正直めちゃわかった感はないのですが、
様々な環境下で動くパッケージを作ろうと考える際は不可避な領域なのではないでしょうか。
LT
「うまい飯が作りたい」
recipesパッケージの紹介です。面白い方なんですね。
tidymodelsパッケージの中に内包されているそうな。
recipesパッケージの使い方を丁寧に説明してくださっています。
目的変数と説明変数を最初に明示的に指定し、前処理の手法をパイプ演算子でつないでいくだけ。
前処理のステップは使い回せるとのことで、似たようなデータを扱う場合は使いまわして楽をできるとのこと。
これは試してみる価値がありそうですね。k-nn法を用いた欠損値補完なども関数として用意されているようです。
マジレスすると、モテるかどうかは容姿や性格によるところが大きいと思うので、
身なりを清潔に保つとか、連れて行くと喜ばれそうな場所や体験を提供するとかが近道な気がしますよね。
不連続回帰とrdrobustパッケージの紹介
https://www.slideshare.net/YusukeKaneko6/tokyor74rdd-122646880
計量経済学系のバックグラウンドをお持ちのkagglerの方のLTです。
イスラム教の社会が、女性の高校修了率に与える影響について、統計的因果推論をされています。
rdrobustというパッケージを用いて、不連続回帰(RDD)という手法を実践され、イスラム教政治がランダム割当になりやすい状況を作っています。
全データで推定すると負の影響が推定されていましたが、RDDを使うことで正の効果があるという結果となりました。これは他の学部領域での先行研究とも整合的とのこと。
PCAや対応分析で補完要素を使う
資料なし
CiNii API その2
資料なし
Rで健康体
資料は後ほど公開される模様
https://twitter.com/weda_654/status/1061193131335475201
データのみは公開されている
https://github.com/weda-654/my_health_log
Soccer × Attribution Analysis
u++さんのLTですね!アクセスログや第三者配信データを用いた分析でよく扱われるアトリビューション分析をサッカーの貢献度に利用したという話です。
ChannelAttributionパッケージを使われています。
マーケティングの業務で使う際は、これまで見逃していた意外なページや意外な参照元などがこの分析で見えてきたりします。
ただ、価値はあってもコストがかかっては元も子もないので、コストに関する記述があったのも実務で使われている方の視点だなと思いました。
サッカーはルールくらいしか知らないので誰が意外なのかはわからないですw
地理空間データの交差検証、正しくできていますか?
地理空間データにおける交差検証する際の手法として、Spacial Cross-ValidationとTarget-oriented cross-validationが挙げられています。
空間データ向けのパッケージとしては、sfやCASTが、学習周りではmlrやcaretが扱われていました。
Referenceがあるのが嬉しいですね。
reticulateパッケージとデータサイエンスフロー
資料なし
結婚式について
なぜ開くのか
大事な思い出づくりのため。
工程
- Willing to Payの決定(全てはここ)
- 持ち込みし放題の式場
- 大学OB割引などがある式場
- 料理が美味しい(国賓を迎えたりしているか?)
- 荘厳な雰囲気
- アクセスが良い
- 教会式か人前式か神前式かの選定(教会式だとめっちゃ高かったりするところもある)
- 誘う対象の選定
- 共に勉強を頑張った仲
- 共に仕事を頑張った仲
- 親族
- 住所の聞き出し
- Googleフォームを活用
- 大量の切手の購入(送付用と返信用も)
- 郵便局は21時まで空いていたりするので助かった。(どこもそうなのかな?)
- 上司や友人へのスピーチの依頼、乾杯の依頼
- どういうオーディエンスなのかを事前に伝えておく。スピーチ作成者の負担を軽減する。
- 招待状の作成、発送
- 料理の試食
- いろんな種類を食べるのでお腹ぱんぱん。
- 料理は1000~2000円程度の予算アップはした方が面白い。
- ウェディングケーキのデザインのすり合わせ
- テーブルクロス、花、引き出物、ネームプレートなどのすり合わせ
- 司会者との打ち合わせ
- 自分のスピーチの作成(新郎新婦ともに)
- 意外性と感動と笑いを織り交ぜるのが良い。
- メッセージカードの作成
- スプレッドシートに書きなぐり、それを手書きでひたすら書ききるのみ。
- 式場音楽の選定
- イベントの進行のすり合わせ
- DVDの作成(オープニング・プロフィール・エンディング)
- 大量のピン札の調達(交通費は全額支給しろという親の教え)
- ウェルカムボードの作成(ダイソーで4~500円くらいで材料は手に入る)
工夫した点
- DVDを3枚自作した
- お願いすると結構お金がかかるし、理想形に近づけるための試行錯誤の回数も限られる。
- ハイスペックPCを持っているデータサイエンティストなら動画の編集に耐えられるはず。
- マックのiMovieを使えばGUIで簡単に動画作成ができる。
- 十分な大きさのメッセージカード
- わざわざ来てくれた友人との思い出をとにかく書きまくる。
結果としてよかったこと
- DVDの自作
- 3枚とも笑いを提供でき、上映後は拍手している人もいたようです。(裏手にいたので会場の様子は直接見れなかったですが)
- 定型文を避けたスピーチ
- 書く前によくある定型文を見たんですが、面白くないと思い、独自のスピーチにしました。結果として大爆笑を提供できました。
- 普段から写真や動画を撮りまくっていたことで、DVD制作の素材が潤沢にあった。
- Googleフォトに写真をアップしまくれば容量に悩まずに済むので、とにかく日常的に撮り続けましょう。
やはり、結婚式はある意味でエンターテインメントなので、自分が工夫できるところ(スピーチとムービー)は少し頑張ってみるといいのかな、と思いました。
反省点
- 結婚式前日は有給休暇を取るべき
- 仕事を19時であがったけど、その後の準備で疲れ果てた。目にクマが若干できた。
結婚を頑張るエンジニアやデータサイエンティストの皆さんへ
結婚式の準備は色々と時間がかかります。
世の優秀なデータサイエンティストが、そのようなことに時間を割きすぎるのは社会的な損失なので、この参考情報を元に少しでも楽に準備をしていただけると幸いですね。