行きたいけど行けなかった言語処理学会第23回年次大会の発表内容がPDFで見れるということで、発表内容の中でWebマーケティングなどの仕事で役に立つかもしれない12件の研究を独断と偏見でまとめています。
プログラムはこちらのリンクから見れます。
言語処理学会第23回年次大会(NLP2017) プログラム
今回取り上げるのは以下の12件です。
・Wikipediaのカテゴリ構造を特徴ベクトルに用いたRandom Forestによるショートメッセージ分類
・NMFを用いた為替ドル円レートの変動要因分析とAdaboostを用いた予測システム
・Are Deep Learning Methods Better for Twitter Sentiment Analysis?
・化粧品レビューサイトにおけるクチコミの有用性判定
・機械学習を用いたQAサイト質問文のカテゴリの類推
・不満調査データセットの素性ベクトル化
・検索エンジンを用いた記載欠落箇所の補完
・生コーパスからの単語難易度関連指標の予測
・常識から外れた雑談応答の検出
・店舗レビューには何が書かれているか?–調査及びその自動分類–
・トップダウン型共起グラフを用いたブログからの観光地の行動分析
・社内データに基づくイノベータ人財のピックアップ
Wikipediaのカテゴリ構造を特徴ベクトルに用いたRandom Forestによるショートメッセージ分類
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P16-4.pdf
Wikipediaのカテゴリ構造を学習させたナイーブベイズにより特徴ベクトルを生成し、それをTweetに付与して、ランダムフォレストを用いてメッセージ分類をしているようです。直接Tweetのデータを使わないでWikipediaのデータを活用するところにトリックがあるようです。ビジネスにおいて関心のある対象ユーザーのTweetのモニタリングや対象ユーザーの特定に使えるかもしれません。
NMFを用いた為替ドル円レートの変動要因分析とAdaboostを用いた予測システム
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P15-5.pdf
『金融経済月報』や『日本経済展望』のテキストデータに対して、PCAとNMFの2つの手法を用いて特徴抽出を行い、Adaboostを用いて為替レートの予測を行っているようです。為替レートを予測せずとも、テキストデータを用いた市場動向の予測などの参考になるかもしれません。
Are Deep Learning Methods Better for Twitter Sentiment Analysis?
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/C5-1.pdf
Tweetの感情分析で深層学習を用いて、SVMなどと比較している研究のようです。Conclusionを見る限りは、SVMよりも精度が高いとは言えず(ネットワーク構造やデータセットの大きさに依存する)、少ないデータセットなどではSVMの方が依然として精度が高いようです。
化粧品レビューサイトにおけるクチコミの有用性判定
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/C5-4.pdf
@cosmeにおける、Likeの数をクチコミの有用度と定義して、クチコミデータに対してTF-IDFやLDAを用いて構造解析や意味解析などで特徴を抽出し、その特徴を説明変数とした回帰モデル(SVR)を構築しています。構築した回帰モデルを用い、クチコミのLikeの数を推定することを目的としています。
ここでの知見が直接に自社のコンテンツなどのナレッジになるわけではないですが、LDAやSVM(SVR)を駆使しているなど、分析手法の参考にはなると思います。
機械学習を用いたQAサイト質問文のカテゴリの類推
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P9-6.pdf
深層学習(Stacked Denoising Autoencoders(SdA) と Deep Belief Network(DBN))を用いて質問文に適したカテゴリを類推する研究です。従来手法のMLPやSVMと比べても精度が高かったようです。ユーザーの欲しい商品や、働きたい職場、住みたい場所などに関しても類推できるとマーケティングなどでの活用もできるかもしれません。
不満調査データセットの素性ベクトル化
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P9-2.pdf
不満に関するデータにタグ付けされた情報やJUMANの付属辞書から得られた意味情報も素性とすることで、不満の検索のしやすさを高める研究のようです。不満のテキストデータから特徴量に変えるまでのプロセスが記されているのが参考になりそうです。研究自体は、形態素解析の精度などにより、まだ課題があるようです。
検索エンジンを用いた記載欠落箇所の補完
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P16-5.pdf
「検索エンジンを用いて記載欠落箇所に適切な情報を埋める研究」とあり、コンテンツマーケティングなどの際に、作成した記事に説明不足な箇所を見つけることができるので、コンテンツの質を担保する上で役に立つかもしれません。
生コーパスからの単語難易度関連指標の予測
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/E5-3.pdf
「均衡コーパスや深いアノテーションを施した言語資源に頼らないことで他言語への適用が容易な単語難易度関連指標の予測手法を提案」
「単語難易度関連指標の予測精度はLDAの各トピックからの単語出現確率を基にした素性を用いることで、従来のようにコーパスからの単語頻度を素性を用いる場合と比べ大幅に向上」
「word2vecのような単語のベクトル表現より、LDAの各トピックからの単語出現確率の方が予測精度の向上に有効」
とあり、文章のリーダビリティをよりカジュアルに計算することが可能になるようです。文章のリーダビリティとWebサイトの直帰率やスクロール率などとの関係を研究してみたいですね。
常識から外れた雑談応答の検出
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P15-3.pdf
「Word2Vecモデルの学習においては、匿名掲示板である「おーぷん2ちゃんねる」から取得した人気記事7959記事を用いている。」と2ちゃんねるの表現から非常識語を見つけるという試みです。自社でUGCを運営している場合は役に立ちそうな研究です。
店舗レビューには何が書かれているか?–調査及びその自動分類–
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/W-3.pdf
「店舗レビュー1,510件(5,266文)に対して人手でアノテーションを行い、このデータに基づいてトピックおよびその評価極性を分類するモデルを構築」と、恐ろしい数の文書を人出で分類したそうです。これもユーザーアンケートなどの研究に使えそうです。
トップダウン型共起グラフを用いたブログからの観光地の行動分析
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P20-3.pdf
「寄り道をする観光地を指定すると、その特徴を可視化する手法の開発を目的」とされています。マーケターであれば、関心のある商材を指定すると、その商材に関する特徴を可視化できるのではないでしょうか。テキストマイニングで言うところの共起グラフによる分析となります。
提案されている手法のステップは以下の通りで、自分の関心のある市場のデータを使えば同様のことができると思われます。
(1) 商材を指定しブログ記事集を取得する。
(2) 単語対の共起スコアを同時に出現した記事数をベースとして算出する。具体的には最低出現数を4回として単語を限定し、Jaccard 係数で共起スコアを算出する。
(3) 単語を頂点、共起スコアの得られた単語対を辺として共起グラフを生成する。
(4) 分析目的に応じて注目する頂点を指定する。
(5) 指定した頂点から1または2の距離で到達可能、かつ共起スコアが一定範囲内という辺および頂点を一定数を限度に残す。
社内データに基づくイノベータ人財のピックアップ
http://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/P12-1.pdf
番外ではありますが、面白そうな取り組みなので紹介します。
社員プロフィールや業務報告(日報)や適性検査や360度調査やアンケートなどのデータをもとに、9種類の指標を定め、一部の指標のスコアリングを単語ベースで行うに際して、スコアリング用の単語を定めるためにWord2Vecを用いています。これからピープルアナリティクスを目指す企業には参考になる情報だと思います。