テキストマイニングに関する参考文献

テキストマイニングの入門の情報から最新の研究までを集めています。
随時更新します。

  • 学習
  • 自然言語処理を独習したい人のために
    http://cl.sd.tmu.ac.jp/prospective/prerequisite

    確率的潜在意味解析
    http://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node14.html

    Probabilistic latent semantic analysis
    http://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis

    PythonでPLSAを実装してみる
    http://satomacoto.blogspot.jp/2009/10/pythonplsa.html

    RでPLSA(PLSI)
    http://sucrose.hatenablog.com/entry/20110604/p1

  • テキストマイニング環境の構築
  • RMeCab と RCaBoCha をインストールしてみた
    http://antimon2.hatenablog.jp/entry/2012/09/02/214131

    RCaBoCha
    http://rmecab.jp/wiki/index.php?RCaBoCha

  • LDA関連
  • “トピックモデルによる統計的潜在意味解析”を読んでLDA(Latent Dirichlet Allocation)を実装しましたAdd Star
    http://d.hatena.ne.jp/echizen_tm/20150321/1426952208

    LSIやLDAを手軽に試せるGensimを使った自然言語処理入門
    http://yuku-tech.hatenablog.com/entry/20110623/1308810518

    gensimに日本語Wikipediaを取り込むためのスクリプト
    https://gist.github.com/yuku-t/1040366

  • 研究
  • 特許公報を用いた自然言語処理による業界分析、及びSpotfireによる可視化
    http://togotv.dbcls.jp/20101220.html

    メンション情報を利用したTwitterユーザープロフィール推定
    http://dbsj.org/journal/dbsj_journal_j/dbsj_journal_vol_13_no_1_1_6/
    http://dbsj.org/wp-content/uploads/2014/11/DBSJ13-1_P01-06_okutani.pdf.pagespeed.ce.ryqKKFAwd6.pdf

    誕生・使用事由によるレシピ検索~生い立ちレシピサーチ~
    http://dbsj.org/journal/dbsj_journal_j/dbsj_journal_vol_13_no_1_78_85/
    http://dbsj.org/wp-content/uploads/2014/11/DBSJ13-1_P78-85_kadowaki.pdf.pagespeed.ce.A2TxRNdZlm.pdf

    特徴トークンに注目した Smith-Waterman アルゴリズムに基づく剽窃ソースコードの自動検出手法
    http://www.it.mgmt.waseda.ac.jp/results/student1/2012-M2-Hibi.pdf

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です