日本語の形態素解析を比較。結局Zeppelin+R+RMeCabでの連携。

いきなりですが、いつもブログを読んでいただきありがとうございます。
コメントも読んでいるのですが、英語は苦手で全然返せなくてごめんなさい。

そろそろコメントも公開で受け付けたほうが良いのかなとか、自分のブランディングも含めて考えることもありますが。。。
現在、日本のベンチャー企業2社に所属して活動していることと、
自分のなまけ癖を考えると返信しないことが容易に想定できるのでもうちょっと落ち着くまでこのスタイルで行かせていただきます。
(少し余裕ができたと思うと新しい仕事するスタイルなのでご容赦ください)

職場でも日本人とインド人の働き方の違いを見ていたりすると、
自分を含め日本人はStackoverflowのようなサイトから同事象を探すだけなのに対して
積極的に質問するインド人をみると、良いところは真似しなきゃなと自戒。

日本語のコメントが無いので日本人は来ないネタばかりやってるのかとWebMasterTool確認。
さすがに日本人が訪問数ダントツでしたね。

唐突な自分語りはここまでとして、さっそく形態素解析の比較から

参考1:Python形態素解析ライブラリ3つを徹底比較
参考2:意外にあった!?日本語の形態素解析ツールまとめ
参考3:Kuromojiは何で研究にあまり使われないのか?

昔から興味はあったのでそこそこ知ってる単語が出てくる。
職場1で使ってるSolrではkuromoji使っていたり、MeCabなんかも良く比較されているので知ってたり。
でもJumanは聞いたことがなかったが、出てくる情報が多いのが何となく魅力的。
レスポンスを考えるとダメなのだろうが、職場2ではレスポンスは求められていないのでこういうのが良い。

色々資料を読んでいくと、職場1は検索だから境界が分かればいいのだろう
職場2は自然言語処理やテキストマイニングが目的

それでも情報の充実度からやっぱりMeCabを選択せざるを得ない雰囲気。

MeCab (和布蕪) 公式
RMeCab公式

R言語は正直苦手

R
install.packages("RMeCab", repos = "http://rmecab.jp/R")

どうやらやっぱりインストールは必要そうだということで、公式情報をもとにインストール。

で、もう一度上記のinstall.packagesをR上からやるとエラー。
たまたま同じ事象の解決しているサイトがあったので参考にして修正。
http://txt.takamatsu-kaikei.org/wiki/wiki.cgi?page=Linux

■エラー内容

Error in dyn.load(file, DLLpath = DLLpath, ...) :
  unable to load shared object '/usr/lib64/R/library/RMeCab/libs/RMeCab.so':
  libmecab.so.2: cannot open shared object file: No such file or directory
Error: loading failed
Execution halted
ERROR: loading failed
* removing ‘/usr/lib64/R/library/RMeCab’

The downloaded source packages are in
        ‘/tmp/Rtmpul5IIS/downloaded_packages’
Updating HTML index of packages in '.Library'
Making 'packages.html' ... done
Warning message:
In install.packages("RMeCab", repos = "http://rmecab.jp/R") :
  installation of package ‘RMeCab’ had non-zero exit status
> quit()
Save workspace image? [y/n/c]: n

■修正内容

echo "/usr/local/lib"  >> /etc/ld.so.conf.d/R-x86_64.conf
ldconfig

Rコマンド上からinstallもできた。
結果、当然ながらZeppelinからも問題なく動いた。