MeCab と CaboCha/南瓜
Mecab
MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer![]()
CaboCha
CaboCha は, Support Vector Machines に基づく日本語係り受け解析器です。
Google Project Hosting![]()
前提
当方の環境では、
- csh → bash に入れ替えてある。
- vi → Vim にしてある。
- $HOME 直下に Python 2.7 をインストールしてある。
- 今回の MeCab や CaboCha 関連は、$HOME/local 下にインストールする。
アーカイブファイルのダウンロード
Google Project Hosting
Sign in - Google Accounts
Google Project Hosting
より、それぞれ関連ファイルの最新版を探してダウンロードし、$HOME/archive(任意)下においておく。
なぜか、さくら上からwgetで取得しようとしたらうまくいかなかったので、いったんローカルにダウンロードしたものをFTPで転送した…うーん、なにが悪いんだろう…
追記
記事を書いた際にはさくら上のwgetでは取得できなかったが、5/12時点ではできるようになっていた。wgetのバージョンに関係ありか?(HTTP/1.1サポート関連?<wget 1.13以降)
$ wget -V
GNU Wget 1.14 built on freebsd9.1.
"--no-check-certificate"オプションが必要。~/.wgetrcに記述するなら、"check_certificate = off"
.bash_profile の確認&修正
$ mkdir -p ~/local $ vi ~/.bash_profile
export CPATH=/usr/include:/usr/local/include export C_INCLUDE_PATH=/usr/include:/usr/local/include export CPLUS_INCLUDE_PATH=/usr/include:/usr/local/include export LIBRARY_PATH=$HOME/lib:$HOME/local/lib:/usr/local/lib export LD_LIBRARY_PATH=$HOME/lib:$HOME/local/lib:/usr/local/lib
CやC++関連のヘッダ/ライブラリ用PATHを通しておく。
$ source ~/.bash_profile
MeCab のインストール
configureのオプションにて、インストール先とcharset(utf8)を指定する。
MeCab 本体
$ cd ~/archive $ tar xvfz ./mecab-0.996.tar.gz $ cd mecab-0.996 $ ./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only $ make $ make install
MeCab用IPA辞書
$ cd ~/archive $ tar xvfz ./mecab-ipadic-2.7.0-20070801.tar.gz $ cd ./mecab-ipadic-2.7.0-20070801 $ ./configure --with-charset=utf8 --with-dicdir=$HOME/local/lib/mecab/dic/ipadic $ make $ make install
Python用バインディング
$ cd ~/archive $ tar xvfz ./mecab-python-0.996.tar.gz $ cd mecab-python-0.996 $ python setup.py install
この後、
$ python test.py
としてみて、動作確認。
CaboCha のインストール
CRF++
$ cd ~/archive $ tar xvfz ./CRF++-0.58.tar.gz $ cd ./CRF++-0.58 $ ./configure --prefix=$HOME/local $ make $ make install
CaboCha 本体
$ cd ~/archive $ tar xvfj ./cabocha-0.68.tar.bz2 $ cd ./cabocha-0.68 $ ./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only LDFLAGS="-L$HOME/local/lib" CPPFLAGS="-I$HOME/local/include" --with-mecab-config=$HOME/local/bin/mecab-config $ make $ make install
Python 用ライブラリのインストール
$ cd ~/archive/cabocha-0.68/python $ python setup.py install
この後、
$ python test.py
としてみて、動作確認。
CGI で動かすためには…
Pythonスクリプト実行ファイル(*.cgi)のシバン(shebang)行にて、ライブラリへのPATHをフルパスで記述しておく必要あり。
#! /usr/bin/env -S PYTHONHOME=/home/username PYTHONPATH=/home/username/lib/python LD_LIBRARY_PATH=/home/username/local/lib:/home/username/lib LIBRARY_PATH=/home/username/local/lib:/home/username/lib /home/username/bin/python # -*- coding: utf-8 -*- # ※上記のusernameは各自のユーザ名で置換