風柳メモ

ソフトウェア・プログラミング関連の覚書が中心

さくらのレンタルサーバにMeCabとCaboCha/南瓜を入れてPythonから使う準備

MeCab と CaboCha/南瓜

Mecab

MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
CaboCha

CaboCha は, Support Vector Machines に基づく日本語係り受け解析器です。

Google Project Hosting

前提

当方の環境では、

アーカイブファイルのダウンロード

Google Project Hosting
Sign in - Google Accounts
Google Project Hosting

より、それぞれ関連ファイルの最新版を探してダウンロードし、$HOME/archive(任意)下においておく。
なぜか、さくら上からwgetで取得しようとしたらうまくいかなかったので、いったんローカルにダウンロードしたものをFTPで転送した…うーん、なにが悪いんだろう…

追記

記事を書いた際にはさくら上のwgetでは取得できなかったが、5/12時点ではできるようになっていた。wgetのバージョンに関係ありか?(HTTP/1.1サポート関連?<wget 1.13以降)

$ wget -V
GNU Wget 1.14 built on freebsd9.1.

"--no-check-certificate"オプションが必要。~/.wgetrcに記述するなら、"check_certificate = off"

.bash_profile の確認&修正

$ mkdir -p ~/local
$ vi ~/.bash_profile
export CPATH=/usr/include:/usr/local/include
export C_INCLUDE_PATH=/usr/include:/usr/local/include
export CPLUS_INCLUDE_PATH=/usr/include:/usr/local/include
export LIBRARY_PATH=$HOME/lib:$HOME/local/lib:/usr/local/lib
export LD_LIBRARY_PATH=$HOME/lib:$HOME/local/lib:/usr/local/lib

CやC++関連のヘッダ/ライブラリ用PATHを通しておく。

$ source ~/.bash_profile

MeCab のインストール

configureのオプションにて、インストール先とcharset(utf8)を指定する。

MeCab 本体
$ cd ~/archive
$ tar xvfz ./mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only
$ make
$ make install
MeCab用IPA辞書
$ cd ~/archive
$ tar xvfz ./mecab-ipadic-2.7.0-20070801.tar.gz
$ cd ./mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8 --with-dicdir=$HOME/local/lib/mecab/dic/ipadic
$ make
$ make install
Python用バインディング
$ cd ~/archive
$ tar xvfz ./mecab-python-0.996.tar.gz
$ cd mecab-python-0.996
$ python setup.py install

この後、

$ python test.py

としてみて、動作確認。

CaboCha のインストール

CRF++
$ cd ~/archive
$ tar xvfz ./CRF++-0.58.tar.gz
$ cd ./CRF++-0.58
$ ./configure --prefix=$HOME/local
$ make
$ make install
CaboCha 本体
$ cd ~/archive
$ tar xvfj ./cabocha-0.68.tar.bz2
$ cd ./cabocha-0.68
$ ./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only LDFLAGS="-L$HOME/local/lib" CPPFLAGS="-I$HOME/local/include" --with-mecab-config=$HOME/local/bin/mecab-config
$ make
$ make install
Python 用ライブラリのインストール
$ cd ~/archive/cabocha-0.68/python
$ python setup.py install

この後、

$ python test.py

としてみて、動作確認。

CGI で動かすためには…

Pythonスクリプト実行ファイル(*.cgi)のシバン(shebang)行にて、ライブラリへのPATHをフルパスで記述しておく必要あり。

#! /usr/bin/env -S PYTHONHOME=/home/username PYTHONPATH=/home/username/lib/python LD_LIBRARY_PATH=/home/username/local/lib:/home/username/lib LIBRARY_PATH=/home/username/local/lib:/home/username/lib /home/username/bin/python
# -*- coding: utf-8 -*-

# ※上記のusernameは各自のユーザ名で置換