毎度。一馬力です。
MeCab (和布蕪)をインストールして色々と形態素解析を始めると
「mecab-ipadic」の利用だけでは難しいシーンに出くわします。
例えばこんな文章
「ピコ太郎のアッポーペンって面白いよね」
これを「MeCab 」+「mecab-ipadic」で形態素解析すると
iMac:~ ichibariki$ mecab -d /usr/local/lib/mecab/dic/ipadic ピコ太郎のアッポーペンって面白いよね ピコ 名詞,固有名詞,一般,*,*,*,ピコ,ピコ,ピコ 太郎 名詞,固有名詞,地域,一般,*,*,太郎,タロウ,タロー の 助詞,連体化,*,*,*,*,の,ノ,ノ アッポーペン 名詞,一般,*,*,*,*,* って 助詞,格助詞,連語,*,*,*,って,ッテ,ッテ 面白い 形容詞,自立,*,*,形容詞・アウオ段,基本形,面白い,オモシロイ,オモシロイ よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS iMac:~ ichibariki$
ピコ太郎さんが
- ピコ 名詞,固有名詞,一般,,,*,ピコ,ピコ,ピコ
- 太郎 名詞,固有名詞,地域,一般,,,太郎,タロウ,タロー
っておいっ!!どこの太郎さんだよぃ!!って感じに。
これを解決してくれるのが,「mecab-ipadic-NEologd」です。
目次
- 目次
- mecab-ipadic-NEologd とは
- mecab-ipadic-NEologdのインストール(前提パッケージ)
- mecab-ipadic-NEologdのインストール
- 再度mecab-ipadic-NEologdでピコ太郎
- 参考資料
- 試した環境
mecab-ipadic-NEologd とは
mecab-ipadic-NEologdのREADMEを見てみると
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
mecab-ipadic-NEologd とは
mecab-ipadic-NEologd は、多数のWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書です。
との事。さらに
*ネット上で流行した単語や慣用句やハッシュタグをエントリ化したデータ
であれば,ピコ太郎さんもきれいに分割してくれるはず!
mecab-ipadic-NEologdのインストール(前提パッケージ)
基本的にはmecab-ipadic-NEologdのREADME通りにインストールすれば問題ないのですが
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md
試して見た結果Macに必要な前提は
- Homebrew
- brewコマンドでインストールするもの(READMEから抜粋)
コマンド:$ brew install mecab mecab-ipadic git curl xz
のようです。
特にxzパッケージは私のMacへは未導入でした。
参考:install-mecab-ipadic-neologdに記載されている必要コマンド
install-mecab-ipadic-neologdのソースを確認すると
300行目付近に必要なコマンドが記載されていました。
find sort head cut egrep mecab mecab-config make curl sed cat diff tar unxz xargs grep iconv patch which file openssl awk
mecab-ipadic-NEologdのインストール
mecab-ipadic-NEologdのダウンロード
mecab-ipadic-NEologdはgitコマンドでダウンロードします。
インストール作業はどのディレクトリで実施しても問題ないですが,私の場合は
Downloadsディレクトリで実施しました。
iMac:Downloads ichibariki$ pwd /Users/ichibariki/Downloads
ダウンロードはgitコマンドで
コマンド:git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
iMac:Downloads ichibariki$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git Cloning into 'mecab-ipadic-neologd'… iMac:Downloads ichibariki$ cd mecab-ipadic-neologd/ iMac:mecab-ipadic-neologd ichibariki$ du -sh 116M . iMac:mecab-ipadic-neologd ichibariki$
ダウンロード後のサイズは116Mでした。
mecab-ipadic-NEologdのインストール
インストールはgit cloneしたディレクトリ(〜/Downloads/mecab-ipadic-neologd/)に移動して
コマンド:/bin/install-mecab-ipadic-neologd -n -a
で開始できます。
今回指定したオプション「 -n -a」は全部盛りでインストールを意味します。
ただし、容量が大きくなるため最低メモリ使用量は2GByte弱必要との事
インストール環境によってはREADMEを見ながらオプションを変えて下さい
iMac:mecab-ipadic-neologd ichibariki$ ./bin/install-mecab-ipadic-neologd -n -a [install-mecab-ipadic-NEologd] : Start.. [install-mecab-ipadic-NEologd] : Check the existance of libraries [install-mecab-ipadic-NEologd] : find => ok [install-mecab-ipadic-NEologd] : sort => ok [install-mecab-ipadic-NEologd] : head => ok [install-mecab-ipadic-NEologd] : cut => ok [install-mecab-ipadic-NEologd] : egrep => ok [install-mecab-ipadic-NEologd] : mecab => ok 〜ここでしばらく時間がかかります〜 [install-mecab-ipadic-NEologd] : Install completed. [install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/usr/local/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab. [install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here. Usage: $ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd ... [install-mecab-ipadic-NEologd] : Finish.. [install-mecab-ipadic-NEologd] : Finish.. iMac:mecab-ipadic-neologd ichibariki$
しばらくまって「[install-mecab-ipadic-NEologd] : Install completed.」が表示されれば
インストール完了です。
再度mecab-ipadic-NEologdでピコ太郎
さてさて,mecab-ipadic-NEologdのインストールが完了したので
再度
「ピコ太郎のアッポーペンって面白いよね」
を形態素解析してみると
iMac:~ ichibariki$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd ピコ太郎のアッポーペンって面白いよね ピコ太郎 名詞,固有名詞,人名,一般,*,*,ピコ太郎,ピコタロウ,ピコタロー の 助詞,連体化,*,*,*,*,の,ノ,ノ アッポーペン 名詞,固有名詞,一般,*,*,*,アッポーペン,アッポーペン,アッポーペン って 助詞,格助詞,連語,*,*,*,って,ッテ,ッテ 面白い 形容詞,自立,*,*,形容詞・アウオ段,基本形,面白い,オモシロイ,オモシロイ よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS
ピコ太郎さんが
- ピコ太郎 名詞,固有名詞,人名,一般,,,ピコ太郎,ピコタロウ,ピコタロー
無事にどっかの太郎さんではなく,「ピコ太郎」で認識できました。
めでたしめでたし。
mecab-ipadic-NEologdは新語もバッチリ解析可能です。お試しあれ
参考資料
mecab-ipadic-neologd/README.ja.md
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.mdmecab-ipadic-neologd/bin/install-mecab-ipadic-neologd https://github.com/neologd/mecab-ipadic-neologd/blob/master/bin/install-mecab-ipadic-neologd
試した環境
iMac (27-inch, Mid 2010) macOS Sierra システムのバージョン: macOS 10.12.2 (16C67) カーネルのバージョン: Darwin 16.3.0 iMac:~ ichibariki$ mecab -v mecab of 0.996