一馬力のメモ帳

MVSからLinuxまで。基盤屋さんは眠らない

「mecab-ipadic-NEologd」なら「ピコ」「太郎」もバッチリ「ピコ太郎」

毎度。一馬力です。

MeCab (和布蕪)をインストールして色々と形態素解析を始めると

ichibariki.hatenablog.com

mecab-ipadic」の利用だけでは難しいシーンに出くわします。

例えばこんな文章

「ピコ太郎のアッポーペンって面白いよね」

これを「MeCab 」+「mecab-ipadic」で形態素解析すると

iMac:~ ichibariki$ mecab -d /usr/local/lib/mecab/dic/ipadic
ピコ太郎のアッポーペンって面白いよね
ピコ     名詞,固有名詞,一般,*,*,*,ピコ,ピコ,ピコ
太郎     名詞,固有名詞,地域,一般,*,*,太郎,タロウ,タロー
の     助詞,連体化,*,*,*,*,の,ノ,ノ
アッポーペン     名詞,一般,*,*,*,*,*
って     助詞,格助詞,連語,*,*,*,って,ッテ,ッテ
面白い     形容詞,自立,*,*,形容詞・アウオ段,基本形,面白い,オモシロイ,オモシロイ
よ     助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
ね     助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS
iMac:~ ichibariki$

ピコ太郎さんが

  • ピコ     名詞,固有名詞,一般,,,*,ピコ,ピコ,ピコ
  • 太郎     名詞,固有名詞,地域,一般,,,太郎,タロウ,タロー

っておいっ!!どこの太郎さんだよぃ!!って感じに。

これを解決してくれるのが,「mecab-ipadic-NEologd」です。

目次


mecab-ipadic-NEologd とは

mecab-ipadic-NEologdのREADMEを見てみると
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

mecab-ipadic-NEologd とは

mecab-ipadic-NEologd は、多数のWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書です。

との事。さらに

*ネット上で流行した単語や慣用句やハッシュタグをエントリ化したデータ

であれば,ピコ太郎さんもきれいに分割してくれるはず!

mecab-ipadic-NEologdのインストール(前提パッケージ)

基本的にはmecab-ipadic-NEologdのREADME通りにインストールすれば問題ないのですが
https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

試して見た結果Macに必要な前提は

  • Homebrew
  • brewコマンドでインストールするもの(READMEから抜粋)

コマンド:$ brew install mecab mecab-ipadic git curl xz

のようです。

特にxzパッケージは私のMacへは未導入でした。

参考:install-mecab-ipadic-neologdに記載されている必要コマンド

install-mecab-ipadic-neologdのソースを確認すると
300行目付近に必要なコマンドが記載されていました。

find sort head cut egrep mecab mecab-config make curl sed cat diff tar unxz xargs grep iconv patch which file openssl awk

mecab-ipadic-NEologdのインストール

mecab-ipadic-NEologdのダウンロード

mecab-ipadic-NEologdはgitコマンドでダウンロードします。
インストール作業はどのディレクトリで実施しても問題ないですが,私の場合は
Downloadsディレクトリで実施しました。

iMac:Downloads ichibariki$ pwd
/Users/ichibariki/Downloads

ダウンロードはgitコマンドで

コマンド:git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

iMac:Downloads ichibariki$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
Cloning into 'mecab-ipadic-neologd'…


iMac:Downloads ichibariki$ cd mecab-ipadic-neologd/
iMac:mecab-ipadic-neologd ichibariki$ du -sh
116M     .
iMac:mecab-ipadic-neologd ichibariki$

ダウンロード後のサイズは116Mでした。

mecab-ipadic-NEologdのインストール

インストールはgit cloneしたディレクトリ(〜/Downloads/mecab-ipadic-neologd/)に移動して

コマンド:/bin/install-mecab-ipadic-neologd -n -a

で開始できます。
今回指定したオプション「 -n -a」は全部盛りでインストールを意味します。
ただし、容量が大きくなるため最低メモリ使用量は2GByte弱必要との事
インストール環境によってはREADMEを見ながらオプションを変えて下さい

iMac:mecab-ipadic-neologd ichibariki$ ./bin/install-mecab-ipadic-neologd -n -a
[install-mecab-ipadic-NEologd] : Start..
[install-mecab-ipadic-NEologd] : Check the existance of libraries
[install-mecab-ipadic-NEologd] :     find => ok
[install-mecab-ipadic-NEologd] :     sort => ok
[install-mecab-ipadic-NEologd] :     head => ok
[install-mecab-ipadic-NEologd] :     cut => ok
[install-mecab-ipadic-NEologd] :     egrep => ok
[install-mecab-ipadic-NEologd] :     mecab => ok

〜ここでしばらく時間がかかります〜

[install-mecab-ipadic-NEologd] : Install completed.
[install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/usr/local/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab.
[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
Usage:
    $ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd ...

[install-mecab-ipadic-NEologd] : Finish..
[install-mecab-ipadic-NEologd] : Finish..
iMac:mecab-ipadic-neologd ichibariki$

しばらくまって「[install-mecab-ipadic-NEologd] : Install completed.」が表示されれば
インストール完了です。

再度mecab-ipadic-NEologdでピコ太郎

さてさて,mecab-ipadic-NEologdのインストールが完了したので
再度

「ピコ太郎のアッポーペンって面白いよね」

形態素解析してみると

iMac:~ ichibariki$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
ピコ太郎のアッポーペンって面白いよね
ピコ太郎     名詞,固有名詞,人名,一般,*,*,ピコ太郎,ピコタロウ,ピコタロー
の     助詞,連体化,*,*,*,*,の,ノ,ノ
アッポーペン     名詞,固有名詞,一般,*,*,*,アッポーペン,アッポーペン,アッポーペン
って     助詞,格助詞,連語,*,*,*,って,ッテ,ッテ
面白い     形容詞,自立,*,*,形容詞・アウオ段,基本形,面白い,オモシロイ,オモシロイ
よ     助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
ね     助詞,終助詞,*,*,*,*,ね,ネ,ネ
EOS

ピコ太郎さんが

  • ピコ太郎     名詞,固有名詞,人名,一般,,,ピコ太郎,ピコタロウ,ピコタロー

無事にどっかの太郎さんではなく,「ピコ太郎」で認識できました。

めでたしめでたし。
mecab-ipadic-NEologdは新語もバッチリ解析可能です。お試しあれ

参考資料

試した環境

iMac 21.5インチ MK142J/A 高性能Intel Corei5 1.6GHz 8GB 1TB 高速無線LANIEEE802.11ac/a/b/g/n Bluetooth FaceTimeHDカメラ スピーカー内蔵 省スペース液晶一体型デスクトップパソコン ワイヤレスキーボード・マウス付属

iMac (27-inch, Mid 2010)
macOS Sierra
    システムのバージョン:     macOS 10.12.2 (16C67)
    カーネルのバージョン:     Darwin 16.3.0
iMac:~ ichibariki$ mecab -v
    mecab of 0.996