MeCab

See http://taku910.github.io/mecab/ for documentation.

You can install MeCab and a dictionary for MeCab on OS X by installing Homebrew and running brew install mecab mecab-ipadic.

Command line examples

Add spaces between morphemes:

$ mecab -Owakati<<<このような例は極端かもしれない
この よう な 例 は 極端 かも しれ ない

Print readings:

$ mecab -Oyomi<<<漢字
カンジ

Print lexical forms:

$ mecab -F'%f[6]\n' -E ''<<<来て
来る
て

Print the type number of each morpheme:

$ mecab -F%t -E\\n<<<א字。1aあア
0234567

Print the lexical form (%f[6]) of words which contain at least one kanji (type 2):

$ mecab -F'%t %f[6]\n'<<<はしごを使って屋根に上りました。|sed -n 's/2 \(.*\)/\1/p'
使う
屋根
上る

-F is --node-format, -U is --unk-format, and -E is --eos-format.

-E\\n prints a linefeed instead of the string EOS at the end of the output.

Unrecognized morphemes are not included in the output if you do not add a -U option:

$ mecab -F'%f[6] ' -E'\n'<<<ムーリエルは20歳になりました。
は 2 0 歳 に なる ます た 。
$ mecab -F'%f[6] ' -U'%m ' -E'\n'<<<ムーリエルは20歳になりました。
ムーリエル は 2 0 歳 に なる ます た 。

Predefined formats

The predefined formats are described like this in the documentation:

Default format

Here is an example of output in the default format:

$ mecab<<<来て
来  動詞,自立,*,*,カ変・来ル,連用形,来る,キ,キ
て  助詞,接続助詞,*,*,*,*,て,テ,テ
EOS

The default format is described in the documentation like this:

表層形\\t品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

The default format includes these ten fields:

Format specifier characters

This is based on a Google translation of http://taku910.github.io/mecab/format.html so there might be some errors.