Creating N-gram For Long Chinese Phrases
1 2 3 4 5 6 | from nltk import ngrams phrase = '純正萬應荳蔻花油' for i in range(1, len(phrase.decode('utf8'))+1): grams = ngrams(list(phrase.decode('utf8')), i) for gram in grams: print "".join(gram) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 | 純 正 萬 應 荳 蔻 花 油 純正 正萬 萬應 應荳 荳蔻 蔻花 花油 純正萬 正萬應 萬應荳 應荳蔻 荳蔻花 蔻花油 純正萬應 正萬應荳 萬應荳蔻 應荳蔻花 荳蔻花油 純正萬應荳 正萬應荳蔻 萬應荳蔻花 應荳蔻花油 純正萬應荳蔻 正萬應荳蔻花 萬應荳蔻花油 純正萬應荳蔻花 正萬應荳蔻花油 純正萬應荳蔻花油 |