前言
最近有根据文件内容进行词频分析的需求,如果是纯英文的,写个程序处理比较容易,但涉及到中文词频分析,最关键的一步就是中文分词。
搜了不少文章,最后找到一篇比较好用的 Java实现中文词频统计。主要利用了ansj_seg进行中文分词,分词后再进行词频统计。
针对文章中提供的代码示例,做了稍许改动,贴在下面 做个记录。
依赖
添加最新版ansj_seg依赖
1 | <dependency> |
代码实现
代码可见 AloofJr
1 | package com.my.tools.ansj; |
参考
作者:Asche