Mathematica: 自定义中文词云
前言:词云制作前需要对文本进行分词病统计频率。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。本文使用在线网站进行处理。
默认样式
自定义样式
文本分词
- 使用在线工具图悦网对文本进行分词处理。
- 导出数据文件,对文件格式进行处理,删除标题行,仅保留
关键词 、词频
处理模板图片
制作词云
- 分词文件命名
分词.xls
,模板图片命名为模板.png
。 - 创建
Mathematica
文件**.nb
。 - 上述文件放在同一目录。
完整程序
1 | (*清除全局变量*) |