Mathematica: 自定义中文词云
前言:词云制作前需要对文本进行分词病统计频率。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。本文使用在线网站进行处理。
默认样式
自定义样式
文本分词
- 使用在线工具图悦网对文本进行分词处理。
- 导出数据文件,对文件格式进行处理,删除标题行,仅保留 关键词 、词频
处理模板图片
将模板图片处理成黑白格式,白色为词云填充的部分
制作词云
- 分词文件命名
分词.xls
,模板图片命名为模板.png
。 - 创建
Mathematica
文件**.nb
。 - 上述文件放在同一目录。
完整程序 1
2
3
4
5
6
7
8
9
10
11
12
13
14(*清除全局变量*)
Clear["Global`*"]
(*导入分词文本*)
wordlist = Import[NotebookDirectory[] <> "分词.xls"] // Flatten[#, 1] &;
(*导入词云模板*)
fig = Import[NotebookDirectory[] <> "模板.png"];
(*默认词云样式*)
WordCloud[wordlist]
(*自定义词云样式*)
WordCloud[wordlist, fig, ColorFunction -> Yellow, Background -> Red]