Mathematica: 自定义中文词云

前言:词云制作前需要对文本进行分词病统计频率。中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。本文使用在线网站进行处理。

默认样式

自定义样式

文本分词

  1. 使用在线工具图悦网对文本进行分词处理。
  2. 导出数据文件,对文件格式进行处理,删除标题行,仅保留 关键词词频

处理模板图片

将模板图片处理成黑白格式,白色为词云填充的部分

制作词云

  1. 分词文件命名 分词.xls,模板图片命名为 模板.png
  2. 创建 Mathematica 文件 **.nb
  3. 上述文件放在同一目录。

完整程序

1
2
3
4
5
6
7
8
9
10
11
12
13
14
(*清除全局变量*)
Clear["Global`*"]

(*导入分词文本*)
wordlist = Import[NotebookDirectory[] <> "分词.xls"] // Flatten[#, 1] &;

(*导入词云模板*)
fig = Import[NotebookDirectory[] <> "模板.png"];

(*默认词云样式*)
WordCloud[wordlist]

(*自定义词云样式*)
WordCloud[wordlist, fig, ColorFunction -> Yellow, Background -> Red]

详细帮助参考官方文档 相关文件,点击下载