Mathematica: 自定义中文词云

发表于 2017-09-14 更新于 2017-10-28

前言：词云制作前需要对文本进行分词病统计频率。中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具，场景不同，要求也不同。本文使用在线网站进行处理。

默认样式

自定义样式

文本分词

使用在线工具图悦网对文本进行分词处理。
导出数据文件，对文件格式进行处理，删除标题行，仅保留 关键词 、词频

处理模板图片

将模板图片处理成黑白格式，白色为词云填充的部分

制作词云

分词文件命名 分词.xls，模板图片命名为 模板.png。
创建 Mathematica 文件 **.nb。
上述文件放在同一目录。

完整程序

(*清除全局变量*)
Clear["Global`*"]

(*导入分词文本*)
wordlist = Import[NotebookDirectory[] <> "分词.xls"] // Flatten[#, 1] &;

(*导入词云模板*)
fig = Import[NotebookDirectory[] <> "模板.png"];

(*默认词云样式*)
WordCloud[wordlist]

(*自定义词云样式*)
WordCloud[wordlist, fig, ColorFunction -> Yellow, Background -> Red]

详细帮助参考官方文档相关文件，点击下载