如何自动快速提取出一篇文章或一本书的核心关键词?在一个程序中,最常用的做法就是分词。本次发布的“分词”功能,可以一键自动得到分词结果。
如果你现在要对OneNote中的一本书做关键词阅读,分词结果会是一个很好的参考。之后会发一篇文章介绍关键词阅读的基本流程,本文先专注于“分词”功能的用法。
用法
“分词”功能的用法很简单,选择当前页面某些文本内容或选择(多个)页面后,点击“分词”功能按钮,程序会对当前选区的文本进行分词处理,处理完成后,会跳转至“分词”结果页面。
参数设置
在调用“分词”功能前,可以先前往【设置】-【分词】参数面板,做相关参数的设置。
自定词典:自定义词典文本文件的完整路径。
停词词典:停用词词典文本文件的完整路径。
分词数量:分词结果表中需要显示的词语行数。若值为100,即只显示前100个词,由于分词结果是按权重降序排列的,这意味着只显示前100个最重要的词。注意,这个数值没必要设置太大,即便是对整个分区(整本书的体量)进行分词,我一般也就用1000,太靠后的词意义不大,而且增加程序的运行时间。
词性过滤:需要过滤的词性,该词性对应的词语不会出现在分词结果表格中。这里的默认值是“eng f m mq q r s t”(不同词性之间用空格分隔),这是我自己实践中觉得不重要的词性,应根据实际需求进行调整。
自定义词典
列规范:词语 词频 词性
在自定义词典中添加新词时,只需按列规范添加新行即可:第1列为词语,第2列为词频,第3列为词性,各列之间用空格隔开。
例如下面这几行:
体外大脑 10101 CAS
外部化 10101 CAS
外脑 10101 CAS
词语,是词典中的核心词条,是分词时识别的基本单位。
其中,词频的核心作用是辅助分词时的概率判断,词频越高,在分词时越容易被作为整体识别。
至于词性,主要用于词性标注,它并不影响基础分词逻辑,所以,词性你可以按常用规范去设置(例如“n”代表名词,“v”代表动词),也可以随便按你的喜好去设置,例如我将我的核心知识系统中的关键术语全部标识为“CAS”,总之,随你怎么设置,你自己知道标识的意义就行。
更改自定义词典后,需重启OneNote才能生效
在同一个OneNote生命周期(即打开OneNote到关闭OneNote这个时间段)内,若已经调用了一次“分词”功能,之后更改自定义词典,再调用“分词”功能时,程序依旧会加载第一次调用时加载的那个字典文件,若想后续更改的词典生效,必须重启OneNote才行。
词典只在分词器首次初始化时加载并缓存,这是为了优化性能而做的设计,并非Bug,这里就不做处理了。
停词词典
停词词典的规范就更简单了,一行一个词语就行。
停词词典中的词语,在分词时会直接跳过,不会出现在分词结果中。例如“即使”、“假如”、“什么”等等词语,对你提取文章关键词不会有什么意义,没必要出现在分词结果中。
分词结果的实用性、简洁性在很大程度上取决于你特有的自定义词典和停词词典,这两个词典应该根据你的实际需求进行不断优化,词典越完善,分词结果就会越简洁实用。

公众号“小斯想”主界面对话框回复“01”,获取最新版“小斯想工具箱”以及OneMore的安装文件。
公 众 号 :注意两个号的区别,小斯想


温馨提示:本站发布的压缩包如需密码解压,若无特别说明,密码统一为:cas01.com
版权声明:本文为原创文章,版权归 小斯 所有,转载请保留出处。