之前分享过几部剧集的词频,当时提取单词的方法比较粗糙,很多细节并没有处理。最近这段时间升级了算法,输出词频的同时,增加输出了单词等级,单词本变得更全面,更精确,更有针对性。
总词汇生词本
总词汇生词本,即全剧出现过的所有单词。总词汇生词本可以当做剧集专用字典来用。
词频分区间生词本
词频,单词在全剧中出现的总次数。“TBBT词频5—9.txt”单词本中,“5—9”指的是在该剧中出现过5到9次的单词。
根据词频背单词,实际上是对单词的重要程度进行了区分。词频高,代表单词出现的次数多,是该剧中比较常用的词汇。用词频生词本背单词时,可按词频从高到低的顺序背。
词频,能在一定程度上代表单词在该剧中的常用程度,但却未必能代表该单词在日常场景中的使用频率及重要性。谈到重要性,应试的等级显然更具参考性。
之前分享的单词本,只包含了总词汇和词频这两种成果。从现在开始,分享单词本时会增加另外两种成果:单词等级分类生词本、词汇词频及等级总表。
单词等级分类生词本
目前将单词等级分为了六大类:小学、中学、大学、留学、词典、其他。下图是《生活大爆炸》全12的总单词等级分布。
以《大爆炸》全剧词汇为例,详细介绍各个等级:
小学:最基本最常见的那些单词(what、you、know)。很多人基本能直接跳过该单词本。《大爆炸》中,该等级词汇占比6%
中学:初高中词汇。中学单词有一定难度了,如果用的不多,其中很多单词可能都不熟悉了,需要重新记忆。该等级词汇占比19%,是大头,但至于需要记的单词有多少,那就看个人实际情况了。
大学:包括四六级及研究生考试等词汇。这个单词本显然是需要重点记忆的。
留学:包括托福、雅思、GMAT等应试词汇。如果真想吃透一部剧,这个单词本建议也好好背一下。占比13%,还挺高。
词典:暂未划分进以上应试范围的词汇。这个单词本占比38%,远高于其他类比。很多单词虽不属于应试范围,但并不代表不常用,尤其在口语中,可能很常用。例如,sexy、bitch、creepy、breakup、batman等,都在这个单词本中。不过这个单词本占比虽高,但词频1至2的单词在该单词本中占比超过70%。例如,scoliosis、endocrine这类生僻单词,就在这里。该单词本占比虽高,但其实大部分都是生僻词(参考词频),这类可以选择记忆甚至不用记忆。
以上就是划分的5个规范类别。而不属于上述类别的词汇,统一放进了“其他”这个类别。这个类别成分复杂,像一些不常见的人名(gablehauser)、产品名称(xbox)、自造词(preevning、bazinga)、生僻词(cornhusker)、还有错词(分词方法,或原始文本本身存在错误导致)等等,均在这个类别。参考词频,这个单词本绝大部分都没必要记。
综上,“小学”基本不用记,“词典”和“其他”参考词频只需选择性的记一小部分,需要重点记忆的是“中学”、“大学”和“留学”三个生词本。根据等级这么一划分,其实可以干掉近一半单词了。
词汇词频及等级总表
注意,所有单词本默认都是按词频从高到低进行排列的。以上介绍的三类单词本均只保留了单词,可直接导入词典类应用的生词本。
为了方便大家进行自定义汇总或分析,增加导出了一个包含词汇、词频及等级的TXT总表,全选后复制进Excel,就可以按自己需求做相关处理了。总表的单词列和总词汇生词本中的单词完全一样,就是多出了词频、等级两个列。
两套成果:合并、不合并单词形态
以前分享的成果,就是按照原始文本原样提取单词,这样会造成很多重复词,例如同一单词的单复数、时态变形等不同形态,全部会当成独立单词提取出来,但这些不同形态实际上都代表同一个词。
现在新增了一套成果,对这一情况做了优化,会将单词的不同形态全部当作原始形态的单词来处理。例如,friend、friends、friendly,都当成friend处理;have、has、had,都当成have。
《生活大爆炸》全剧,合并形态前,单词总数超2.42万;合并形态后,单词总数仅1.78万,减少了近6400个词。个人比较偏向合并形态后的这套成果,更精准。不过,有人可能更喜欢前一套,有人会觉得两套一起用也不错。索性,两套成果都分享出来,大家按自己的喜好来即可。
本站(小斯想:cas01.com)之前分享过《生活大爆炸》和《神探夏洛克》等剧的剧本及词汇资源,之后也会陆续分享其他经典美剧、电影、纪录片的词汇及(中英)剧本资源。感兴趣的朋友可以保持关注。
公 众 号 :注意两个号的区别,小斯想(OneNote为主);cas01(知识管理理论及实践)。
温馨提示:本站发布的压缩包如需密码解压,若无特别说明,密码统一为:cas01.com
版权声明:本文为原创文章,版权归 小斯 所有,转载请保留出处。