词频、互信息、信息熵发现中文新词

词提取任务是文本挖掘的一个重要环节,本文的方法通过文本自身的特点,用互信息和信息熵来提取文本中的词。

新词发现任务是中文自然语言处理的重要步骤。新词有“新”就有“旧”,属于一个相对个概念,在相对的领域(金融、医疗),在相对的时间(过去、现在)都存在新词。文本挖掘会先将文本分词,而通用分词器精度不过,通常需要添加自定义字典补足精度,所以发现新词并加入字典,成为文本挖掘的一个重要工作。
Continue reading “词频、互信息、信息熵发现中文新词”