Month: April 2017
RNN的Seq2Seq模型做命名实体识别
seq2seq 具有极强的时序能力,在自然语言处理(NLP)中是一个很强的模型,最近一段时间,在工程方面将该模型引入做命名实体识别(NER)也取得不错的效果。推荐G.Hinton的论文“Grammar as a Foreign Language”,讲述了如何用seq2seq做序列标注。
seq2seq 具有极强的时序能力,在自然语言处理(NLP)中是一个很强的模型,最近一段时间,在工程方面将该模型引入做命名实体识别(NER)也取得不错的效果。推荐G.Hinton的论文“Grammar as a Foreign Language”,讲述了如何用seq2seq做序列标注。
Continue reading “RNN的Seq2Seq模型做命名实体识别”
自然语言处理中做字符级embedding的一种检索思路
自然语言处理中字符级的embedding可以通过unicode的编码来做索引
自然语言处理中需要将字、词或句子做embedding之前,一般会将对象转成一个字典中的索引,比如
假如,要处理字符级的索引问题,建议使用unicode的方式,这样可以直接获取唯一的编码
在Python中通过ord函数实现:
ord=(u"吃") # 21507