加急见刊

基于领域知识的增强约束词向量

王恒升; 刘通; 任晋 中南大学机电工程学院; 湖南长沙410083; 中南大学高性能复杂制造国家重点实验室; 湖南长沙410083

摘要:词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除了利用语料中词语上下文关系外,还将本体知识作为约束条件进行词向量的训练,增强了词向量的语义表达。基于skip-gram模型,采用多任务的神经网络训练方法,在自己收集的语料上训练得到了针对领域的词向量。实验表明,基于领域知识的增强约束词向量能够更准确地表达词的语义信息。

注: 保护知识产权,如需阅读全文请联系中文信息学报杂志社