全文摘要
本发明公开了一种快速提取文本摘要的方法,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。本发明,实现快速提取文本摘要,且所提取的文本摘要能显著反应文本的真实语义,保证提取的效果。
主设计要求
1.一种快速提取文本摘要的方法,其特征在于,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。
设计方案
1.一种快速提取文本摘要的方法,其特征在于,包括以下步骤:
步骤S10,对待处理文档进行预处理,以形成若干条句子;
步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;
步骤S30,进行迭代计算以获取第一句子权重矩阵;
步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;
步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;
步骤S60,基于第二句子权重矩阵确定文本摘要。
2.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S10具体包括:
步骤S11,对待处理文档中的标点符号进行删除处理;
步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子。
3.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S30具体包括:
步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:
设计说明书
技术领域
本发明属于文字处理技术领域,尤其涉及一种快速提取文本摘要的方法。
背景技术
目前,现有的对于文本摘要的方法很多,比如第一个方法,基于词频-逆文档词频(TF-IDF)的文本摘要方法,其原理是该方法认为的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。而自动摘要就是要找出那些包含信息最多的句子。句子的信息量用”关键词”来衡量。如果包含的关键词越多,就说明这个句子越重要。而关键词的提取则是利用本身文档的词频与语料库中其他文档的逆词频相结合,得到关键词群。再利用关键词群去判断文档中各个句子的重要性。
上述TFIDF算法提取关键词的效果严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练。另外,对于I DF来说,本身倾向于文本中频率小的词,这使得TF-IDF算法的精度不高。TF-IDF不能反应词的位置信息,在对关键词进行提取的时候,词的位置信息,例如文本的标题、文本的首句和尾句等含有较重要的信息,应该赋予较高的权重。同时逆词频(I DF)是一种强烈依赖词频统计的方法,单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,并且认定重要句子就应该包括更多的关键词,这对于大部分文本信息,并不是完全正确的。与此同时TF-I DF算法也未将语义信息考虑进去。所以其抽取句子组合成的文摘效果并不好,关联性低。
因此,现有技术有待于改善。
发明内容
本发明的主要目的在于提出一种快速提取文本摘要的方法,旨在解决背景技术中所提及的技术问题,实现快速提取文本摘要,且所提取的文本摘要与文本的标题关联性高,保证提取的效果。
本发明的快速提取文本摘要的方法,包括以下步骤:
步骤S10,对待处理文档进行预处理,以形成若干条句子;
步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;
步骤S30,进行迭代计算以获取第一句子权重矩阵;
步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;
步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;
步骤S60,基于第二句子权重矩阵确定文本摘要。
优选地,步骤S10具体包括:
步骤S11,对待处理文档中的标点符号进行删除处理;
步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子。
优选地,步骤S30具体包括:
步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:
其中,x代表句子i的句向量,y代表句子j的句向量,m为元素下标;
步骤S32,基于句子间相似度计算相似度矩阵,相似度矩阵对应的公式为:
其中,wij指句子i与句子j的句子间相似度;
步骤S33,基于相似度矩阵和句子间相似度,计算第一句子权重矩阵,第一句子权重矩阵对应的公式为:
其中,wss代表WS矩阵前一时刻(t-1)的元素,m为元素下标,d为衰减因子。
优选地,位置信息包括候选句子在待处理文档中的所在位置。
优选地,标题相似度信息包括候选句子与标题的相似度。
优选地,步骤S50具体包括:
步骤S51,基于候选句子在待处理文档的所在位置计算位置信息矩阵,位置信息矩阵对应的公式为:设计图
相关信息详情
申请码:申请号:CN201910543097.3
申请日:2019-06-21
公开号:CN110287309A
公开日:2019-09-27
国家:CN
国家/省市:94(深圳)
授权编号:授权时间:主分类号:G06F 16/34
专利分类号:G06F16/34;G06F17/27;G06K9/62
范畴分类:40B;
申请人:深圳大学
第一申请人:深圳大学
申请人地址:518000 广东省深圳市南山区南海大道3688号
发明人:代明军;谢立;陈彬;林晓辉;苏恭超;王晖
第一发明人:代明军
当前权利人:深圳大学
代理人:陈凯昆
代理机构:44248
代理机构编号:深圳市科吉华烽知识产权事务所(普通合伙)
优先权:关键词:当前状态:审核中
类型名称:外观设计