一种图像描述的方法及装置论文和设计-宋振旗

全文摘要

本申请提供一种图像描述的方法及装置，所述方法包括：利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征；对多个第一特征提取模型生成的图像特征进行融合处理，生成目标图像对应的全局图像特征；利用第二特征提取模型对目标图像进行特征提取得到目标图像对应的目标检测特征；将目标图像对应的全局图像特征和目标检测特征输入至翻译模型，将生成的翻译语句作为目标图像的描述语句，从而在后续将目标图像对应的全局图像特征和目标检测特征输入至翻译模型生成翻译语句的过程中，有更为丰富图像信息的全局图像特征作为参考，使输出的翻译语句更加准确。

主设计要求

1.一种图像描述的方法，其特征在于，包括：利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；将所述目标检测特征和所述全局图像特征输入至翻译模型的编码器，生成所述编码器输出的编码向量，其中，所述翻译模型包括编码器和解码器，所述编码器包括N个依次连接的编码层，其中，N为大于1的整数；将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句；其中，将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量，包括：S11、将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；S12、将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；S13、判断i是否等于N，若否，将i自增1，执行步骤S12，若是，执行步骤S14；S14、将第N个编码层的输出向量作为所述编码器输出的编码向量。

设计方案

1.一种图像描述的方法，其特征在于，包括：

利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

将所述目标检测特征和所述全局图像特征输入至翻译模型的编码器，生成所述编码器输出的编码向量，其中，所述翻译模型包括编码器和解码器，所述编码器包括N个依次连接的编码层，其中，N为大于1的整数；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句；

其中，将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量，包括：

S11、将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

S12、将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

S13、判断i是否等于N，若否，将i自增1，执行步骤S12，若是，执行步骤S14；

S14、将第N个编码层的输出向量作为所述编码器输出的编码向量。

2.如权利要求1所述的方法，其特征在于，对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征，包括：

对所述多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征；

对所述多个中间特征进行拼接，生成初始全局特征；

将所述初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。

3.如权利要求1所述的方法，其特征在于，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量，包括：

将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；

将所述第一中间向量和所述全局图像特征输入至所述第二编码自注意力层，得到第二中间向量；

将所述第二中间向量经过所述第一前馈层进行处理，得到第一个编码层的输出向量。

4.如权利要求1所述的方法，其特征在于，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，包括：

将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；

将所述第三中间向量和所述全局图像特征输入至第二编码自注意力层，得到第四中间向量；

将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。

5.如权利要求1所述的方法，其特征在于，所述解码器包括M个依次连接的解码层，其中，M为大于1的整数；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量，包括：

S21、将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量；

S22、将第j-1个解码层的输出向量、所述编码向量和所述全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M；

S23、判断j是否等于M，若否，将j自增1，执行步骤S22，若是，执行步骤S24；

S24、将第M个解码层的输出向量作为所述解码器输出的解码向量。

6.如权利要求5所述的方法，其特征在于，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量，包括：

将所述参考解码向量经过所述第一解码自注意力层进行处理，得到第五中间向量；

将所述第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；

将所述第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；

将所述第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。

7.如权利要求5所述的方法，其特征在于，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，包括：

将第j-1个解码层的输出向量经过所述第一解码自注意力层进行处理，得到第八中间向量；

将所述第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；

将所述第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；

将所述第十中间向量经过所述第二前馈层进行处理，得到第j个解码层的输出向量。

8.一种图像描述的装置，其特征在于，包括：

特征提取模块，被配置为利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

全局图像特征提取模块，被配置为对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

目标检测特征提取模块，被配置为利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

翻译模块，被配置为将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句；

所述翻译模型包括编码器和解码器，所述编码器包括N个依次连接的编码层，其中，N为大于1的整数；

所述翻译模块包括：

编码模块，被配置为将所述目标检测特征和全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量；

解码模块，被配置为将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

语句生成模块，被配置为根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句；

所述编码模块包括：

第一处理单元，被配置为将所述目标检测特征和全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

第二处理单元，被配置为将第i-1个编码层的输出向量和全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

第一判断单元，被配置为判断i是否等于N，若否，将i自增1，执行第二处理单元，若是，执行编码向量生成单元；

编码向量生成单元，被配置为将第N个编码层的输出向量作为编码器输出的编码向量。

9.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。

10.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。

设计说明书

技术领域

本申请涉及图像处理技术领域，特别涉及一种图像描述的方法及装置、计算设备和计算机可读存储介质。

背景技术

图像描述，就是根据图像自动生成一段描述性文字，类似于“看图说话”。对于人来说，图像描述是简单而自然的一件事，但对于机器来说，这项任务却充满了挑战性。原因在于机器不仅要能检测出图像中的物体，而且要理解物体之间的相互关系，最后还要用合理的语言表达出来。

现有技术中，图像描述的过程中需要机器对目标图像提取局部信息和全局信息，并将全局信息和局部信息输入至翻译模型，并根据翻译模型输出的语句作为图像对应的描述信息。目前的图像描述任务中，大多使用单一的特征提取模型对目标图像进行全局信息的提取。此种情况下，特征提取模型对全局信息的提取，依赖该特征提取模型自身的性能，有的特征提取模型会关注到图像中的一类信息，有的特征提取模型会关注到图像中的另一类信息，这样会导致在后续过程中翻译模型往往不能以图像对应的完整的全局信息作为参考，导致输出的语句有偏差。

发明内容

有鉴于此，本申请实施例提供了一种图像描述的方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例提供了一种图像描述的方法，包括：

利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。

可选地，对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征，包括：

对所述多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征；

对多个所述中间特征进行拼接，生成初始全局特征；

将所述初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。

可选地，所述翻译模型包括编码器和解码器；

将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句，包括：

将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量；

根据所述解码器输出的解码向量生成对应的翻译语句，并将所述翻译语句作为所述目标图像的描述语句。

可选地，编码器包括N个依次连接的编码层，其中，N为大于1的整数；

将所述目标检测特征和所述全局图像特征输入至所述翻译模型的编码器，生成所述编码器输出的编码向量，包括：

S11、将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量；

S12、将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，其中，2≤i≤N；

S13、判断i是否等于N，若否，将i自增1，执行步骤S12，若是，执行步骤S14；

S14、将第N个编码层的输出向量作为所述编码器输出的编码向量。

可选地，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将所述目标检测特征和所述全局图像特征输入至第一个编码层，得到第一个编码层的输出向量，包括：

将所述目标检测特征输入至第一编码自注意力层，得到第一中间向量；

将所述第一中间向量和所述全局图像特征输入至所述第二编码自注意力层，得到第二中间向量；

将所述第二中间向量经过所述第一前馈层进行处理，得到第一个编码层的输出向量。

可选地，所述编码层包括：第一编码自注意力层、第二编码自注意力层和第一前馈层；

将第i-1个编码层的输出向量和所述全局图像特征输入至第i个编码层，得到第i个编码层的输出向量，包括：将所述第i-1个编码层的输出向量输入至第一编码自注意力层，得到第三中间向量；将所述第三中间向量和所述全局图像特征输入至第二编码自注意力层，得到第四中间向量；将所述第四中间向量经过第一前馈层进行处理，得到第i个编码层的输出向量。

可选地，解码器包括M个依次连接的解码层，其中，M为大于1的整数；

将所述编码向量以及所述全局图像特征输入至解码器，生成所述解码器输出的解码向量，包括：

S21、将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量；

S22、将第j-1个解码层的输出向量、所述编码向量和所述全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，其中，2≤j≤M；

S23、判断j是否等于M，若否，将j自增1，执行步骤S22，若是，执行步骤S24；

S24、将第M个解码层的输出向量作为所述解码器输出的解码向量。

可选地，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将参考解码向量、所述编码向量和所述全局图像特征输入至第一个解码层，得到第一个解码层的输出向量，包括：

将所述参考解码向量经过所述第一解码自注意力层进行处理，得到第五中间向量；将所述第五中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第六中间向量；将所述第六中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第七中间向量；将第七中间向量经过第二前馈层进行处理，得到第一个解码层的输出向量。

可选地，所述解码层包括：第一解码自注意力层、第二解码自注意力层、第三解码自注意力层和第二前馈层；

将第j-1个解码层的输出向量、编码向量和全局图像特征输入至第j个解码层，得到第j个解码层的输出向量，包括：

将第j-1个解码层的输出向量经过所述第一解码自注意力层进行处理，得到第八中间向量；

将所述第八中间向量和所述全局图像特征经过所述第二解码自注意力层进行处理，得到第九中间向量；

将所述第九中间向量和所述编码向量经过所述第三解码自注意力层进行处理，得到第十中间向量；

将所述第十中间向量经过所述第二前馈层进行处理，得到第j个解码层的输出向量。

本申请实施例公开了一种图像描述的装置，包括：

特征提取模块，被配置为利用多个第一特征提取模型对目标图像进行特征提取，得到每个所述第一特征提取模型生成的图像特征；

全局图像特征提取模块，被配置为对所述多个第一特征提取模型生成的图像特征进行融合处理，生成所述目标图像对应的全局图像特征；

目标检测特征提取模块，被配置为利用第二特征提取模型对所述目标图像进行特征提取，得到所述目标图像对应的目标检测特征；

翻译模块，被配置为将所述目标图像对应的所述全局图像特征和所述目标检测特征输入至翻译模型，将生成的翻译语句作为所述目标图像的描述语句。

本申请实施例公开了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现如上所述的图像描述的方法的步骤。

本申请实施例公开了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如上所述的图像描述的方法的步骤。

本申请提供的图像描述的方法及装置，通过利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征，克服了单一特征提取模型过于依赖模型自身性能的缺陷，对多个第一特征提取模型生成的图像特征融合生成目标图像对应的全局图像特征，从而在后续将目标图像对应的全局图像特征和目标检测特征输入至翻译模型生成翻译语句的过程中，有更为丰富图像信息的全局图像特征作为参考，使输出的翻译语句更加准确。

其次，本实施例通过多个第一特征提取模型对目标图像进行特征提取，并把多个第一特征提取模型提取到的图像特征进行拼接得到初始全局特征，从而可以使初始全局特征尽可能地包含目标图像的更全的特征，然后再经过多个第二自注意力层进行融合，获取需要重点关注的目标区域，而后对这一区域投入更多的注意力计算资源，获取更多与目标图像有关的细节信息，而忽视其他无关信息。通过这种机制可以利用有限的注意力计算资源从大量信息中快速筛选出高价值的信息，得到包含更为丰富的图像信息的全局图像特征。

再次，本方法将目标检测特征和全局图像特征输入至编码器，从而可以在每个编码层的编码过程中，将包含有丰富图像信息的全局图像特征作为背景信息，得到的每个编码层的编码向量可以更多地提取到图像的信息，使输出的翻译语句更加准确。

另外，本方法将全局图像特征输入至解码器的每个解码层，从而可以在每个解码层的解码过程中，将包含有丰富图像信息的全局图像特征作为背景信息，可以使解码得到的解码向量与图像信息的对应度更高，使输出的翻译语句更加准确。

附图说明

图1是本申请一实施例的计算设备的结构示意图；

图2是本申请一实施例的图像描述的方法的流程示意图；

图3是本申请一实施例的图像描述的方法的流程示意图；

图4是本申请一实施例的翻译模型的编码层的结构示意图；

图5是本申请一实施例的翻译模型的解码层的结构示意图；

图6是本申请另一实施例的图像描述的方法的示意图；

图7是本申请另一实施例的图像描述的装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和\/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

图像特征融合：指在图像特征输入阶段使用多个预训练的卷积网络提取的特征进行融合代替单一图像特征，从而给训练网络提供更丰富的特征输入。

RNN（Recurrent Neural Network，递归神经网络）模型：是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关。RNN模型通过添加跨越时间点的自连接隐藏层，对时间进行建模；换句话说，隐藏层的反馈不仅仅进入输出端，而且还进入了下一时间的隐藏层。

Transformer：一种翻译模型，其架构包括：编码器（encoder）—解码器（decoder）。编码器实现对待翻译的源语句进行编码生成向量，解码器实现对源语句的向量进行解码生成对应的目标语句。

图像描述（image caption）：一个融合计算机视觉、自然语言处理和机器学习的综合问题，根据图像给出能够描述图像内容的自然语言语句，通俗讲，它就是翻译一副图片为一段描述文字。

自注意力计算：例如输入一个句子进行自注意力计算，那么里面的每个词都要和该句子中的所有词进行自注意力计算，目的是学习句子内部的词依赖关系，捕获句子的内部结构。对输入的图像特征进行自注意力计算，会对每个特征与其他特征进行自注意力计算，目的是学习图像内部的特征依赖关系。

全局图像特征：为目标图像对应的全部特征。

目标检测特征：为目标图像中特定区域的特征。

在本申请中，提供了一种图像描述的方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网（PSTN）、局域网（LAN）、广域网（WAN）、个域网（PAN）或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC））中的一个或多个，诸如IEEE802.11无线局域网（WLAN）无线接口、全球微波互联接入（Wi-MAX）接口、以太网接口、通用串行总线（USB）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC）接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的图像描述方法的示意性流程图，包括步骤201至步骤204。

201、利用多个第一特征提取模型对目标图像进行特征提取，得到每个第一特征提取模型生成的图像特征。

具体地，第一特征提取模型可以为多个，包括：VGG（Visual Geometry GroupNetwork，视觉几何组网络）、Resnet模型、Densnet模型、inceptionv3模型等卷积网络模型。

需要说明的是，多个第一特征模型提取的图像特征的尺寸相同。通过设置第一特征模型的卷积层参数，可以调节图像特征的尺寸。例如对于提取的图像特征为224*224*3，其中224*224是图像特征的高度*宽度，即图像特征的尺寸；3是通道数，也即图像特征的个数。通常情况下，输入图像的高度和宽度相等，卷积层的卷积核大小可以根据实际需求而设置，常用的卷积核有1*1*1、3*3*3、5*5*5、7*7*7等。

另外还需要说明的是，对于多个第一特征模型，生成的特征大小相同，但是图像特征的个数可以彼此不同。例如第1个第一特征提取模型生成的图像特征为P*Q*L1，也即图像特征为L1个，图像特征的尺寸为P*Q；第2个第一特征提取模型生成的图像特征为P*Q*L2，也即图像特征为L2个，图像特征的尺寸为P*Q，其中，P*Q是图像特征的高度*宽度，L1和L2分别为第1个第一特征模型和第2个第一特征模型生成的图像特征的个数。

202、对多个第一特征提取模型生成的图像特征进行融合处理，生成目标图像对应的全局图像特征。

具体地，步骤202包括：

S2021、对多个第一特征提取模型生成的图像特征分别通过对应的第一自注意力层进行特征提取，得到多个中间特征。

其中，第一自注意力层包括多头自注意力层和前馈层。本步骤中第一自注意力层的个数与第一特征提取模型的个数相同。

具体地，以5个第一特征提取模型为例，该5个第一特征模型均对同一图像进行处理生成对应的图像特征，然后将每个第一特征提取模型生成的图像特征通过对应的第一自注意力层进行特征提取，得到生成的中间特征。

S2022、对多个中间特征进行拼接，生成初始全局特征。

其中，拼接处理可以通过调用contact函数来实现。

具体地，仍以5个第一特征提取模型为例，将5个第一特征提取模型对应的第一自注意力层生成的中间特征进行拼接处理，生成1个初始全局特征。例如第1个第一特征提取模型对应的第一自注意力层生成A1个中间特征，中间特征的尺寸为P*Q，第2个第一特征提取模型对应的第一自注意力层生成A2个中间特征，中间特征的尺寸为P*Q，第3个第一特征提取模型对应的第一自注意力层生成A3个中间特征，中间特征的尺寸为P*Q，第4个第一特征提取模型对应的第一自注意力层生成A4个中间特征，中间特征的尺寸为P*Q，第5个第一特征提取模型对应的第一自注意力层生成A5个中间特征，中间特征的尺寸为P*Q。那么拼接处理后的初始全局特征包含（A1+ A2+ A3+ A4+ A5）个特征。

需要说明的是，本步骤为将多个中间特征进行拼接，并不进行进一步地融合处理，所以，相比于中间特征，生成的初始全局特征中特征之间的关系并未改变，这也就意味着初始全局特征的特征会有部分重复，此类特征会在后续步骤中进一步地进行处理。

S2023、将初始全局特征通过至少一个第二自注意力层进行融合处理，生成全局图像特征。

其中，第二自注意力层包括多头自注意力层和前馈层。本步骤中第二自注意力层的个数可以为多个，根据实际需求而设置。

可以注意到的是，第二自注意力层的结构与第一自注意力层的结构可以为相同，其目的均是为了对输入的向量进行自注意力处理，以提取后续步骤中需要进行处理的向量。但是不同的是，在第一自注意力层和第二自注意力层均为多个的情形下，多个第一自注意力层为并行地对每个第一特征提取模型生成的图像特征进行处理，而第二自注意力层为串行地对初始全局特征进行逐层处理。

经过多个中间特征进行拼接生成的初始全局特征，经过第二自注意力层进行融合处理，会促使不同特征之间的相互融合。

例如对于初始全局特征包含C类的特征C1，以及C类的特征C2，二者之间的关联性较强。在通过第二自注意力层进行融合处理的过程中，第二自注意力层会关注到关联性强的特征C1和C2，并根据特征C1和C2融合得到特征C1’。

又例如初始全局特征包含重复的多个D类的特征D1，在通过第二自注意力层进行融合处理的过程中，第二自注意力层会关注到重复的多个特征D1，并将重复的多个特征D1生成一个D类的特征D1。

本实施例中，特征融合的方法有很多，例如泊松融合方法、加权平均法、羽化算法、拉普拉斯融合算法、自注意力算法等，本实施例优选使用自注意力算法。

例如，可以用键值对（key-value）来表示输入信息，其中，地址Key代表键，value代表该键对应的值。“键”用来计算注意力分布，“值”用来计算聚合信息。那么n个输入信息就可以表示为（K,V）= [(k _{1<\/sub>,v_{1<\/sub>),(k_{2<\/sub>,v_{2<\/sub>),...,(k_{n<\/sub>,v_{n<\/sub>)]。}}}}}}

具体地，可以先根据下面公式（1），计算Query和Key的相似度：

S_{i<\/sub>=F(Q, k _{i<\/sub>) （1）}}

其中，S_{i<\/sub>为注意力得分；}

Q为Query，为查询向量；

k_{i<\/sub>对应于每个key向量。}

然后，通过公式（2）用softmax函数对注意力得分进行数值转换。一方面可以进行归一化，得到所有权重系数之和为1的概率分布，另一方面可以用softmax函数的特性突出重要元素的权重：

α_{i<\/sub>=softmax(s_{i<\/sub>)=设计图}}

一种图像描述的方法及装置论文和设计

一种图像描述的方法及装置论文和设计-宋振旗

全文摘要

主设计要求

设计方案

设计说明书

相关信息详情

猜你喜欢