摘要
论文中引入 transformer 的结构,其中注意力模型在对话轮的顺序上面起了了作用.最近我们使用递归神经网络多轮对话的上下文中用户说的话,但是我们原本认为注意力模型会更适合多轮场景.默认情况下,RNN假设每个选项和完整的序列有关,但是一轮对话当中包括一些交错的对话逻辑在里面. transformer 模型可以选择忽略或者选择对话的一部分内容.们比较了 Transformer Embedding Dialogue对话策略对LSTM和REDP的政策.旨在克服RNN的这一限制。我们证明了TED的政策无论是在准确性还是速度上,行为都是比较有利的。
简介
对话式人工智能助手承诺通过自然语言帮助用户完成任务。解释一些简单的指令,比如请打开灯,相对来说比较简单,但是要处理更复杂的任务,这些系统必须能够进行多回合对话.
谈话中的每一句话不一定非得是对方最近的一句话的回应。Groz和Sidner[3]认为对话是一组交错的话语片段,其中一个话语片段(或话题)是一组直接相互回应的话语。在谈话中,这些轮流的顺序可能不直接跟着对方。一个直观的例子是面向任务的对话系统中需要子对话。考虑这段对话:
BOT: Your total is $15.50 - shall I charge the card you used last time?
USER: do I still have credit on my account from that refund I got?
BOT: Yes, your account is $10 in credit.
USER: Ok, great.
BOT: Shall I place the order?
USER: Yes.
BOT: Done. You should have your items tomorrow.
Dialogue Stacks
助理的问题我可以点菜吗?提示返回手头的任务:完成购买一种模式是将这些子对话视为在堆栈、预印本上存在。在审查中,新主题在引入时被推到堆栈上,并在结束后从堆栈中弹出。
20世纪80年代,Groz和Sidner[3]主张将对话历史表示为一堆主题,后来RavenClaw[4]对话系统实现了一个对话堆栈,用于处理子对话。虽然堆栈自然允许处理和结束子对话,但堆栈的严格结构也有限制。拉文克劳的作者主张显式跟踪主题以启用用户意图的上下文解释。但是,一旦从对话堆栈中弹出一个主题,就无法再提供此上下文。在上面的例子中,用户可能会继续问一个类似这样的问题,这样就耗尽了我的信用,对吧?。如果退款积分的主题已经从堆栈中弹出,这将不再有助于澄清用户想要知道的内容。由于原则上没有限制人类如何在对话中重新访问和插入话题,所以我们感兴趣的是比堆栈更灵活的结构。
Recurrent Neural Networks
近年来,一个常见的选择是使用一个递归神经网络(RNN),用于处理开放域和任务导向系统。如果有足够的训练数据,RNN应该能够学习任何想要的行为。然而,在一个典型的低资源环境中,没有用于训练特定对象的大型语料库任务是可用的,不能保证RNN实际上会学习概括这些行为。先前关于修改基本RNN结构以包含此行为的归纳偏差的工作弗拉索夫等人实施了一项对话政策。和Sahay等人。这些作品旨在克服了RNNs不适合对话建模的特点。默认使用RNN生成编码的整个输入元素序列,除非长期短期记忆(LSTM)单元接受足够的数据训练,以明确地知道它应该“忘记”序列的一部分。
Transformers
近年来,Transformers结构已经取代了递归神经网络作为训练语言模型的标准,有Transformer XL[9]和GPT等模型-2在各种语料库中产生许多困惑和产生陈述。对于各种下游任务是有用的。此外,Transformers对处理异常的输入更为稳健.
由于Transformers选择序列中的哪些元素用于在每个步骤生成编码器状态,我们假设它可能是处理对话历史的有用架构。这个会话中的话语序列可以代表多个交错的话题,而转换者的自我注意机制可以同时学习去理清这些话语片段也要做出适当的反应.
相关工作
开放领域的Transformers
Henderson等人在Reddit的一个大数据集上训练答案选择模型,对话上下文和答案都是用一个转换器编码的,它们表明这些架构可以在一个大的、多样的数据集上预先训练,然后针对特定领域中的面向任务的对话进行微调。Dinan等人使用了类似的方法,使用transformers对对话上下文和背景知识进行编码,以研究基于开放域的对话。他们提出的架构有两种形式:
- 一种是检索模型,其中另一个转换器用于对通过排名选择的候选响应进行编码;
- 另一种是生成模型,其中一个转换器用作解码器,通过令牌生成响应令牌。
与这些方法的关键区别在于,我们在话语层面运用attention模型,关注对话轮回的顺序,而不是单个轮回中的标记顺序。
Topic disentanglement in task-oriented dialogue
Recurrent Embedding Dialogue Policy (REDP) : 本文的消融研究强调了REDP性能的提高是由于对话历史上的注意力机制和从意外用户输入中恢复的复制机制。对标准RNN结构的这种修改使对话策略能够“跳过”对话历史中的特定圈数,并生成在意外输入前后相同的编码器状态。
未完待续
实验结果
参考文档
论文:Dialogue Transformers