📓
Study
  • README
  • Application
    • Contest
      • 竞赛trick
  • Basic Know
    • 半监督学习
    • 贝叶斯
      • 朴素贝叶斯分类器
    • 对抗训练
    • 概率图模型
      • CRF
      • HMM
      • 概率图模型
    • 关联分析
    • 归纳偏置
      • [什么是 Inductive bias(归纳偏置)?](BasicKnow/归纳偏置/什么是 Inductive bias(归纳偏置)?.md)
    • 聚类
    • 决策树
    • 绿色深度学习
    • 树模型&集成学习
      • 提升树
      • Ada Boost
      • [集成学习]
    • 特征工程
      • 数据分桶
      • 特征工程概述
      • 特征选择
      • LDA
      • PCA
    • 线性模型
      • 感知机
      • 最大熵模型
      • SVM
        • SVM支持向量机
      • 逻辑回归
      • 线性回归
    • 优化算法
      • 拉格朗日对偶性
      • 牛顿法
        • 牛顿法&拟牛顿法
      • 梯度下降法
        • 梯度下降算法
      • 优化算法
    • 预处理
      • [1-1]正则表达式
      • [1-2]文本预处理
      • [1-3]词性
      • [1-4]语法分析
      • [1-6]文本分类
      • [1-7]网络爬取
      • 【备用】正则表达式
      • 7.re模块
      • 词典匹配
      • 分词
      • 子表达式
      • Todo
    • 主题模型
      • LDA
    • Deep Learning
      • 反向传播
      • 梯度消失&梯度爆炸
      • Batch Size
      • 1.DLbasis
      • 小概念
      • MLstrategy
      • CNN
      • RNN及其应用
      • 关于深度学习实践
      • 神经网络概述
      • Batch Normalization
      • Program CNN
      • Program D Lbasis
      • Program DN Nimprove
      • Program Neural Style Transfer
      • Summer DL
    • EM算法
    • GAN
      • Gans In Action Master
    • GNN
      • 搜广推之GNN
      • Representation Learning
        • Anomalydetection
        • Conclusion
        • Others
        • Papernotes
        • Recommadation
    • k近邻法
      • K近邻
    • Language Model
      • 语言模型解码采样策略
      • [1-1][语言模型]从N-gram模型讲起
      • [1-2][语言模型]NNLM(神经网络语言模型)
      • [1-3][语言模型]基于RNN的语言模型
      • [1-4][语言模型]用N-gram来做完形填空
      • [1-5][语言模型]用KenLM来做完形填空
    • Loss Function
      • 常用损失函数
      • Focal Loss
      • softmax+交叉熵
    • Machine Learning
      • [基础]概念
      • 待整合
      • 交叉验证
      • 无监督学习
      • 优缺点
      • ML Yearning
      • SVD
    • Statistics Math
      • 程序员的数学基础课
      • 数学基础
      • 统计&高数
      • 统计题目
      • 线性代数
      • 组合数学
      • Discrete Choice Model
      • Nested Choice Model
  • Course Note
    • 基于TensorFlow的机器学习速成课程
      • [Key ML Terminology](CourseNote/基于TensorFlow的机器学习速成课程/Key ML Terminology.md)
    • 集训营
      • 任务说明
      • 算法实践1.1模型构建
      • 算法实践1.2模型构建之集成模型
      • 算法实践2.1数据预处理
    • 李宏毅机器学习
      • 10DNN训练Tips
        • Chapter 18
      • 16无监督学习
        • Chapter 25
    • 贪心NLP
      • 贪心NLP笔记
    • Cs 224 N 2019
      • [A Simple But Tough To Beat Baseline For Sentence Embeddings](CourseNote/cs224n2019/A Simple but Tough-to-beat Baseline for Sentence Embeddings.md)
      • [Lecture 01 Introduction And Word Vectors](CourseNote/cs224n2019/Lecture 01 Introduction and Word Vectors.md)
      • [Lecture 02 Word Vectors 2 And Word Senses](CourseNote/cs224n2019/Lecture 02 Word Vectors 2 and Word Senses.md)
      • [Lecture 03 Word Window Classification Neural Networks And Matrix Calculus](CourseNote/cs224n2019/Lecture 03 Word Window Classification, Neural Networks, and Matrix Calculus.md)
      • [Lecture 04 Backpropagation And Computation Graphs](CourseNote/cs224n2019/Lecture 04 Backpropagation and Computation Graphs.md)
      • [Lecture 05 Linguistic Structure Dependency Parsing](CourseNote/cs224n2019/Lecture 05 Linguistic Structure Dependency Parsing.md)
      • [Lecture 06 The Probability Of A Sentence Recurrent Neural Networks And Language Models](CourseNote/cs224n2019/Lecture 06 The probability of a sentence Recurrent Neural Networks and Language Models.md)
      • Stanford NLP
    • Deep Learning Book Goodfellow
      • Books
        • Deep Learning Book Chapter Summaries Master
      • 提纲
      • C 5
      • C 6
      • [Part I Applied Math And Machine Learning Basics](CourseNote/Deep-Learning-Book-Goodfellow/Part I - Applied Math and Machine Learning basics.md)
    • Lihang
    • NLP实战高手课
      • 极客时间_NLP实战高手课
    • 工具&资料
    • 机器学习、深度学习面试知识点汇总
    • 七月kaggle课程
    • 算法工程师
    • 贪心科技机器学习必修知识点特训营
    • 唐宇迪机器学习
    • 语言及工具
    • AI技术内参
    • Suggestions
  • Data Related
    • 数据质量
      • 置信学习
    • 自然语言处理中的数据增广_车万翔
      • 自然语言处理中的数据增广
    • Mixup
    • 数据不均衡问题
    • 数据增强的方法
  • Knowledge Graph
    • Information Extraction
      • 联合抽取
        • PRGC
      • Code
        • BERT微调
      • NER
        • 阅读理解做NER
          • MRC
        • FLAT
        • Global Pointer
        • 命名实体识别NER
    • Keyword Extraction
      • 关键词抽取
    • 小米在知识表示学习的探索与实践
    • KG
  • Multi Task
    • EXT 5
      • Ex T 5
  • NLG
    • Dailogue
      • 比赛
        • 对话评估比赛
          • [simpread-DSTC10 开放领域对话评估比赛冠军方法总结](NLG/Dailogue/比赛/对话评估比赛/simpread-DSTC10 开放领域对话评估比赛冠军方法总结.md)
      • 任务型对话
        • DST
          • DST概述
        • NLG
          • NLG概述
        • NLU
          • NLU概述
        • 任务型对话概述
        • simpread-任务型对话系统预训练最新研究进展
      • 问答型对话
        • 检索式问答
          • 基于预训练模型的检索式对话系统
          • 检索式文本问答
        • 业界分享
          • 低资源场景下的知识图谱表示学习和问答_阿里_李杨
          • QQ浏览器搜索智能问答
        • 问答型对话系统概述
      • 闲聊型对话
        • 闲聊型对话系统概述
      • 业界分享
        • 人工智能与心理咨询
        • 腾讯多轮对话机器人
        • 微软小冰
        • 小布助手闲聊生成式算法
        • 美团智能客服实践_江会星
        • 去哪儿智能客服探索和实践
        • 实时语音对话场景下的算法实践_阿里_陈克寒
        • 智能语音交互中的无效query识别_小米_崔世起
        • UNIT智能对话
      • 主动对话
      • EVA
        • EVA分享
        • EVA模型
      • PLATO
      • RASA
    • Machine Translation
      • 业界分享
        • 爱奇艺台词翻译分享
      • Paper
        • Deep Encoder Shallow Decoder
    • RAGRelated
    • Text 2 SQL
      • M SQL
        • [M SQL 2](NLG/Text2SQL/M-SQL/M-SQL (2).md)
      • [Text2SQL Baseline解析](NLG/Text2SQL/Text2SQL Baseline解析.md)
      • Text 2 SQL
    • Text Summarization
      • [文本摘要][paper]CTRLSUM
      • 文本摘要
  • Pre Training
    • 业界分享
      • 超大语言模型与语言理解_黄民烈
        • 超大语言模型与语言理解
      • 大模型的加速算法_腾讯微信
        • 大模型的加速算法
      • 孟子轻量化预训练模型
      • 悟道文汇文图生成模型
      • 悟道文澜图文多模态大模型
      • 语义驱动可视化内容创造_微软
        • 语义驱动可视化内容创造
    • Base
      • Attention
      • Mask
        • NLP中的Mask
      • Position Encoding
        • 位置编码
    • BERT
      • ALBERT
      • Bert
        • Venv
          • Lib
            • Site Packages
              • idna-3.2.dist-info
                • LICENSE
              • Markdown-3.3.4.dist-info
                • LICENSE
              • Tensorflow
                • Include
                  • External
                    • Libjpeg Turbo
                      • LICENSE
                  • Unsupported
                    • Eigen
                      • CXX 11
                        • Src
                          • Tensor
              • Werkzeug
                • Debug
                  • Shared
                    • ICON LICENSE
        • CONTRIBUTING
        • Multilingual
      • Ro BER Ta
      • BERT
      • BERT面试问答
      • BERT源码解析
      • NSP BERT
    • BERT Flow
    • BERT Zip
      • Distilling The Knowledge In A Neural Network
      • TINYBERT
      • 模型压缩
    • CPM
    • CPT
      • 兼顾理解和生成的中文预训练模型CPT
    • ELECTRA
    • EL Mo
    • ERNIE系列语言模型
    • GPT
    • MBART
    • NEZHA
    • NLG Sum
      • [simpread-预训练时代下的文本生成|模型 & 技巧](Pre-training/NLGSum/simpread-预训练时代下的文本生成|模型 & 技巧.md)
    • Prompt
      • 预训练模型的提示学习方法_刘知远
        • 预训练模型的提示学习方法
    • T 5
      • Unified SKG
      • T 5
    • Transformer
    • Uni LM
    • XL Net
    • 预训练语言模型
    • BERT变种
  • Recsys
    • 多任务Multi-task&推荐
    • 推荐介绍
    • 推荐系统之召回与精排
      • 代码
        • Python
          • Recall
            • Deep Match Master
              • Docs
                • Source
                  • Examples
                  • FAQ
                  • Features
                  • History
                  • Model Methods
                  • Quick Start
    • 业界分享
      • 腾讯基于知识图谱长视频推荐
    • 召回
    • Sparrow Rec Sys
    • 深度学习推荐系统实战
    • 推荐模型
    • Deep FM
  • Search
    • 搜索
    • 业界分享
      • 爱奇艺搜索排序算法实践
      • 语义搜索技术和应用
    • 查询关键字理解
    • 搜索排序
    • BM 25
    • KDD21-淘宝搜索中语义向量检索技术
    • query理解
    • TFIDF
  • Self Supervised Learning
    • Contrastive Learning
      • 业界分享
        • 对比学习在微博内容表示的应用_张俊林
      • Paper
      • R Drop
      • Sim CSE
    • 自监督学习
  • Text Classification
    • [多标签分类(Multi-label Classification)](TextClassification/多标签分类(Multi-label Classification)/多标签分类(Multi-label Classification).md)
    • Fast Text
    • Text CNN
    • 文本分类
  • Text Matching
    • 文本匹配和多轮检索
    • CNN SIM
    • Word Embedding
      • Skip Gram
      • Glove
      • Word 2 Vec
    • 文本匹配概述
  • Tool
    • 埋点
    • 向量检索(Faiss等)
    • Bigdata
      • 大数据基础task1_创建虚拟机+熟悉linux
      • 任务链接
      • Mr
      • Task1参考答案
      • Task2参考答案
      • Task3参考答案
      • Task4参考答案
      • Task5参考答案
    • Docker
    • Elasticsearch
    • Keras
    • Numpy
    • Python
      • 可视化
        • Interactivegraphics
        • Matplotlib
        • Tkinter
        • Turtle
      • 数据类型
        • Datatype
      • python爬虫
        • Python Scraping Master
          • phantomjs-2.1.1-windows
        • Regularexp
        • Scrapying
        • Selenium
      • 代码优化
      • 一行代码
      • 用python进行语言检测
      • Debug
      • Exception
      • [Features Tricks](Tool/python/Features & Tricks.md)
      • Fileprocess
      • Format
      • Functional Programming
      • I Python
      • Magic
      • Math
      • Os
      • Others
      • Pandas
      • Python Datastructure
      • Python操作数据库
      • Streamlit
      • Time
    • Pytorch
      • Dive Into DL Py Torch
        • 02 Softmax And Classification
        • 03 Mlp
        • 04 Underfit Overfit
        • 05 Gradient Vanishing Exploding
        • 06 Text Preprocess
        • 07 Language Model
        • 08 Rnn Basics
        • 09 Machine Translation
        • 10 Attention Seq 2 Seq
        • 11 Transformer
        • 12 Cnn
        • 14 Batchnorm Resnet
        • 15 Convexoptim
        • 16 Gradientdescent
        • 17 Optim Advance
    • Spark
      • Pyspark
        • pyspark之填充缺失的时间数据
      • Spark
    • SQL
      • 数据库
      • Hive Sql
      • MySQL实战45讲
    • Tensor Flow
      • TensorFlow入门
  • Common
  • NLP知识体系
Powered by GitBook
On this page

Was this helpful?

  1. NLG
  2. Dailogue
  3. 任务型对话

simpread-任务型对话系统预训练最新研究进展

Previous任务型对话概述Next问答型对话

Last updated 2 years ago

Was this helpful?

本文由 转码, 原文地址

©PaperWeekly 原创 · 作者 | 褚维芜

单位 | 北京邮电大学硕士生

研究方向 | 自然语言处理

引言

近年来,随着预训练模型的发展,对话领域的研究也逐渐开始关注基于预训练的端到端对话系统,2019-2021 这三年的时间涌现出很多关于开放域对话系统预训练的相关研究,基于英文的包括 google 在 2020 年 1 月发表的 Meena、Facebook 在 4 月发表的 Blender,基于中文的主要以百度 PLATO 系列模型为代表 [1]。这些模型的成功一定程度上表明海量数据和更大的模型能为对话系统带来很好的性能收益。

然而,这种依靠参数量、数据量来提升系统性能的方式对于任务型对话而言并不完全适用。一方面,任务型对话数据集本身比闲聊型对话更难收集,想要获取一个非常大的数据集来对任务型对话系统进行预训练是非常困难的;另一方面,预训练模型参数过大,训练和运行需要很高的计算成本,会存在无法快速部署的问题。由于以上问题的存在,任务型对话预训练的发展速度明显不如开放域对话,但最近两年也逐渐有一些针对任务型对话进行预训练的相关工作,本文将对这些工作做一个梳理总结,供大家参考。

本文主要介绍的工作有:

  • 2020EMNLP:TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue [2]

  • 2021TACL:Soloist: Building task bots at scale with transfer learning and machine teaching [3]

  • 2021arXiv:PPTOD:Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System(PPTOD)[4]

  • 2022AAAI:GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised[5] Learning and Explicit Policy Injection

TOD-BERT:面向任务型对话理解的预训练模型

2.1 Background & Motivation

使用现有的预训练语言模型直接在任务型对话数据上进行 fine-tune 无法取得很好的性能,主要原因包括以下两点:一是,对话数据和文本数据的语言模式不同,所以两者的数据分布有很大差异,因此普通文本预训练的语言模型在对话数据上表现不佳;二是,闲聊型对话数据广泛且易于获得,但是它们通常很短,没有明确的对话目标。而任务型对话通常有明确的目标,多轮对话交互,因此闲聊型对话数据预训练模型也很难在任务型对话数据上取得很好的表现。

任务型对话数据集通常小而稀疏,标注成本很高,本文通过联合多个数据集在一定程度上缓解了任务型对话预训练数据量不足的问题,并针对对话数据的特点对原始 BERT 模型的输入、预训练任务进行修改使得模型可以更好地捕捉对话特有的任务信息。

2.2 Method

数据集:本文联合了九个不同的多轮任务型对话数据集,如下表所示。最终,本文预训练所采用的数据集包含 60 多个领域的 100,707 段对话,1.3M 句话语。

TOD-BERT 模型

TOD-BERT 在 BERT 模型原有的 MLM 损失函数上,添加了一个 Response contrastive loss(RCL)用于模拟回复选择任务。原始 BERT 中对两段话语进行拼接并对他们的连续性进行 0-1 预测,而 RCL 损失则是采用了类似 ConveRT 中的双编码器结构,同一个 batch 中的其他回复为负样本,如下图所示,优化目标为最大化正样例的概率。RCL 损失一方面可以学习更好的【CLS】位置的表示,另一方面可以捕获潜在的对话顺序、结构信息和回复的相似性。

另外,TOD-BERT 的输入中加入对说话人角色的编码。对于对话,TOD-BERT 的输入在每一个话语前面添加角色信息的 token:。TOD-BERT 在意图识别、对话状态追踪、对话动作预测、回复选择这四个下游任务上进行了评测,性能均超越了 BERT。

SOLOIST:预训练对话系统迁移到新的对话任务

3.1 Background & Motivation

构建对话系统需要大量的标注、领域知识以及专家经验,人工标注数据费时费力。即便已经对某个领域的数据进行了大量标注,现实情况下遇到新的任务时,对话系统依然难以完成。

针对以上问题,本文提出了一种新的大规模构建任务型对话系统的方法,并通过迁移学习和机器教学使其适应新的任务。现有的模型都是通过收集、标记新的数据,并为每个任务构建一个系统,而 SOLOIST 则不需要,这极大简化了对话系统遇到新的任务时模型的训练和部署的工作流程。

3.2 Method

数据集:本文使用 Schema、Taskmaster 这两个任务型对话数据集对模型进行预训练,数据集统计数据如下表所示。

对于数据集中的每一段对话进行预处理如下:定义 为对话历史、 为 belief state、 为 DB state、 为 delexicalize 的对话回复,模型输入是将以上信息进行拼接,因此,训练数据集中的每轮对话可以表示为:

SOLOIST 模型

结构说明:使用 GPT-2 直接生成对话状态、对话动作、系统回复

预训练任务:

  • Belief Prediction:生成任务

  • Grounded Response Generation:生成任务

  • Contrastive Objective:对比学习

    SOLOIST 在输入的 [EOS] 位置,引入了一个对比损失函数,该函数用于预测输入是正样例 还是负样例 ,对比损失函数计算如下所示:

模型的损失函数为三个预训练任务的损失函数相加:

在预训练阶段,本文使用 GPT-2 初始化,利用大型任务型对话标注数据训练一个面向任务型对话的回复生成模型。该模型学习主要的任务完成技能,如对话状态追踪和对话策略学习,并可以根据用户目标和外部知识生成可以完成对话任务的回复。在微调阶段,本文通过机器教学将预训练的 SOLOIST 模型微调为完成特定(新的)任务的系统,其中训练样本是由真人教师与系统交互生成。

实验表明,SOLOIST 成功地将两种能力从预训练模型转移到一个新的任务型对话系统:一是,预训练过程中学习到的自然语言理解(NLU)和自然语言生成(NLG)的能力;二是,在域外对话语料库上根据用户目标和外部知识生成可以完成对话任务的回复的能力。

PPTOD:基于 prompt 方法的任务型对话预训练

4.1 Background & Motivation

现有基于预训练模型的任务型对话系统(SimpleTOD、SOLOIST 等)存在一定的局限性,一方面它们将各个子任务级联来进行对话生成,有误差累积,且系统推理会有延迟;另一方面,这些模型的训练需要提前标注大量的数据,且标注必须是完整的,因此大量的只有部分标注的数据无法使用(eg. 只标注了对话状态或者对话动作任务的数据)。

因此,针对以上两个问题,本文以 T5 模型为基础,通过 prompt 方法使得预训练模型不仅可以使用标注完整的对话数据,还可以使用部分标注的数据。这在一定程度上缓解了任务型对话预训练所面临的数据量不足的问题。

4.2 Method

数据集:本文使用 11 个部分标注的任务型对话数据集对模型进行预训练,总共 2.3M 句话语,包含 80 个领域。数据集及其标注信息如下表所示。

PPTOD 模型

从图中可以看出每一个训练样例之前都添加了一个任务提示,共有四种不同的任务:NLU、DST、POL、NLG,这四种任务是通过多任务学习的方式一起训练的,任何一个包含上述四种标注之一的数据集都可以用于训练 PPTOD。预训练和微调阶段的损失函数如下:

本文在端到端对话生成、对话状态追踪、用户意图识别三个下游任务上对模型进行了实验,结果表明 PPTOD 在各种评估指标上均优于当前的 SOTA 系统。

GALAXY:基于半监督学习的任务型对话预训练

5.1 Background & Motivation

现有的任务型对话预训练的相关研究并没有在预训练阶段丰富有关对话策略的知识,作者假设在预训练阶段直接学习进行对话策略的学习(DA prediction)可以使模型学习到更好地表示,并进一步提高端到端地性能。因此,本文主要关注于怎样在预训练阶段来对对话策略进行更好地建模。

一个简单的方式是将有监督对话动作分类损失和预训练的无监督 MLM 损失一起进行多任务训练,但这种方式存在三个问题:

  1. 目前各个任务型对话的 DA 标注不一致,收集一个大规模的有 DA 标注的数据集比较困难

  2. 大量的对话是没有 DA 标注的,因为在联合训练过程中,模型可能会对这些少量的标注数据过拟合

  3. 对于无标注的对话数据,模型只能提取到一般的语言知识,不能有效地挖掘对话策略相关知识

5.2 Method

针对以上问题,本文所设计的解决方案如下:

数据集:本文为任务型对话系统构建了一个统一的 DA 标注方法,并整合八个任务型对话数据集构建了一个新的有 DA 标注的数据集——UniDA;收集并处理了一个大规模无标注闲聊对话数据集——UnDial。

GALAXY 模型

结构说明:

  • UniLM 为 backbone,它包含一个用于理解的双向编码器和一个用于生成的单向解码器,编码器和解码器是权重共享的

  • 输入表示采用 PLATO 中的方式,包括四个部分:位置编码、轮次编码、角色编码、token 编码

预训练任务:

  • 回复选择:构造正负样例进行 0-1 分类

  • 回复生成:解码器逐个 token 进行解码

  • 对话动作预测:多分类任务,仅对有标注数据有用

  • 一致性正则化:将一段对话历史两次输入编码器,由于 dropout 扰动会得到两个不同的分布,采用 KL loss 来最小化这两个分布之间的距离,如下图所示。

半监督预训练范式

  • 有标注数据的损失函数

  • 无标注数据的损失函数

  • 总的损失函数(有标和无标数据混合训练)

微调及推理

  • 数据集:MultiWOZ

  • 对于有语义标注信息的对话数据,将标注信息与系统回复拼接作为新的生成,并保留对话动作预测任务

  • 损失函数

GALAXY 的实验结果表明大规模任务型对话数据进行预训练可以带了很好的收益,且有监督对话动作预测任务对学习对话策略是有效的。

总结

从预训练数据来看,除了 SOLOIST 外,其他三个模型都是尽量使模型可以使用更多的预训练数据。TOD-BERT 联合了九个任务型对话数据集进行预训练,PPTOD 设计了一种可以利用部分标注数据集的模型,GALAXY 则更近一步,有标注和无标注的数据都可以用于训练。

从预训练任务上来看,四个模型都针对对话的特点调整了传统的预训练任务。TOD-BERT 采用了可以模拟下游回复选择任务的 Response contrastive loss,SOLOIST 将 DST、NLG 均建模为生成任务,PPTOD 基于 prompt 将下游任务均建模为生成任务,GALAXY 则采用了对话动作预测、回复生成 、回复选择、一致性正则化作为预训练任务。

从以上四个模型可以看出,目前任务型对话系统预训练领域的研究主要集中在:如何解决任务型对话数据量不足的问题;以及怎样设计更适用于对话系统的预训练任务来捕捉对话中的任务相关的信息。本文所介绍的模型虽然一定程度上缓解了上述问题,但是任务型对话预训练相比于 PLATO-XL 这种通用的对话预训练模型还有很大的差距。

参考文献

[1] Ni J, Young T, Pandelea V, et al. Recent advances in deep learning based dialogue systems: A systematic survey[J]. arXiv preprint arXiv:2105.04387, 2021.

[2] Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 917-929.

[3] Peng B, Li C, Li J, et al. Soloist: Building task bots at scale with transfer learning and machine teaching[J]. Transactions of the Association for Computational Linguistics, 2021, 9: 807-824.

[4] Su Y, Shu L, Mansimov E, et al. Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System[J]. arXiv preprint arXiv:2109.14739, 2021.

[5] He W, Dai Y, Zheng Y, et al. GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection[J]. arXiv preprint arXiv:2111.14592, 2021.

图片
图片
简悦 SimpRead
mp.weixin.qq.com