失眠网 > 谷歌LaMDA｜工业级端到端预训练对话模型

谷歌LaMDA｜工业级端到端预训练对话模型

时间：2018-10-28 18:39:41

每天给你送来NLP技术干货！

来自：李rumor

前段时间分享过开放域问答的研究进展，虽然这些榜单的分数都在不断提升，但真要提到应用的话，实验室产品和工业级产品还是有很大差距的。我在公众号后台放了一个机器人，基本90%以上的同学都是两轮内识破，虽然每单句话拿出来都还行，但放到上下文里就显得很突兀。

那怎么样才能做一个真正的、应用级别的对话系统呢？现在大模型效果这么好，能否帮助我们告别繁琐的pipeline，实现端到端问答呢？

看了最近谷歌放出的LaMDA方案，我觉得稍微有点那么个意思了。

在最近两年的谷歌大会上，都有对话技术上的迭代，前年是当场跟Google Assistant打了个电话、推出了Meena，去年是推出了LaMDA模型，展示了一段关于冥王星的知识型对话，直到最近才放出具体论文。

LaMDA:LanguageModelsforDialogApplications/abs/2201.08239

工业级的对话产品？

要打造实际能用的对话产品，我们的思维就要先转换一下：

不再是我要用什么方法解决这个问题，而是：我要解决什么问题？

这跟我们做模型的思路是一样的，先把objective定好，然后只要用差不多的网络结构去拟合就完了。在实际落地时更要定好这个目标，而现在的一些benchmark和对话系统，评估维度都太单一了，大部分问答里都是准确率/F1这种，直接忽略掉机器人的人性化部分。

要往更智能的对话系统走，首先要想清楚怎么样才算是「智能的对话系统」，我们还差在哪里。

（翻回去看了小冰的论文，发现它对机器人EQ、IQ、Personality的定义也很多维度，只可惜当时的我太年轻眼里只有复杂的模型，希望看到这篇文章的同学能意识到这个问题）

再去看谷歌的Meena和LaMDA，前面很大一部分篇幅都在讲评估指标的定义，分为三个维度：

Sensibleness, Specificity, Interestingness：是否合理、符合上下文、有创造力

Safety：是否有风险、不公正

Groundedness、Informativeness：在知识型问答中，是否包含真实的信息、并引用相关链接

定义完指标后，第二步是评估一下baseline和天花板，看到差距在哪里，从Meena的评估结果来看，各个机器人比起人类还是相差甚远：

LaMDA的结果：

差这么多怎么办？没事，最难的问题定义已经搞完了，剩下的标数据就完了！

在优化过程中，谷歌并没有用什么高端的技术，只是把Sensibleness、Specificity、Interestingness、Safety分别当成分类任务去标0/1，把知识问答当作生成任务让标注同学去编辑答案，然后精调就完了。可以看到精调之后的LaMDA比纯在对话数据上预训练的PT有提升了不少。