失眠网 > 【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码

【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码

时间：2021-05-04 07:40:45

0.语言模型

语言模型（Language Model，LM），基于统计的语言模型，给出一句话的前k个词，预测第k+1个词，即求第k+1个词出现的概率p(xk+1|x1,x2,...,xk)。在深度网络中，比如bert，可以词前后的内容，预测当前词，类似做完形填空。

1.什么是困惑度

在信息论中，perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。（应该是比较两者在预测样本上的优劣）低困惑度的概率分布模型或概率模型能更好地预测样本。

困惑度越小，句子概率越大，语言模型越好。

2.怎么计算

官方定义

在自然语言处理中，困惑度是用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整过句子或者文段上的概率分布。

它主要是根据每个词来估计一句话出现的概率，并用句子长度作normalize，公式为如下，PPL越小，p(wi)则越大，一句我们期望的sentence出现的概率就越高。

S代表sentence，N是句子长度，p(wi)是第i个词的概率。第一个词就是 p(w1|w0)，而w0是START，表示句子的起始，是个占位符。

还有人说，Perplexity可以认为是average branch factor（平均分支系数），即预测下一个词时可以有多少种选择。别人在作报告时说模型的PPL下降到90，可以直观地理解为，在模型生成一句话时下一个词有90个合理选择，可选词数越少，我们大致认为模型越准确。这样也能解释，为什么PPL越小，模型越好。

这有一个例子，训练好的bigram语言模型的困惑度为3，也就是说，在平均情况下，该模型预测下一个单词时，有3个单词等可能的可以作为下一个单词的合理选择。

Perplexity另一种表达

针对文本中的词预测任务来说，离散概率分布p的困惑度由下式给出，其中H(p) 是该分布的熵，x遍历事件空间。概率分布的perplexity：

Perplexity的影响因素

1. 训练数据集越大，PPL会下降得更低，1billion dataset和10万dataset训练效果是很不一样的；

2. 数据中的标点会对模型的PPL产生很大影响，一个句号能让PPL波动几十，标点的预测总是不稳定；

3. 预测语句中的“的，了”等词也对PPL有很大影响，可能“我借你的书”比“我借你书”的指标值小几十，但从语义上分析有没有这些停用词并不能完全代表句子生成的好坏。

所以，语言模型评估时我们可以用perplexity大致估计训练效果，作出判断和分析，但它不是完全意义上的标准，具体问题还是要具体分析。

3.代码

核心思路：计算e为底数，幂为loss的结果。这是根据上述中的“Perplexity另一种表达”来计算困惑度。

def evaluate(model, val_dataloader, config):model.eval()total_val_loss = 0with torch.no_grad():for step, batch in enumerate(val_dataloader):batch[0].clone().detach().to(config.device)batch[1].clone().detach().to(config.device)loss, logits = model(batch[0], token_type_ids=None, attention_mask=(batch[0] > 0), labels=batch[1])if isinstance(model, torch.nn.DataParallel):loss = loss.mean()total_val_loss += loss.mean().item()loss = total_val_loss / len(val_dataloader)perplexity = math.exp(loss)perplexity = torch.tensor(perplexity)return loss, perplexity

训练语言模型时，随着loss的减少，perplexity的值也变小。一组输出：

Iter:0, Train Loss: 3.2, Val Loss: 1.3e+01, Val Perp: 449381.75, Time: 0:08:01 *Iter:50, Train Loss: 1.2, Val Loss: 5.0, Val Perp: 149.5646209716797, Time: 0:16:32 *Iter: 100, Train Loss: 0.053, Val Loss: 0.17, Val Perp: 1.188535451889038, Time: 0:24:59 *Iter: 150, Train Loss: 0.012, Val Loss: 0.044, Val Perp: 1.0451873540878296, Time: 0:33:30 *Iter: 200, Train Loss: 0.00038, Val Loss: 0.00048, Val Perp: 1.000481128692627, Time: 0:41:59 *Iter: 250, Train Loss: 0.00012, Val Loss: 0.00021, Val Perp: 1.000212550163269, Time: 0:50:29 *Iter: 300, Train Loss: 5.8e-05, Val Loss: 0.00013, Val Perp: 1.0001274347305298, Time: 0:58:59 *Iter: 350, Train Loss: 5e-05, Val Loss: 9.3e-05, Val Perp: 1.000092625617981, Time: 1:07:28 *Iter: 400, Train Loss: 0.00027, Val Loss: 7.2e-05, Val Perp: 1.0000715255737305, Time: 1:15:57 *Iter: 450, Train Loss: 3.6e-05, Val Loss: 5.9e-05, Val Perp: 1.0000592470169067, Time: 1:24:26 *Iter: 500, Train Loss: 6.4e-05, Val Loss: 5.3e-05, Val Perp: 1.000052809715271, Time: 1:32:54 *Iter: 550, Train Loss: 3.3e-05, Val Loss: 4.8e-05, Val Perp: 1.0000483989715576, Time: 1:41:24 *

参考：

1./shona/p/10827339.html

2./index20001/article/details/78884646

3.语言模型的ppl和bpc：/weixin_43922901/article/details/103218081

如果觉得《【LM】(八)语言模型评价指标——困惑度Perplexity原理及代码》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。