宁波专业做网站的公司,网站台做计么呢,网页设计代码浮动效果,重庆网站建设团队本文是LLM系列文章#xff0c;针对《Truncation Sampling as Language Model Desmoothing》的翻译。 截断采样作为语言模型的去平滑性 摘要1 引言2 背景3 截断作为去平滑性4 方法5 实验与结果6 相关工作7 结论8 不足 摘要
来自神经语言模型的长文本样本可能质量较差。截断采…本文是LLM系列文章针对《Truncation Sampling as Language Model Desmoothing》的翻译。 截断采样作为语言模型的去平滑性 摘要1 引言2 背景3 截断作为去平滑性4 方法5 实验与结果6 相关工作7 结论8 不足 摘要
来自神经语言模型的长文本样本可能质量较差。截断采样算法如top-p或top-k通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体以避免无限的困惑。在这种情况下截断算法的目的是执行去平滑估计真实分布的支持子集。找到一个好的子集至关重要我们表明top-p不必要地截断了高概率单词例如对于以Donald开头的文档导致它截断了除Trump之外的所有单词。我们引入了 η \eta η采样它在熵相关概率阈值以下截断单词。与以前的算法相比 η \eta η采样根据人类生成了更可信的长英文文档更善于打破重复并且在一组测试分布上表现得更合理。
1 引言
2 背景
3 截断作为去平滑性
4 方法
5 实验与结果
6 相关工作
7 结论
我们已经将这类截断采样算法定义为执行去平滑这一见解引出了如何进行截断以恢复训练分布的原则一种新的截断采样算法以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估以推动进一步的研究了解和改进我们如何从神经语言模型中生成。
8 不足
通过我们所做的分析我们认为很难理解截断采样算法包括我们的算法所具有的所有序列级影响我们不允许使用什么类型的序列哪些类型或来源的语言在不知不觉中被禁止除此之外我们只在英语模型上测试了我们的算法形态丰富的语言的条件分布可能具有不同的性质尤其是子词模型。