太原网站建设质量推荐,优化门户网站建设,营销型网站建设企业营销型网站平台,板瓦工安装wordpress文献阅读#xff1a;Scaling Instruction-Finetuned Language Models 1. 文章简介2. 实验 1. 数据集 模型 1. 数据集考察2. 使用模型 2. scale up对模型效果的影响3. CoT对模型效果的影响4. 不同模型下Flan的影响5. 开放接口人工标注指标 3. 结论 文献链接#xff1a;…文献阅读Scaling Instruction-Finetuned Language Models 1. 文章简介2. 实验 1. 数据集 模型 1. 数据集考察2. 使用模型 2. scale up对模型效果的影响3. CoT对模型效果的影响4. 不同模型下Flan的影响5. 开放接口人工标注指标 3. 结论 文献链接https://arxiv.org/abs/2210.11416
1. 文章简介
这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。
在这篇文章当中作者对Flan进行了更加细致的考察。 具体来说在Flan最开始提出的时候Flan只是用在了预训练语言模型上但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究具体来说
在Palm以及T5模型上测试了Flan的效果将Flan的数据任务进行了scale up将模型的size进一步进行了scale up加入CoT数据考察效果。
基于此文章获得了更好的整体指标表达以及一些case如下 下面我们来具体看看文中的实验结果。
2. 实验
1. 数据集 模型
首先我们来看一下文中使用的数据集以及模型进行一下整理。
1. 数据集考察
我们首先看一下文中使用的数据集 可以看到相较于前作Flan的62个训练任务本文对任务进行了大幅的扩充扩展至146个任务类型中的473个数据集以及合计1836个任务。
其中关于CoT数据集的使用方式如下 可以看到其实就是加上引导词“by reasoning step-by-step”然后答案当中加入推理过程。
2. 使用模型
而文中使用的模型则如下表所示 可以看到文中同时考察了自回归语言模型以及Transformer架构的T5模型比对了不同的预训练方式以及不同的模型size下Flan的效果。
2. scale up对模型效果的影响
下面我们首先来看一下scale up对模型效果的影响具体包括
模型size的scale up对模型效果的影响训练任务的scale up对模型效果的影响
给出文中的实验结果如下 可以看到
随着模型size的增大模型效果不断提升随着模型使用的finetune数据集的增多模型效果也是不断提升的。
更直观的文中还给出了上述结果的图表形式 3. CoT对模型效果的影响
然后我们来看一下CoT数据集对模型效果的影响。
同样我们首先给出文中的实验结果表格如下 可以看到
CoT数据集对于LLM的效果总是正向的。
而在不同的benchmarks下可以看到
对于CoT benchmarksCoT数据集对效果提升很明显而对于non-CoT benchmarksCoT数据集对于模型效果并没有太大的影响。 另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响得到结果如下图所示 可以看到
对于不加入Flan训练的Palm模型CoT文本的加入并不能够带来效果的提升对于Flan之后的Palm模型CoT能够明显的提升模型的效果Flan本身也能够给模型带来足够的效果提升。
最后文中还给了几个具体的case如下 4. 不同模型下Flan的影响
除了在自回归语言模型的情况下文中还对T5进行了考察看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性得到结果如下 5. 开放接口人工标注指标
最后文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果得到结果如下 可以看到
Flan-PaLM的效果确实是优于PaLM的。
3. 结论
综上文章进一步考察了Flan以及CoT在大模型中的效果整体上可以看到
Flan和CoT对于模型效果都是正向的影响且目前看起来还没有到顶Flan以及CoT除了在自回归模型上有效之外在T5上面同样有效但是前者似乎效果更好。
不过还是那个说法大模型现在真就是看着玩玩了完全不可本地服务化也不可能自己去跑这看效果这能通过外部接口访问了大概就只能作为旁观者看他们玩了……