自己做网站不如帮别人做运营,外贸网站怎么规划,织梦源码免费下载,建设公司网站新闻素材管理文章目录 探秘GPT-3到GPT-4进化之路1、SFT#xff1a;早期GPT进化的推动者2、RLHF和SFT#xff1a;编码能力提升的功臣3、代码加入预训练#xff0c;对推理帮助最大4、“跷跷板”现象 论文地址项目链接Reference GPT-Fathom: Benchmarking Large Language Models to Deciphe… 文章目录 探秘GPT-3到GPT-4进化之路1、SFT早期GPT进化的推动者2、RLHF和SFT编码能力提升的功臣3、代码加入预训练对推理帮助最大4、“跷跷板”现象 论文地址项目链接Reference GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond 探秘GPT-3到GPT-4进化之路 
1、SFT早期GPT进化的推动者 
SFT只在较弱的基础模型上管用用在更强的模型上收效甚微。类似现象在开源模型身上也可见这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型 
在初代Llama-65B之上SFT成功提升了它在MMLU基准上的性能但是所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出微小的进步。 
总结在GPT3阶段SFT技术对模型的进化起到了关键作用。 
2、RLHF和SFT编码能力提升的功臣 
顺着GPT3.5系列接着看从text-davinci-002开始OpenAI开始引入新技术基于PPO算法的RLHF得到text-davinci-003。 
此时它在大部分基准上的表现和前代模型持平或略变差说明作用不是特别明显在开源模型身上也是如此。 
但有一个除外编码任务最高足足增加了近30分。 
LLM仍可以通过SFT和RLHF不断将内在能力但需要多次尝试转化成一次性解决问题的能力不断逼近LLM的能力上限。 
3、代码加入预训练对推理帮助最大 
在GPT4进化之路上还出现了2个特别的模型 
code-cushman-001 (Codex-12B) 和code-davinci-002。 
前者是OpenAI初次尝试使用代码数据训练模型尽管它的规模较小但也取得了不错的代码能力。后者是GPT3.5的基座模型它是在GPT3的基础上使用RLHF代码训练的结果也就是文本和代码混合预训练。 
可以看到它大幅超越GPT-3不止是编码能力、在一些推理任务上如BBH表现甚至可以超过后面的gpt-3.5-turbo-0613。 
4、“跷跷板”现象 
通过比较2023年3月和2023年6月的OpenAI API模型我们确实可以发现这一现象 
与gpt-3.5-turbo-0301相比升级后的gpt-3.5-turbo-0613在HumanEval上表现出色53.9 - 80.0但在MATH上却大幅下降32.0 - 15.0。 
gpt-4-0613在DROP上的表现优于gpt-4-0314 (78.7 - 87.2) 但在MGSM上也出现了直线下降(82.2 - 68.7) 。 
作者认为 
“跷跷板现象”可能成为LLM通往AGI之路的绊脚石因为AGI强调“通用智能”要在所有task上都有优异的性能要求模型不能“偏科”。在此他们也呼吁社区重视这个问题共同推进大模型平衡发展的研究。 
论文地址 
https://arxiv.org/abs/2309.16583 
项目链接 
https://github.com/GPT-Fathom/GPT-Fathom 
Reference 
https://mp.weixin.qq.com/s/-AWkDzAzoyQNmgYXuC6B4w