在线crm网站,厦门北京网站建设公司哪家好,wordpress批量上传产品,古冶区城乡建设局网站大型语言模型#xff08;LLM#xff09;可以解决多种自然语言任务#xff0c;例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近#xff0c;LLM在自主网络导航方面也取得了巨大成功#xff0c;代理程序助HTML理解和多步推理的能力#xff0c;通过控制计算…大型语言模型LLM可以解决多种自然语言任务例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近LLM在自主网络导航方面也取得了巨大成功代理程序助HTML理解和多步推理的能力通过控制计算机或浏览互联网进行一系列计算机操作以满足给定的自然语言指令。 然而现实世界的网站上的网络导航仍然存在以下问题
1缺乏预定义的操作空间。
2HTML观察比模拟器更长。
3LLM缺乏HTML领域知识。
考虑到现实世界网站的开放性和指令的复杂性提前定义适当的操作空间是具有挑战性的。此外尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短并且没有采用特定的HTML领域知识。 针对上述问题研究人员引入了WebAgent这是一个由LLM驱动的代理程序可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划将长HTML文档转化为与任务相关的片段并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgentFlan-U-PaLM用于基于代码的生成以及新引入的HTML-T5一种新型预训练LLM用于规划和摘要本地长HTML文档。 通过实验证明该方法可以提高在现实网站上的成功率50%以上并且HTML-T5是目前解决基于HTML任务的最佳模型在MiniWoB网络导航基准测试中其成功率比之前最先进的方法高出14.9%并且在离线任务规划评估上也具有更好的准确性。