AI代理工作流程将推动今年AI领域的巨大进展,甚至可能比下一代基础模型带来更多影响。这是一个重要的趋势,我敦促所有从事AI工作的人都要关注。

今天,我们主要在零-shot模式下使用LLMs,提示模型逐个标记生成最终输出,而不修改其工作。这类似于要求某人从头到尾撰写一篇文章,直接打字而不允许回退,期望得到高质量的结果。尽管困难重重,LLMs在这项任务上表现出色!

然而,通过代理工作流程,我们可以要求LLM多次迭代文档。例如,它可能需要执行一系列步骤:

- 制定大纲。

- 决定是否需要进行网络搜索以收集更多信息。

- 撰写初稿。

- 仔细阅读初稿,发现不合理的论点或多余信息。

- 根据发现的任何弱点修改草稿。

- 依此类推。

这种迭代过程对大多数人类作者来说都是写作优质文本的关键。对于AI来说,这种迭代工作流程比单次写作产生更好的结果。

Devin最近引起了社交媒体热议的引人注目演示。我的团队一直在密切关注AI编写代码的演变。我们分析了许多研究团队的结果,重点关注算法在广泛使用的HumanEval编码基准上的表现。您可以在下面的图表中看到我们的发现。

GPT-3.5(零-shot)正确率为48.1%。GPT-4(零-shot)表现更好,达到67.0%。然而,从GPT-3.5到GPT-4的改进在引入迭代代理工作流程后被远远超越。事实上,包裹在代理循环中,GPT-3.5的正确率可达95.1%。

开源代理工具和关于代理的学术文献正在蓬勃发展,这使得现在是令人兴奋但也令人困惑的时刻。为了帮助理清这项工作,我想分享一个用于分类构建代理设计模式的框架。我的团队AI Fund已成功将这些模式应用于许多应用程序中,希望您会发现它们有用。

- 反思:LLM检查自己的工作,提出改进方法。

- 工具使用:LLM被提供工具,如网络搜索、代码执行或任何其他功能,以帮助其收集信息、采取行动或处理数据。

- 规划:LLM制定并执行多步计划以实现目标(例如,为文章撰写大纲,然后进行在线研究,然后撰写草稿等)。

- 多代理协作:多个AI代理共同工作,分担任务,讨论和辩论想法,以提出比单个代理更好的解决方案。

下周我将详细阐述这些设计模式,并为每个模式提供建议阅读。

AI代理工作流程就像给AI模型一个更加智能的工作方式,让它可以反复思考、查找信息、撰写、检查和修改,而不是一气呵成地生成结果。这种方式更符合人类写作的过程,能够带来更好的结果。

假设在医疗保健行业中,利用AI代理工作流程可以帮助医学研究人员更高效地分析大量医学文献和临床数据,提出新的治疗方法或药物设计。通过让AI模型反复检查、计划和协作,可以加速新药研发的过程,为患者提供更快速、更精准的医疗解决方案。

Reply to this note

Please Login to reply.

Discussion

No replies yet.