最强API调用模型来了！基于LLaMA微调，性能超过GPT-4( 二 ) _API

其中BM25和GPT是常用的检索器，而Oracle检索器则会以100%的相关性返回相关文档，表示一种上限。
图中准确性更高、幻觉更少的即为效果更好。
在整个数据集中，Gorilla在提高准确性的同时减少了幻觉。

文章插图
为了收集数据集，研究人员细致地记录了HuggingFace的The Model Hub、PyTorch Hub和TensorFlow Hub模型的所有在线模型。
然而，其中很多模型的文档都不咋样。
为了过滤掉这些质量不高的模型，研究人员最终从每个领域挑选出前20个模型。
研究人员考虑了多模态数据的7个领域，CV的8个领域，NLP的12个领域，音频的5个领域，表格数据的2个领域，以及强化学习的2个领域。
过滤后，研究人员从HuggingFace得到了总共925个模型。TensorFlow Hub的版本分为v1和v2 。
最新的版本（v2）总共有801个模型，研究人员处理了所有的模型。在过滤掉几乎没有信息的模型后，剩下了626个模型。
与TensorFlow Hub类似，研究人员从Torch Hub得到95个模型。
在self-instruct范式的指导下，研究人员采用GPT-4来生成合成指令数据。
研究人员提供了三个语境中的例子，以及一个参考的API文档，并责成模型生成调用API的真实用例。
研究人员特别指示该模型在创建指令时不要使用任何API名称或提示。研究人员为三个模型中心的每一个构建了六个例子（指令-API对）。
这18个点，是唯一手工生成或者修改过的数据。
而Gorilla，则是检索感知的LLaMA-7B模型，专门用于API调用。
如图3所示，研究人员采用自我构造来生成{指令，API}对。
为了对LLaMA进行微调，研究人员将其转换为用户——代理的聊天式对话，其中每个数据点都是一个对话，用户和代理轮流交谈。

文章插图
然后研究人员在基础的LLaMA-7B模型上进行标准的指令微调。在实验中，研究人员在有和没有检索器的情况下分别训练了Gorilla 。
由于API的功能是一种通用语言，使不同的系统之间能够进行有效地沟通，正确使用API可以提高LLM与更广泛的工具进行互动的能力。
在研究人员收集的三个大规模数据集中，Gorilla的性能超过了最先进的LLM（GPT-4）。Gorilla产生了可靠的API调用ML模型，且没有产生幻觉，并能在挑选API时满足约束条件。
由于希望找到一个具有挑战性的数据集，研究人员选择了ML APIs，因为它们的功能相似。专注于ML领域的API的潜在缺点是，如果在有倾向的数据上进行训练，它们就有可能产生有偏见的预测，可能对某些子群体不利。
为了消除这种顾虑并促进对这些API的深入了解，研究人员正在发布更加广泛的数据集，其中包括超过11000个指令——API对。
在下图这个示例中，研究人员使用抽象语法树（AST）子树匹配来评估API调用的正确性。

文章插图
抽象语法树是源代码结构的树形表示，有助于更好地分析和理解代码。
首先，研究人员从Gorilla返回的API调用（左侧）构建相关的API树。然后将其与数据集进行比较，以查看API数据集是否具有子树匹配。
在上面的示例中，匹配的子树以棕色突出显示，表示API调用确实是正确的。其中PretrAIned=True是一个可选参数。
这一资源将为更广泛的社区提供服务，作为研究和衡量现有API的宝贵工具，为更公平和优化使用机器学习做出贡献。
参考资料：
https://arxiv.org/pdf/2305.15334.pdf