真实数据的结果我已经用不同的参数在1K Yelp评论数据集的10%样本上运行了所有函数:
- 型号:Llama 2或Zephyr
- 方法:使用分布或仅约束提示
- 解码器:argmax或波束搜索首先,让我们比较一下准确性——评论的份额与正确的情绪 。我们可以看到,Zephyr的性能比Llama 2型号要好得多 。此外,由于某些原因,我们的分布质量明显较差 。

文章插图
按作者绘制的图表
如果我们再深入一点,我们会注意到:
- 对于正面评价,准确度通常更高
- 最常见的错误是将审查标记为中性
- 对于Llama 2 , 我们可以看到高比率的关键问题(正面评论被标记为负面评论)在许多情况下,我认为该模型使用了类似的原理,将负面评论评分为中性 , 正如我们之前在“脏房间”示例中看到的那样 。该模型不确定“脏房间”是负面的还是中性的,因为我们不知道客户是否期望有一个干净的房间 。

文章插图
按作者绘制的图表

文章插图
按作者绘制的图表
观察实际概率也很有趣:
- Zephyr模型的正面评价的75%的正面标签高于0.85,而Llama 2则更低 。
- 所有模型在负面评论方面都表现出较差的性能 , 其中负面评论的负面标签的75%的百分比甚至远低于0.5 。

文章插图
按作者绘制的图表

文章插图
按作者绘制的图表
我们的快速研究表明,带有Zephyr模型和argmax解码器的提示将是情绪分析的最佳选择 。然而,值得为您的用例检查不同的方法 。此外,您通常可以通过调整提示来获得更好的结果 。
你可以在Github上找到完整的代码 。
总结今天,我们讨论了LMP(语言模型编程)的一个概念 , 它允许您混合使用自然语言中的提示和脚本指令 。我们已经尝试将其用于情绪分析任务,并使用本地开源模型获得了不错的结果 。
尽管LMQL还没有普及 , 但这种方法可能很方便,并在未来广受欢迎,因为它将自然语言和编程语言组合成了一种强大的LMs工具 。
非常感谢你阅读这篇文章 。我希望它对你很有见地 。如果您有任何后续问题或意
数据集科齐亚斯 , 迪米特里奥斯 。(2015) 。情绪标记的句子 。UCI机器学习库(CC BY 4.0许可证) 。https://doi.org/10.24432/c57604 。
译者介绍朱先忠 , 51CTO社区编辑,51CTO专家博客、讲师 , 潍坊一所高校计算机教师,自由编程界老兵一枚 。
原文标题:LMQL — SQL for Language Models,作者:Mariya Mansurova
推荐阅读
- MySQL的自增主键是连续自增吗?
- MySQL数据库性能优化中常用的方法是什么?
- 实用性极强的MySQL查询优化策略
- MySQL的锁机制是如何防止数据冲突和不一致的?
- 十个高效的MySQL方法,助你更上一层楼
- 数据恢复新姿势:使用MySQL Shell进行更高效灵活的数据恢复
- SQL必须消失的九个理由,你认可吗?
- 生成式人工智能潜力的释放:软件工程师的MLOps和LLM部署策略
- 快速上手 PostgreSQL:掌握PSQL 命令行工具连接技巧
- 如何解决 MySQL 主从延时问题?
