火山引擎向量数据库:抖音大规模实践( 二 )


向量数据库技术全景
经过长期的内部探索和优化 , 抖音采用的向量数据库产品结构如下图所示:基于云基础设施,提供经过深度打磨和优化的各个引擎,提供从多模态数据写入 , 到向量生成,再到在线检索 , 以及上线后的弹性调度和监控的一整套全链路解决方案 。

火山引擎向量数据库:抖音大规模实践

文章插图
火山引擎向量数据库的
场景化落地实践
经过抖音集团内部的技术实践,向量数据库目前已经覆盖 50+ 的业务线,基本支撑了内部所有的向量检索场景 , 比如抖音、头条、懂车帝、图虫、火山引擎 Oncall 智能问答和剪映等,主要的业务场景包括智能搜索、AIGC 跨模态检索、推荐和去重、智能问答、相关排序、聚类分析和数据挖掘等,并且多个场景库规模达百亿级别 。
下面以图虫和火山引擎 Oncall 智能问答为例,展示向量数据库的应用实践 。
智能搜索场景——图虫的以图搜图
火山引擎向量数据库:抖音大规模实践

文章插图
图虫提供了以图搜图的能力,致力于为用户提供正版素材内容及数字资产管理解决方案 。目前,图虫创意在库图片量 4.6 亿、高清视频超 2000 万条,每天有大量用户来搜索、查询图片和视频 。亿级海量数据对向量检索服务能力提出更高要求,业务如何灵活的设置分片,当数据量大幅增加时又如何避免重新部署集群,加快索引构建、节约资源 。
解决方案是提供端到端的图片搜索能力,流程是先将图片源数据上传到向量数据库,把图片数据进行向量化、存储并形成向量索引,然后,用户将要搜索的图片上传 , 上传后向量化,向量化的图片与向量数据库进行向量检索比对查询,获取相似度最高的结果 , 返回给用户 。
企业知识库场景——火山引擎 Oncall 智能问答
火山引擎 Oncall 智能问答能够辅助一线客服、提供客户问题回复参考 。火山引擎官网每天会收到大量的客户售后进线,高峰时段人均要并行受理多个问题 , 需要能够快速排查并且给出客户反馈 。对于工程师来讲,面对众多技术门槛较高的产品,要进行快速理解和判断,难度较大 。
解决方案就是,将火山知识库文档和数据通过向量特征提取,然后存储到向量数据库中 , 应用LLM 大语言模型与向量化的知识库检索和比对知识,构建火山引擎 Oncall 智能问答,可以让聊天机器人的回答更具专业性和时效性 , 构建专属 Chatbot 。未来,火山引擎 Oncall 的 FAQ 知识将持续沉淀,知识库持续完善 , 同时还能提供大模型训练数据,处理大量客户咨询问题,实现机器人自动生成回复结果 。
火山引擎向量数据库技术经过抖音等业务的实践打磨,已经对外开放 , 赋能千行百业,加速 AI 大模型落地应用 。随着用户需求和应用场景的多样化,向量数据库会提供更加丰富完善的功能 , 包括向量算法的优化和创新、提升多模态数据的处理能力,提供多种多模态向量化能力模型、跨模态检索等能力,进一步优化向量数据库的通用性和易用性等 。如今,向量数据库已经成为整个大模型生态的基础设施,支撑着大模型在业界的推广和应用 。火山引擎向量数据库将持续创新 , 提供更加灵活和多样化的功能,满足不同用户的需求 。

【火山引擎向量数据库:抖音大规模实践】


推荐阅读