跳到主要内容
搜索

将 OpenSearch 用作向量数据库

一个开源、一体化的向量数据库,用于构建灵活、可扩展且面向未来的 AI 应用程序

传统的词汇搜索,基于 BM25 等词频模型,被广泛使用并对许多搜索应用程序有效。然而,词汇搜索技术需要投入大量时间和专业知识来调整,以考虑搜索词的含义或相关性。如今,越来越多的开发人员希望将语义理解嵌入到他们的搜索应用程序中。机器学习嵌入模型应运而生,它们可以将文档、图像和音频的含义和上下文编码成向量,用于相似度搜索。这些嵌入的含义又可以使用 OpenSearch 提供的 k-近邻 (k-NN) 功能进行搜索。

将 OpenSearch 用作向量数据库,将传统搜索、分析和向量搜索的强大功能集于一体。OpenSearch 的向量数据库功能可以通过减少构建者操作、管理和集成 AI 生成资产的工作量,加速人工智能 (AI) 应用程序的开发。将您的模型、向量和元数据导入 OpenSearch,以支持向量、词汇和混合搜索与分析,并内置性能和可扩展性。

什么是向量数据库?

信息以多种形式存在:非结构化数据,如文本文档、富媒体和音频;以及结构化数据,如地理空间坐标、表格和图表。AI 领域的创新使得能够使用模型或嵌入来将所有类型的数据编码成向量。这些向量是高维空间中的数据点,它们捕获了资产的含义和上下文,从而允许搜索工具通过搜索相邻数据点来查找相似资产。

向量数据库允许您存储和索引向量及元数据,从而能够使用低延迟查询根据相似度发现资产。向量数据库通常由使用分层可导航小世界 (HNSW) 和倒排文件 (IVF) 系统等算法构建的 k-NN 索引提供支持,通过为数据管理、容错、资源访问控制和查询引擎等应用程序提供基础,增强了 k-NN 功能。

OpenSearch 提供了一个集成的向量数据库,可以通过充当知识库来支持 AI 系统。这通过提供 AI 生成输出的长期记忆,使生成式 AI 和自然语言搜索等 AI 应用程序受益。这些输出可用于增强信息检索和分析、提高效率和稳定性,并为生成式 AI 模型提供更广泛、更深入的数据池,从而得出更准确、更真实的查询响应。

生产环境中值得信赖

利用成熟的搜索和分析引擎为 AI 应用程序提供支持,该引擎已获得数万用户的生产环境信任。

大规模验证

使用经验证可扩展到数百亿向量、具有低延迟和高可用性的数据平台构建稳定的应用程序。

开放且灵活

选择开源工具,利用与流行开源框架的集成,并可选择使用主要云提供商的托管服务。

面向未来构建

通过一套软件中包含的向量、词汇和混合搜索、分析以及可观测性功能,使您的 AI 应用程序面向未来。

向量数据库用例

OpenSearch 作为向量数据库支持多种应用程序。以下是您可以构建的一些解决方案示例。

搜索
视觉搜索 创建允许用户拍照并搜索相似图像而无需手动标记图像的应用程序。
语义搜索 通过使用捕获语义含义的文本嵌入模型为向量搜索提供支持,并使用混合评分融合词频模型 (BM25) 来改进结果,从而增强搜索相关性。了解更多信息,请参阅 语义搜索
多模态搜索 使用最先进的模型,这些模型可以融合和编码文本、图像和音频输入,以生成更准确的富媒体数字指纹,并实现更相关的搜索和洞察。了解更多信息,请参阅 多模态搜索
生成式 AI 代理 利用生成式 AI 的强大功能构建智能代理,同时通过使用 OpenSearch 为大型语言模型 (LLM) 提供检索增强生成 (RAG) 工作流程,从而最大程度地减少 幻觉。(无论您将它们称为聊天机器人、自动化对话实体、问答机器人还是其他什么,OpenSearch 的向量数据库功能都可以帮助它们提供更好的结果)。了解更多信息,请参阅 会话式搜索
个性化
推荐引擎 使用协同过滤技术生成产品和用户嵌入,并使用 OpenSearch 为您的推荐引擎提供支持。
用户级内容定向 通过使用 OpenSearch 检索根据用户倾向排序的内容,利用基于用户交互训练的嵌入来个性化网页。
数据质量
自动化模式匹配和去重 使用相似度搜索自动化数据中的模式匹配和重复项,以促进数据质量流程。
向量数据库引擎
数据和机器学习平台 使用集成的 Apache 2.0 许可向量数据库构建您的平台,该数据库提供可靠且可扩展的解决方案,用于操作化嵌入并支持向量搜索。了解更多信息,请参阅 向量搜索

入门

您可以通过查阅我们的 向量搜索文档来开始使用 OpenSearch 的向量数据库功能。要了解更多信息或开始讨论,请加入我们的 公共 Slack 频道,查看我们的 用户论坛,并关注我们的 博客以获取 OpenSearch 工具和功能的最新信息。

资源

以下是来自用户、应用程序开发人员和 OpenSearch 社区其他成员的文档链接,这些文档探讨了如何将 OpenSearch 部署为向量数据库解决方案。

Medium

使用经过验证的信息源增强大型语言模型

OpenSearch

OpenSearch 中语义搜索的基础知识

StratusGrid

使用 Amazon OpenSearch 增强 ChatGPT

亚马逊云服务

Amazon OpenSearch Service 的向量数据库功能解释

亚马逊云服务

试用 Amazon OpenSearch Service 向量引擎的语义搜索

亚马逊云服务

构建一个强大的问答机器人

亚马逊云服务

使用 CLIP 模型实现统一的文本和图像搜索