一个开源、一体化的向量数据库,用于构建灵活、可扩展且面向未来的 AI 应用程序
传统的词汇搜索,基于 BM25 等词频模型,被广泛使用并对许多搜索应用程序有效。然而,词汇搜索技术需要投入大量时间和专业知识来调整,以考虑搜索词的含义或相关性。如今,越来越多的开发人员希望将语义理解嵌入到他们的搜索应用程序中。机器学习嵌入模型应运而生,它们可以将文档、图像和音频的含义和上下文编码成向量,用于相似度搜索。这些嵌入的含义又可以使用 OpenSearch 提供的 k-近邻 (k-NN) 功能进行搜索。
将 OpenSearch 用作向量数据库,将传统搜索、分析和向量搜索的强大功能集于一体。OpenSearch 的向量数据库功能可以通过减少构建者操作、管理和集成 AI 生成资产的工作量,加速人工智能 (AI) 应用程序的开发。将您的模型、向量和元数据导入 OpenSearch,以支持向量、词汇和混合搜索与分析,并内置性能和可扩展性。
什么是向量数据库?
信息以多种形式存在:非结构化数据,如文本文档、富媒体和音频;以及结构化数据,如地理空间坐标、表格和图表。AI 领域的创新使得能够使用模型或嵌入来将所有类型的数据编码成向量。这些向量是高维空间中的数据点,它们捕获了资产的含义和上下文,从而允许搜索工具通过搜索相邻数据点来查找相似资产。
向量数据库允许您存储和索引向量及元数据,从而能够使用低延迟查询根据相似度发现资产。向量数据库通常由使用分层可导航小世界 (HNSW) 和倒排文件 (IVF) 系统等算法构建的 k-NN 索引提供支持,通过为数据管理、容错、资源访问控制和查询引擎等应用程序提供基础,增强了 k-NN 功能。
OpenSearch 提供了一个集成的向量数据库,可以通过充当知识库来支持 AI 系统。这通过提供 AI 生成输出的长期记忆,使生成式 AI 和自然语言搜索等 AI 应用程序受益。这些输出可用于增强信息检索和分析、提高效率和稳定性,并为生成式 AI 模型提供更广泛、更深入的数据池,从而得出更准确、更真实的查询响应。