微软开源算法为Bing提供了一些智慧

2021-12-23 10:17:54   编辑:令狐育玲
导读 今天的搜索引擎不仅仅是他们过去的愚蠢关键字匹配器。你可以问一个问题——比如巴黎的塔有多高?——他们会告诉你埃菲尔铁塔高 324 米(1,0

今天的搜索引擎不仅仅是他们过去的愚蠢关键字匹配器。你可以问一个问题——比如“巴黎的塔有多高?”——他们会告诉你埃菲尔铁塔高 324 米(1,063 英尺),与 81 层的建筑差不多。即使问题从未真正命名过塔,他们也可以做到这一点。

他们怎么做到的?与如今的其他一切一样,他们使用机器学习。机器学习算法用于构建向量——本质上是一长串数字——在某种意义上代表它们的输入数据,无论是网页上的文本、图像、声音还是视频。Bing 为其索引的所有不同类型的媒体捕获了数十亿个这些向量。为了搜索向量,Microsoft 使用了一种称为 SPTAG(“空间分区树和图”)的算法。一个输入查询被转换成一个向量,SPTAG用于快速找到“近似最近邻”(ANN),即与输入相似的向量。

这(有一定程度的挥手)是如何回答埃菲尔铁塔的问题:搜索“巴黎的塔有多高?” 将“接近”页面谈论塔楼、巴黎以及事物的高度。这些页面几乎肯定是关于埃菲尔铁塔的。

微软今天在 GitHub 上发布了 SPTAG 算法作为MIT 许可的开源。此代码经过验证和生产级,用于回答 Bing 中的问题。开发人员可以使用该算法快速搜索他们自己的向量集:一台机器每秒可以处理 2.5 亿个向量并回答 1,000 次查询。微软的AI Lab有一些示例和说明,Azure 也会有使用相同算法的服务。

微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 曾多次表示,他希望“人工智能民主化”并使所有人都能使用它,这不仅创建了一个需要大量专业知识的集中式专业工具,而且还需要广泛的开发人员来解决广泛的问题。范围的问题,可以用作他们工具包的一部分。SPTAG 的发布是微软如何将这些话付诸实践的一个例子;Azure 服务和开源的结合意味着开发人员可以从更受约束、更易于使用的服务开始,随着他们的专业知识或需求变得越来越复杂,他们可以使用 SPTAG 来构建自己的服务。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章