MongoDB

MongoDB 索引简介

内容

简介
何时应使用索引
如何创建索引
如何显示索引
如何理解索引性能
如何删除索引
结论
常见问题

分享到

简介

就像百科全书一样，数据库是可访问信息的丰富存储库。要在百科全书中找到特定信息，需要翻阅每一页，直到找到所需内容。这种效率低下是百科全书拥有索引的原因，索引会引导您准确找到所需信息的页面。

数据库索引以类似的方式更有效地引导您找到信息。在 MongoDB 中，未索引的“搜索整本书”的查询称为集合扫描。

索引可以被认为是访问数据的快捷方式，这样就不必扫描整个数据库来查找所需内容。在本文中，我们将介绍 MongoDB 中的索引，讨论何时使用它们以及如何管理它们。

Prisma.IO 上的相关内容

如果您正在使用 MongoDB，请查看 Prisma 的 MongoDB 连接器！您可以使用 Prisma Client 自信地管理生产 MongoDB 数据库。

要开始使用 MongoDB 和 Prisma，请查看我们的从头开始指南或如何添加到现有项目。

Prisma 是一个用于 Typescript 和 Node.js 的开源数据库工具包，旨在提高应用程序开发人员在使用数据库时的生产力和信心。

何时应使用索引

按照我们的百科全书类比，有人可能会想到为书中的每个单词都设置索引行。如果使用索引总是更快，那么这似乎是有益的。然而，正如您可以想象的，索引中的单词行越多，书就越大。在某些时候，为了索引每个单词而需要容纳的书的大小变得无效。有许多单词，例如“the”或“because”，不如“hippopotamus”有用。

这与 MongoDB 和一般数据库中的索引类似。是的，为查询可能使用的任何数据设置索引会更快，但有些数据根本不需要索引。就像书的大小一样，向数据库添加太多索引也会占用空间，如果不能及时控制，会对数据库上的写入操作产生不利影响。

索引是一种非常有用的方法，可以优化对经常用作查询选择条件的特定数据的访问。了解何时使用它们很重要，因此确保在经常查询的数据库字段上添加它们将保持读取效率，而不会对数据库大小和写入效率产生负面影响。

如何创建索引

现在我们已经了解了索引是什么以及何时使用它们，我们可以开始创建索引的方法了。

一旦您确定了某个字段可以从索引中受益，您就可以使用 MongoDB 的 createIndex() 方法。基本语法如下：

db.COLLECTION_NAME.createIndex( { "FIELD_NAME": 1 } )

FIELD_NAME 是您要创建索引的字段名称，1 表示升序。

该方法的示例用法如下所示：

db.mycoll.createIndex( { "country": 1 } )

您还可以使用 createIndex() 方法通过创建逗号分隔列表来在多个字段上创建索引，如下所示：

db.COLLECTION_NAME.createIndex( { "FIELD_NAME_1": 1, "FIELD_NAME_2": -1 } )

如何显示索引

一旦您开始创建索引，您可能希望检查数据库实例上存在哪些索引。在 MongoDB 中，您可以使用 getIndexes() 方法返回集合中所有索引的描述。

查看所有集合索引的基本语法是：

db.COLLECTION_NAME.getIndexes()

使用我们创建索引时前面的示例，以下显示了该方法及其将返回的内容。

db.mycoll.getIndexes()

返回值为

[
   {
      "v" : 2,
      "key" : {
         "country" : 1
      },
      "name" : "country"
   }
 ]

索引信息包括用于创建索引的键和选项。

Prisma.IO 上的相关内容

如果您有兴趣在 MongoDB 中使用全文索引，Prisma 提供了fullTextIndex 预览功能，它允许您轻松地将全文索引迁移到 Prisma 模式中，以实现类型安全和防止验证错误。

Prisma 是一个用于 Typescript 和 Node.js 的开源数据库工具包，旨在提高应用程序开发人员在使用数据库时的生产力和信心。

如何理解索引性能

现在有了创建和检查集合中是否存在索引的能力，您将希望查看索引是否按预期运行。

为了开始这个示例，我们将使用 sample_mflix 数据库和 comments 集合，其中包含约 50.3k 个文档。这是由 MongoDB 大学提供的示例集合，模拟电影和电视评论的数据存储。

为了理解索引的性能，我们首先要运行一个没有索引的查询。以下查询将返回集合中所有 273 个由 Ramsay Bolton 发表的评论文档。

db.comments.find( { "name" : "Ramsay Bolton" } )

现在，如果我们将 MongoDB 的解释计划附加到查询中，我们将看到此查询的性能。

db.comments.find( { "name" : "Ramsay Bolton" } ).explain("executionStats")

这会产生以下结果

{
  queryPlanner: {
    plannerVersion: 1,
    namespace: 'sample_mflix.comments',
    indexFilterSet: false,
    parsedQuery: { name: { '$eq': 'Ramsay Bolton' } },
    winningPlan: {
      stage: 'COLLSCAN',
      filter: { name: { '$eq': 'Ramsay Bolton' } },
      direction: 'forward'
    },
    rejectedPlans: []
  },
  executionStats: {
    executionSuccess: true,
    nReturned: 273,
    executionTimeMillis: 23,
    totalKeysExamined: 0,
    totalDocsExamined: 50303,
    executionStages: {
      stage: 'COLLSCAN',
      filter: { name: { '$eq': 'Ramsay Bolton' } },
      nReturned: 273,
      executionTimeMillisEstimate: 6,
      works: 50305,
      advanced: 273,
      needTime: 50031,
      needYield: 0,
      saveState: 50,
      restoreState: 50,
      isEOF: 1,
      direction: 'forward',
      docsExamined: 50303
    }
  }
}

此输出中有几个关键结果需要关注。首先，我们可以在 winningPlan 中看到此查询的 stage 是 COLLSCAN。这意味着发生了集合扫描以完成此查询，totalDocsExamined 为 50,303，executionTimeMillis 为 23 毫秒。即使 nReturned 只有 273 个文档，查询也必须检查集合中的每个文档并花费 23 毫秒。虽然 23 毫秒听起来不多，但对于包含一百万个文档的集合来说，这可能会长得多。

如果对 name 的查询将是访问此集合的应用程序的常见模式，我们可能希望在此字段上创建索引。为此，我们编写以下内容：

db.comments.createIndex( {"name":1} )

如果我们使用之前的解释计划运行相同的查询

db.comments.find( { "name" : "Ramsay Bolton" } ).explain("executionStats")

{
  queryPlanner: {
    plannerVersion: 1,
    namespace: 'sample_mflix.comments',
    indexFilterSet: false,
    parsedQuery: { name: { '$eq': 'Ramsay Bolton' } },
    winningPlan: {
      stage: 'FETCH',
      inputStage: {
        stage: 'IXSCAN',
        keyPattern: { name: 1 },
        indexName: 'name_1',
        isMultiKey: false,
        multiKeyPaths: { name: [] },
        isUnique: false,
        isSparse: false,
        isPartial: false,
        indexVersion: 2,
        direction: 'forward',
        indexBounds: { name: [ '["Ramsay Bolton", "Ramsay Bolton"]' ] }
      }
    },
    rejectedPlans: []
  },
  executionStats: {
    executionSuccess: true,
    nReturned: 273,
    executionTimeMillis: 0,
    totalKeysExamined: 273,
    totalDocsExamined: 273,
    executionStages: {
      stage: 'FETCH',
      nReturned: 273,
      executionTimeMillisEstimate: 0,
      works: 274,
      advanced: 273,
      needTime: 0,
      needYield: 0,
      saveState: 0,
      restoreState: 0,
      isEOF: 1,
      docsExamined: 273,
      alreadyHasObj: 0,
      inputStage: {
        stage: 'IXSCAN',
        nReturned: 273,
        executionTimeMillisEstimate: 0,
        works: 274,
        advanced: 273,
        needTime: 0,
        needYield: 0,
        saveState: 0,
        restoreState: 0,
        isEOF: 1,
        keyPattern: { name: 1 },
        indexName: 'name_1',
        isMultiKey: false,
        multiKeyPaths: { name: [] },
        isUnique: false,
        isSparse: false,
        isPartial: false,
        indexVersion: 2,
        direction: 'forward',
        indexBounds: { name: [ '["Ramsay Bolton", "Ramsay Bolton"]' ] },
        keysExamined: 273,
        seeks: 1,
        dupsTested: 0,
        dupsDropped: 0
      }
    }
  }
}

与未索引的查询相比，我们现在看到 winningPlan.inputstage 现在是 IXSCAN，这表示使用了索引。

此外，我们看到 totalDocsExamined 现在只是 name 为 "Ramsay Bolton" 的 273 个文档，而不是整个 50,303 个文档。这种效率的提高现在尤其体现在 executionTimeMillis 总计为 0 毫秒。我们对 name 的新索引精确地告诉查询在哪里查找它正在寻找的数据。

分析最重要的查询的解释计划将向您展示索引的性能，或突出显示何时需要创建索引以提高应用程序的效率。

如何删除索引

虽然解释计划可能会显示需要索引，但它也可能起到相反的作用。例如，如果不再需要某个索引或其性能提升不大，则最好删除该索引以节省空间或提高写入性能。

要删除集合上的索引，使用 dropIndexes() 方法的基本语法如下：

db.COLLECTION_NAME.dropIndex( { "FIELD_NAME": 1 } )

如果我们想删除前面示例中的 country 索引，我们将编写以下内容：

db.mycoll.dropIndex( { "country":1 } )

结论

在本指南中，我们讨论了如何高效地查询数据库，从而改善应用程序的用户体验。此外，那些将数据用于分析或其他内部工作的人将获得更快的性能，并更轻松地使用数据库。了解如何索引以及索引如何工作是实现查询效率的关键。

我们介绍了 MongoDB 中创建、分析和删除索引的基础知识。了解这些索引基础将为继续学习 MongoDB 更高级的索引打下正确的基础。

Prisma.IO 上的相关内容

如果您正在使用 MongoDB，请查看 Prisma 的 MongoDB 连接器！您可以使用 Prisma Client 自信地管理生产 MongoDB 数据库。

要开始使用 MongoDB 和 Prisma，请查看我们的从头开始指南或如何添加到现有项目。

Prisma 是一个用于 Typescript 和 Node.js 的开源数据库工具包，旨在提高应用程序开发人员在使用数据库时的生产力和信心。

常见问题解答

MongoDB 中的 2d 索引是什么？

对存储为二维平面上的点数据使用 2d 索引。它旨在用于旧版 MongoDB 上的旧坐标对。

一个 2d 索引可以引用两个字段。第一个必须是位置字段。一个 2d 复合索引构建的查询会首先选择位置字段，然后通过附加条件过滤这些结果。

如何在 MongoDB 中对大型集合创建索引？

无论是小型还是大型集合，您都将继续使用 createIndex() 方法。

如果您在大型集合上构建索引时遇到问题，那么您可能需要考虑横向扩展，以便更易于管理。

MongoDB 还建议采用滚动索引构建方法。

如何在 MongoDB 中为嵌入式对象字段创建索引？

要在 MongoDB 中为嵌入式对象字段创建索引，可以使用点表示法。

例如，如果您有一个用于跟踪已读图书的应用程序，那么每个用户可能都有一个集合，其结构如下：

db.users.insertOne({
    "first_name": "Alex",
    "last_name": "Emerich",
    "books": {
        "first_book": {
            "title": "Flights",
            "author": "Olga Tokarczuk"
        },
        "second book": {
            "title": "The Master and Margarita",
            "author": "Mikhail Bulgakov"
        },
        "total": 2
    }
})

为了在嵌入式 total 字段上创建索引，请编写以下语句：

db.users.createIndex( {"books.total": 1 } )

MongoDB 中的复合索引是什么？

复合索引是单个索引结构，它引用集合文档中的多个字段。

创建复合索引的基本语法如下：

db.collection.createIndex( { <field1>: <type>, <field2>: <type2>, ... } )

MongoDB 中的非唯一索引是什么？

唯一索引确保表的两行在索引列中没有重复值。对于 MongoDB 而言，它是文档字段中的重复值。

非唯一索引不施加此限制。

作者简介

亚历克斯·埃默里奇

亚历克斯是一个典型的观鸟、热爱嘻哈的“书呆子”，也喜欢写关于数据库的文章。他目前住在柏林，在那里他像利奥波德·布鲁姆一样漫无目的地穿梭于城市。

在 GitHub 上编辑此页面

MongoDB

MongoDB 索引简介

内容

简介

何时应使用索引

如何创建索引

如何显示索引

如何理解索引性能

如何删除索引

结论

常见问题解答

亚历克斯·埃默里奇

Prisma 的数据指南