Elasticsearch索引之嵌套类型:深度剖析与实战应用

04-11 1203阅读

码到三十五 : 个人主页

心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 !


Elasticsearch是一个基于Lucene的搜索服务器,它提供了一个分布式、多租户能力的全文搜索引擎,并带有一个基于HTTP的Web界面和基于JSON的文档。在Elasticsearch中,嵌套类型索引是一个非常重要的功能,它允许我们处理具有一对多关系的复杂数据结构。本文将深入探讨Elasticsearch中的嵌套类型索引,包括其定义、应用、查询、注意事项以及可能的替代方案。

目录

      • 前言
      • 一、嵌套类型作用
      • 二、nested 类型与object 类型的不同点
      • 三、嵌套类型的定义
      • 四、索引嵌套文档
      • 五、查询嵌套文档
      • 六、排序和聚合
      • 七、注意事项和性能考虑
      • 八、替代方案
      • 结语

        前言

        在Elasticsearch的实际应用中,嵌套文档是一个常见的需求,尤其是当我们需要对对象数组进行独立索引和查询时。在Elasticsearch中,这类嵌套结构被称为父子文档,它们能够“彼此独立地进行查询”。实现这一功能主要有两种方式:

        1. 父子文档关系:

          • 在Elasticsearch 5.x版本中,这种关系是通过parent-child父子type来实现的,允许一个索引对应多个type。
          • 但从6.x版本开始,由于Elasticsearch不再支持单个索引对应多个type,因此父子索引的实现方式转变为使用Join数据类型。
          • Nested嵌套类型:

            • 这是一种更为紧凑和高效的方式来处理嵌套文档,允许在单个文档中直接嵌套其他文档,并保持它们之间的关联性,便于进行复杂的查询操作。

        简而言之,Elasticsearch提供了灵活的方式来处理嵌套文档和父子文档关系,以满足不同场景下的查询需求。

        一、嵌套类型作用

        (1)Nested类型:Nested是Elasticsearch中一种特殊的数据类型,专为处理对象数组设计。它允许对数组中的每个对象进行独立的索引和查询,保持对象内部字段间的关联性。

        (2)对象数组的默认存储方式:

        Elasticsearch内部并不直接支持对象的层次结构,而是将对象层次结构扁平化为一个字段名和字段值的简单列表。这种处理方式可能导致数据关联性的丢失。例如,考虑以下文档:

        PUT user/user_info/1
        {
          "group": "man",
          "userName": [ 
            {
              "first": "张",
              "last": "三"
            },
            {
              "first": "李",
              "last": "四"
            }
          ]
        }
        

        如果我们尝试查询first为“张”且last为“四”的数据,按照常理,这样的数据应该不存在。然而,使用以下查询:

        GET /user/user_info/_search
        {
          "query": {
            "bool": {
              "must": [
                {
                  "match": {
                    "userName.first": "张"
                  }
                },
                {
                  "match": {
                    "userName.last": "四"
                  }
                }
              ]
            }
          }
        }
        

        意外地,我们可能会得到结果。这是因为Lucene(Elasticsearch的底层库)没有内部对象的概念,它将内部对象扁平化处理了。在内部,文档实际上被存储为:

        {
          "group": "man",
          "userName.first": ["张", "李"],
          "userName.last": ["三", "四"]
        }
        

        可以看到,userName.first和userName.last被扁平化为多值字段,它们之间的关联性已经丢失,因此查询结果可能不符合我们的预期。

        (3)使用Nested类型解决问题:

        为了解决上述问题并保持对象内部字段的关联性,我们可以使用Nested类型。通过Nested类型,Elasticsearch能够正确地处理对象数组,使得我们可以对数组中的每个对象进行独立的查询,从而得到准确的结果。

        二、nested 类型与object 类型的不同点

        嵌套对象(nested object)相较于普通的对象(object)类型,在Elasticsearch中具有独特的特点和功能。以下是它们之间的主要差异:

        嵌套对象(nested object):

        • 概述:嵌套类型是对象数据类型的一个特定版本,专为对象数组设计,使得数组中的每个对象都可以被独立地索引和查询。

        • 特征:

          • 字段相关性的保留:每个嵌套对象被独立索引后,能够确保对象中字段间的相关性不被破坏。这意味着在进行查询时,可以精确地找到满足条件的特定嵌套对象。
          • 查询效率:由于嵌套文档直接内嵌在父文档中,查询嵌套文档与根文档的组合成本相对较低,从而保证了查询的高效性,其速度与单独存储文档几乎无异。
          • 数据的隐藏与访问:嵌套文档在内部是隐藏存储的,无法直接访问。若需对嵌套对象进行修改(增加、删除或更改),则必须对整个父文档进行重新索引。值得注意的是,查询时返回的是包含匹配嵌套对象的整个父文档,而非单独的嵌套文档。

            相比之下,**普通的对象(object)**类型在处理对象数组时,默认会将对象内部的字段扁平化,这可能导致字段间的关联性丢失。因此,在进行复杂查询时,可能无法精确地定位到对象数组中的特定对象,从而影响查询结果的准确性。

            总的来说,嵌套对象通过保留字段间的相关性和提供高效的查询性能,为处理对象数组提供了一种更为精确和灵活的方式。然而,这也带来了数据访问和修改的某些限制,需要权衡利弊后做出选择。

            三、嵌套类型的定义

            在Elasticsearch中,嵌套类型主要用于处理包含多个内部对象的字段,这些内部对象通常与外部对象相关联。通过在映射(mapping)中定义一个字段为嵌套类型,我们可以对这些关联数据进行有效的查询。

            嵌套类型定义:

            PUT /my_index
            {
              "mappings": {
                "properties": {
                  "user": {
                    "type": "nested", 
                    "properties": {
                      "name": {
                        "type": "text"
                      },
                      "age": {
                        "type": "integer"
                      }
                    }
                  }
                }
              }
            }
            

            user字段被定义为嵌套类型,包含name和age两个子字段。这样的定义允许存储和查询多个与用户相关的内部对象。

            四、索引嵌套文档

            一旦定义了嵌套索引,就可以开始索引包含嵌套字段的文档了。以下是一个栗子:

            PUT /my_index/_doc/1
            {
              "user": [
                {
                  "name": "Alice",
                  "age": 25
                },
                {
                  "name": "Bob",
                  "age": 30
                }
              ]
            }
            

            user字段是一个数组,每个数组元素都是一个对象,包含name和age字段。这种数据结构允许我们存储多个与用户相关的记录,并保持它们之间的关联性。

            五、查询嵌套文档

            查询嵌套文档时,需要使用特定的nested查询语法。以下是一个查询名字为"Alice"的用户的dsl:

            GET /my_index/_search
            {
              "query": {
                "nested": {
                  "path": "user",
                  "query": {
                    "match": {
                      "user.name": "Alice"
                    }
                  }
                }
              }
            }
            

            这个查询将返回所有包含名字为"Alice"的用户的文档。通过nested查询,可以精确地定位到嵌套字段中的特定数据,并进行高效的检索。

            六、排序和聚合

            除了基本的查询功能外,Elasticsearch还允许我们对嵌套字段进行排序和聚合操作。然而,由于嵌套字段的特殊性,这些操作可能比常规字段更复杂。需要使用特定的nested排序和聚合语法来实现这些功能。

            例如,如果我们想按照用户的年龄进行排序,可以使用以下查询:

            GET /my_index/_search
            {
              "sort": [
                {
                  "user.age": {
                    "order": "asc",
                    "nested": {
                      "path": "user"
                    }
                  }
                }
              ],
              "query": {
                "match_all": {}
              }
            }
            

            这个查询将按照用户的年龄进行升序排序,并返回所有文档。通过使用nested排序语法,我们可以确保正确地处理嵌套字段中的数据。

            类似地,也可以对嵌套字段进行聚合操作,以获取有关数据的统计信息。例如,我们可以计算用户的平均年龄:

            GET /my_index/_search
            {
              "size": 0,
              "aggs": {
                "nested_users": {
                  "nested": {
                    "path": "user"
                  },
                  "aggs": {
                    "average_age": {
                      "avg": {
                        "field": "user.age"
                      }
                    }
                  }
                }
              }
            }
            

            这个聚合查询将计算所有用户的平均年龄,并返回结果。通过使用nested聚合语法,我们可以对嵌套字段中的数据执行复杂的统计分析。

            七、注意事项和性能考虑

            尽管嵌套索引在Elasticsearch中非常有用,但也有一些需要注意的事项和性能考虑因素:

            1. 性能影响:嵌套字段会增加索引的复杂性,并可能影响性能。由于嵌套字段需要额外的存储空间来维护内部对象之间的关系,因此索引和查询这些字段可能会比常规字段更耗时。
            2. 更新开销:当你更新嵌套文档中的某个内部对象时,整个嵌套数组都会被重新索引。这可能会导致性能下降,特别是在处理大量数据时。因此,在设计数据模型时需要谨慎考虑更新的频率和影响。
            3. 查询复杂性:对嵌套字段进行查询可能比常规字段更复杂。你需要使用特定的nested查询语法,并确保正确地引用嵌套路径和字段名。此外,过于复杂的查询可能会导致性能下降。

            八、替代方案

            如果你发现嵌套字段导致性能问题或查询复杂性增加,可以考虑以下替代方案:

            Elasticsearch索引之嵌套类型:深度剖析与实战应用

            1. 数据模型扁平化:尝试将数据模型扁平化,将嵌套字段拆分为单独的字段或文档。这样可以简化查询和索引过程,但可能会增加数据冗余和存储开销。

            2. 父子文档关系:Elasticsearch支持父子文档关系,允许你定义文档之间的层次结构。这种关系可以用于处理具有一对多关系的数据,并提供更灵活的查询和聚合功能。然而,父子文档关系也可能带来一些性能上的考虑因素。

            Elasticsearch索引之嵌套类型:深度剖析与实战应用

            1. 应用逻辑管理:另一种方法是将关联数据存储在单独的索引中,并使用应用程序逻辑来管理和查询这些数据之间的关系。这种方法可以提供更大的灵活性,但需要在应用程序中实现额外的逻辑来处理关联数据。

            结语

            Elasticsearch中的嵌套索引是一个强大的功能,允许你处理具有一对多关系的复杂数据结构。通过正确使用嵌套索引、查询、排序和聚合功能,你可以高效地检索和分析关联数据。然而,在使用嵌套索引时需要注意性能影响和查询复杂性,并根据具体情况考虑替代方案来优化数据模型和查询性能。


            术因分享而日新,感谢您关注公众号 『 码到三十五 』 ,共享更多技术资料。


VPS购买请点击我

文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

目录[+]