【Hive SQL 每日一题】找出各个商品销售额的中位数

2024-07-19 1603阅读

文章目录

    • 测试数据
    • 需求说明
    • 需求实现
      • 方法1 —— 升序计算法
      • 方法2 —— 正反排序法
      • 补充

        测试数据

        -- 创建 orders 表
        DROP TABLE IF EXISTS orders;
        CREATE TABLE orders (
            order_id INT,
            product_id INT,
            order_date STRING,
            amount DOUBLE
        );
        -- 插入 orders 数据
        INSERT INTO orders VALUES
        (1, 1, '2024-01-01', 100.0),
        (2, 1, '2024-01-02', 150.0),
        (3, 2, '2024-01-03', 200.0),
        (4, 3, '2024-01-04', 50.0),
        (5, 4, '2024-01-05', 300.0),
        (6, 5, '2024-01-06', 250.0),
        (7, 1, '2024-01-07', 80.0),
        (8, 2, '2024-01-08', 220.0),
        (9, 3, '2024-01-09', 60.0),
        (10, 4, '2024-01-10', 310.0),
        (11, 5, '2024-01-11', 230.0),
        (12, 1, '2024-01-12', 90.0),
        (13, 2, '2024-01-13', 210.0),
        (14, 3, '2024-01-14', 70.0),
        (15, 4, '2024-01-15', 320.0),
        (16, 5, '2024-01-16', 240.0),
        (17, 1, '2024-01-17', 110.0),
        (18, 2, '2024-01-18', 190.0),
        (19, 3, '2024-01-19', 80.0),
        (20, 4, '2024-01-20', 330.0),
        (21, 5, '2024-01-21', 260.0),
        (22, 1, '2024-01-22', 120.0),
        (23, 2, '2024-01-23', 230.0),
        (24, 3, '2024-01-24', 90.0),
        (25, 4, '2024-01-25', 340.0),
        (26, 5, '2024-01-26', 270.0),
        (27, 1, '2024-01-27', 130.0),
        (28, 2, '2024-01-28', 180.0),
        (29, 3, '2024-01-29', 100.0),
        (30, 4, '2024-01-30', 350.0);
        

        需求说明

        求出每个商品的订单金额中位数。

        结果示例:

        product_idmedian
        1110.0
        2200.0
        2210.0

        结果按 product_id 、median 升序排列。

        其中:

        • product_id 表示商品 ID;
        • median 表示该商品的中位数值。

          需求实现

          需求实现之前,我们需要明确中位数的概念,在日常生活中,我们是如何计算中位数的?

          这里给定一个列表 [4,5,6,7,8],请你计算该列表的中位数,那么该如何进行呢?

          首先,求中位数需要将数值按照从小到大的顺序排列,然后根据中位数列表的长度 n 不同有两种结果:

          • 如果列表长度 n 为偶数,那么中位数就有两个,为第 n/2 个和第 n/2+1 个;

          • 如果列表长度 n 为奇数,那么中位数就只有一个,为第 (n+1)/2 个。

            这里给定的示例列表长度为 5,是一个奇数,故它的中位数为第 (5+1)/2 个,所以这个列表的中位数为 6。

            那么,学会了如何计算中位数,下面就说说如何在 SQL 中实现。

            方法1 —— 升序计算法

            select
                product_id,
                amount median
            from
                (select
                    product_id,
                    amount,
                    row_number() over(partition by product_id order by amount) rn,
                    count(1) over(partition by product_id) cnt
                from
                    orders)t1
            where
                rn in (cnt/2,cnt/2+1,(cnt+1)/2)
            order by
                product_id,median;
            

            输出结果如下所示:

            【Hive SQL 每日一题】找出各个商品销售额的中位数

            这个方法就是上面提到的中位数计算逻辑:

            • 分组按从小到大进行排名;

            • 分组统计总个数;

            • 判断排名是否处于中位数的结果中。

              方法2 —— 正反排序法

              select
                  product_id,
                  amount median
              from
                  (select
                      product_id,
                      amount,
                      row_number() over(partition by product_id order by amount) rn_asc,
                      row_number() over(partition by product_id order by amount desc) rn_desc,
                      count(1) over(partition by product_id) cnt
                  from
                      orders)t1
              where
                  rn_asc >= cnt/2
                  and
                  rn_desc >= cnt/2
              order by
                  product_id,median;
              

              输出结果如下:

              【Hive SQL 每日一题】找出各个商品销售额的中位数

              这个方法的计算逻辑有所不同:

              • 分组按从小到大进行排名;

              • 分组按从大到小进行排名;

              • 分组统计总个数 cnt;

              • 判断正反排名是否都满足 cnt/2。

                那么为什么这种方法可以取到中位数呢?我们一起来看看子查询 t1 的结果:

                【Hive SQL 每日一题】找出各个商品销售额的中位数

                从 t1 子查询中可以看到,如果总个数为奇数时,那么该组中的中位数有且仅有一个,因为它无论时正序还是逆序排列,中位数的排名都不会发生改变,这种情况时,那么是不是满足条件 rn_asc = rn_desc 我们就能够找出长度为奇数组中的中位数。

                如果总个数为偶数时,根据中位数的特性,该组的中位数一定是两个,那么如何设置条件呢?其实我们可以从正反序的排名中入手,同组中,当满足 rn_asc >= cnt/2 且 rn_desc >= cnt/2 条件时,它就能够找出长度为偶数中的中位数。

                将奇偶条件结合,可以省略直接写成 rn_asc >= cnt/2 and rn_desc >= cnt/2

                补充

                在 Hive 中有两个内置的聚合函数可以用于求近似中位数,分别是:

                • percentile(col,0.5)

                • percentile_approx(col,0.5)

                  其中第一个参数 col 为我们要求中位数的列,第二个参数固定为 0.5。

                  它们的区别是,percentile 中指定的列必须是整型,不能是浮点型。如果是浮点型数据,则使用 percentile_approx 函数,它们在用法上并没有差别。

                  注意: 这两个函数无法严格的计算出中位数,它们计算的只是一个近似值,意味着和真正的中位数是存在一定差异的,特别是在数据量较少或数据分布不均的情况下。

                  如果不需要拿到准确的中位数值,只需要获取到这组数据中相对的中位数,那么则可以使用这两个内置函数,主要看业务指标口径是否需要达到精准。

                  使用示例

                  DROP TABLE IF EXISTS orders;
                  CREATE TABLE orders (
                      order_id INT,
                      product_id INT,
                      amount DOUBLE
                  );
                  INSERT INTO orders (order_id, product_id, amount) VALUES
                  (1, 1, 100.0),
                  (2, 1, 150.0),
                  (3, 1, 666.6),
                  (4, 3, 180.0),
                  (5, 3, 250.0),
                  (6, 3, 320.0);
                  select
                      product_id,
                      percentile_approx(amount,0.5) median
                  from
                      orders
                  group by
                      product_id;
                  

                  输出结果如下:

                  【Hive SQL 每日一题】找出各个商品销售额的中位数

VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]