最全MongoDB中如何优雅地删除大量数据,2024年最新膜拜
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化资料的朋友,可以戳这里获取
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
- 锁定的记录多
相对而言,更容易导致锁等待。
即使是分布式数据库,如TiDB,如果一次删除了大量数据,这批数据在进行Compaction时有可能会触发流控。
所以,对于线上的大规模删除操作,建议分而治之。具体来说,就是批量删除,每次只删除一部分数据,分多次执行。
就如何删除大量数据,接下来我们看看MongoDB中的落地方案。
本文主要包括以下四部分内容。
-
MongoDB中删除数据的三种方式。
-
三种方式的执行效率对比。
-
通过Write Concern规避主从延迟。
-
删除过程中碰到的Bug。
MongoDB中删除数据的三种方式
=================
在MongoDB中删除数据,可通过以下三种方式:
- db.collection.remove()
删除单个文档或满足条件的所有文档。
- db.collection.deleteMany()
删除满足条件的所有文档。
- db.collection.bulkWrite()
批量操作接口,可执行批量插入、更新、删除操作。
接下来,对比下这三种方式的执行效率。
三种方式的执行效率对比
===========
环境:MongoDB 3.4.4,副本集。
测试思路:分别使用 remove、deleteMany、bulkWrite 删除 10w 条记录(每批删除 5000 条),交叉执行 5 次。
1. remove
// delete_date是删除条件
var delete_date = new Date(“2021-01-01T00:00:00.000Z”);
// 获取程序开始时间
var start_time = new Date();
// 获取满足删除条件的记录数
rows = db.test_collection.find({“createtime”: {$lt: delete_date}}).count()
print(“total rows:”, rows);
// 定义每批需要删除的记录数
var batch_num = 5000;
while (rows > 0) {
// rows也可理解为剩余记录数
// 如果剩余记录数小于batch_num,则将剩余记录数赋值给batch_num
// 为什么要怎么做,后面会提到。
if (rows
p“justOne”: true,/p pw: “majority”/p p})/p p});/p p}/p p// 获取程序结束时间/p pvar end_time = new Date();/p p// 两者的差值,即为程序执行时长/p pprint((end_time - start_time) / 1000);/p p2. deleteMany/p hr / p实例思路同remove类似,只不过会将待删除的_id放到一个数组中,最后再通过deleteMany一次性删除。/p p具体代码如下:/p pvar delete_date = new Date(“2021-01-01T00:00:00.000Z”);/p pvar start_time = new Date();/p prows = db.test_collection.find({“createtime”: {$lt: delete_date}}).count()/p pprint(“total rows:”, rows);/p pvar batch_num = 5000;/p pwhile (rows > 0) {if (rows
p‘_id’: {“$in”: delete_ids},/p p“createTime”: {‘$lt’: delete_date}/p p},{w: “majority”})/p p}/p pvar end_time = new Date();/p pprint((end_time - start_time) / 1000);/p p3. bulkWrite/p hr / p实现思路同deleteMany类似,也是将待删除的_id放到一个数组中,最后再调用bulkWrite进行删除。/p p具体代码如下:/p pvar delete_date = new Date(“2021-01-01T00:00:00.000Z”);/p pvar start_time = new Date();/p prows = db.test_collection.find({“createtime”: {$lt: delete_date}}).count()/p pprint(“total rows:”, rows);/p pvar batch_num = 5000;/p pwhile (rows > 0) {if (rows
- db.collection.bulkWrite()
- db.collection.deleteMany()
-


