首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

10W数据导入该如何与库中数据去重?

编程知识
2024年08月16日 16:52

使用的是PostgreSQL

在做大数据量(十万级)导入时,某些字段和数据库表里数据(千万级)重复的需要排除掉,把表数据查询出来用程序的方式判断去重效率很低,于是考虑用临时表。

  1. 先把新数据插入到临时表里,临时表结构和原始表一致。
  2. 用SQL的方式把不重复的数据DataA查询出来。
  3. 把DataA插入到原始表里。

因为不重复的数据我还要做一些其他的处理,所以查出来DataA,若不需做特殊处理可直接使用 insert into select 的方式将第2步的数据插入到原始表,然后清空临时表

第2步有两种方式,一种是用 not exists 的方式,如

SELECT
	* 
FROM
	tableTemp t1 
WHERE
	NOT EXISTS ( SELECT 1 FROM tableName WHERE columnA = t1.columnA AND columnB = t1.columnB )

第二种方式是用 left join

SELECT
	* 
FROM
	tableTemp t1
	LEFT JOIN tableName t2 ON t2.columnA = t1.columnA AND t2.columnB = t2.columnB 
WHERE
	t2.columnA IS NULL

经测试(每个人的表结构和索引各有不同,我这里仅仅提供参考)

临时表数据量少时, not exists 用时较少,随着数据量越多用时越久。当数据达到10w时,用时25s。

临时表数据量少时,left join 用时30s,随着数据量越多变化不大,当数据达到10w时,用时40s。

结论1:单表去重时,只要导入的数据量不是特别特别大(20w级以上),优先使用 not exists 做去重。

但还有一种情况,就是需要对两个表做去重。

例如

SELECT
	* 
FROM
	tableTemp t1 
WHERE
	NOT EXISTS ( 
	SELECT 1 FROM tableNameA WHERE columnA = t1.columnA AND columnB = t1.columnB 
	union all
	select 1 from tableNameB WHERE columnA = t1.columnA AND columnB = t1.columnB 
	);

SELECT
	* 
FROM
	tableTemp t1
	LEFT JOIN tableNameA t2 ON t2.columnA = t1.columnA AND t2.columnB = t1.columnB 
	LEFT JOIN tableNameB t3 ON t3.columnA = t1.columnA AND t3.columnB = t1.columnB 
WHERE
	t2.columnA IS NULL
	AND t3.columnA IS NULL

这种情况下,

临时表数据少时,not exists 用时较少,随着数据量越多用时越久。当数据达到10w时,用时150s!!!。

临时表数据少时,left join 用时仍然是30s,随着数据量越多用时越久。当数据达到10w时,用时仍然是40s。

两者在数据量为3w时,用时不相上下

结论2:双表去重时,当导入的数据在3w以下时,用 not exists,在3w以上时,用 left join。

From:https://www.cnblogs.com/GilbertDu/p/18363389
本文地址: http://www.shuzixingkong.net/article/1169
0评论
提交 加载更多评论
其他文章 Unity FPSSample Demo研究
1.前言 Unity FpsSample Demo大约是2018发布,用于官方演示MLAPI(NetCode前身)+DOTS的一个FPS多人对战Demo。 Demo下载地址(需要安装Git LFS) :https://github.com/Unity-Technologies/FPSSample 下
Unity FPSSample Demo研究 Unity FPSSample Demo研究 Unity FPSSample Demo研究
unity游戏源码和教程:智能分析话语的三维唯美世界
unity游戏源码和教程:智能分析话语的三维唯美世界。 这个游戏的源码(含教程文档)我放到了夸克网盘https://pan.quark.cn/s/618fb9459029 话语分析是有用的,假如游戏中,你是队长,带着NPC队友张三和李四,路上遇到蛇,你可以说“张三打蛇,李四保护张三。”这就需要先分析
unity游戏源码和教程:智能分析话语的三维唯美世界 unity游戏源码和教程:智能分析话语的三维唯美世界 unity游戏源码和教程:智能分析话语的三维唯美世界
树莓派CM4(三): 定制自己的树莓派镜像
1. 镜像下载 使用树莓派最新的镜像Raspberry Pi OS Lite,内核版本6.6 下载链接 https://downloads.raspberrypi.com/raspios_lite_arm64/images/raspios_lite_arm64-2024-07-04/2024-07-
树莓派CM4(三): 定制自己的树莓派镜像 树莓派CM4(三): 定制自己的树莓派镜像 树莓派CM4(三): 定制自己的树莓派镜像
CRC算法原理、推导及实现
CRC, Cyclic Redundancy Check, 循环冗余校验 1. 基本原理 CRC的本质是除法,把待检验的数据当作一个很大(很长)的被除数,两边选定一个除数(有的文献叫poly),最后得到的余数就是CRC的校验值。 判定方法: 将消息和校验和分开。计算消息的校验和(在附加W个零后),并
获取Windows个性化中自带的聚焦图片
想要保存登录屏幕(锁屏界面)的背景图片,可以通过以下脚本一键获取: @echo off setlocal enabledelayedexpansion :: Windows Spotlight 锁屏图片资源地址 set "sourcePath=%localappdata%\Packages
信创环境:鲲鹏ARM+麒麟V10离线部署K8s和Rainbond信创平台
在上篇《国产化信创开源云原生平台》文章中,我们介绍了 Rainbond 作为可能是国内首个开源国产化信创平台,在支持国产化和信创方面的能力,并简要介绍了如何在国产化信创环境中在线部署 Kubernetes 和 Rainbond。 然而,对于大多数国产化信创环境,如银行、政府等机构,离线部署的需求更为
信创环境:鲲鹏ARM+麒麟V10离线部署K8s和Rainbond信创平台
C# 使用特性的方式封装报文
在编写上位机软件时,需要经常处理命令拼接与其他设备进行通信,通常对不同的命令封装成不同的方法,扩展稍许麻烦。 本次拟以特性方式实现,以兼顾维护性与扩展性。 思想: 一种命令对应一个类,其类中的各个属性对应各个命令段,通过特性的方式,实现其在这包数据命令中的位置、大端或小端及其转换为对应的目标类型;
Java 开发者必备:一文解决 AES 加密中的“非法密钥大小”异常
彻底告别 java.security.InvalidKeyException,轻松应对不同 JDK 版本 引言 在 Java 开发过程中,我们经常会遇到各种各样的安全相关的问题。其中一个常见的问题是当使用 Java 的加密功能时遇到的 “Illegal key size or default par