SQL Server 中处理重复数据:保留最新记录的两种方案
创作时间:
作者:
@小白创作中心
SQL Server 中处理重复数据:保留最新记录的两种方案
引用
1
来源
1.
https://cloud.tencent.com/developer/article/2428465
在数据库开发过程中,处理重复数据是一个常见的需求,特别是在需要保留最新记录的情况下。本文将介绍两种在SQL Server中实现这一目标的方法:使用ROW_NUMBER()函数和临时表方式。这两种方案都经过详细讲解,并附有具体代码示例,帮助开发者快速掌握相关技术。
准备测试数据
首先创建一个包含ID、OrderDate、ProductName以及可选的SequenceID的商品购买记录表Sales:
CREATE TABLE Sales
(
ID INT IDENTITY(1,1) PRIMARY KEY,
OrderDate DATE NOT NULL,
ProductName VARCHAR(100) NOT NULL,
SequenceID INT IDENTITY(1,1)
);
-- 订单日期增加当前日期默认值约束
ALTER TABLE Sales ADD DEFAULT (GETDATE()) FOR OrderDate;
然后插入一些测试数据:
INSERT INTO Sales (OrderDate, ProductName)
VALUES
('2023-04-01', '笔记本X1'), -- 示例商品A的最早购买日期
('2023-04-07', '智能手机Y7'),
('2023-04-15', '平板电脑Z3'),
('2023-04-09', '笔记本X1'), -- 商品A的第二次购买,较早日期
('2023-04-08', '智能手机Y7'), -- 商品B的第二次购买,较早日期
('2023-04-20', '平板电脑Z3'), -- 商品C的第二次购买,较晚日期
('2023-04-18', '笔记本X1'), -- 商品A的第三次购买,最新日期
('2023-04-22', '智能手机Y7 Pro'), -- 新产品,不同型号
('2023-04-25', '平板电脑Z3 Plus'), -- 新产品,不同型号
('2023-04-24 14:30:00', '笔记本X1'), -- 同日但较早时间的重复记录
('2023-04-24 15:45:00', '笔记本X1'); -- 同日但较晚时间的记录,应被视为最新
方案一:使用ROW_NUMBER()函数删除重复项
ROW_NUMBER()函数是SQL Server中处理重复数据的强大工具之一,可以通过窗口函数来为每一组重复数据分配行号,然后保留每组数据中最新的一条记录。
SQL语句
假设有一个表Sales,包含ID、OrderDate、ProductName等字段,其中ID为主键,但ProductName和OrderDate上有重复数据,我们要保留每个产品的最新订单记录。
-- 查询不是最新的重复记录直接删除
WITH CTE AS (
SELECT *,
ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS RowNum
FROM Sales
)
DELETE FROM CTE
WHERE RowNum > 1;
-- 数据库不操作直接查询每一行不重复的最新记录
WITH CTE AS (
SELECT *,
ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS RowNum
FROM Sales
)
select * FROM CTE
WHERE RowNum = 1;
执行效果
SQL说明
- PARTITION BY ProductName:按照ProductName对数据分组。
- ORDER BY OrderDate DESC:在每个分组内按OrderDate降序排序,确保最新记录排在首位。
- ROW_NUMBER():为每组内的记录分配一个行号,最新的记录行号为1。
- 删除重复记录:在CTE中删除RowNum大于1的记录,即除了每个分组最新的一条记录外,其余视为重复并删除。
- 直接查询:针对CTE筛选RowNum等于1的记录。
方案二:使用临时表的方式
第二种方法是使用临时表来筛选并保留最新记录。具体步骤如下:
- 创建临时表
- 使用MERGE语句
SQL语句
INSERT INTO #TempSales
SELECT ID, OrderDate, ProductName
FROM (
SELECT *, ROW_NUMBER() OVER(PARTITION BY ProductName ORDER BY OrderDate DESC) AS rn
FROM Sales
) t
WHERE t.rn = 1;
select * from #TempSales; -- 直接查询就是去重后保留最新记录的查询数据
TRUNCATE TABLE Sales; -- 清空原表
-- 重新插入临时表的数据给Sales。适用数据量不是特别大的情况
INSERT INTO Sales
SELECT * FROM #TempSales;
DROP TABLE #TempSales; -- 删除临时表
说明
该方案先通过临时表存储每个产品的最新记录,然后清空原表,并将临时表中的数据重新插入原表,最终达到保留最新记录的目的。直接查询临时表就是所需要的数据。
热门推荐
澳大利亚留学生必看学习知识
MBTI测试全解析:从简介、测试版本、寻找记录方法到人格维度与局限性
浓香型白酒一级和优级有啥区别?
奇门遁甲移星换斗:古代术数中的宇宙智慧
什么是M理论
“人工智能+”等科技创新激发中国经济潜力 中国高端制造业崛起
“克苏鲁”到底是什么
金渐层猫品种介绍:特征、价格与饲养指南
八字纳音:中国传统命理学中的音律智慧
过期的巧克力还能食用吗
光绪被慈禧毒死证据解析:历史与法理的双重审视
锦鲤鱼跳缸的原因及处理方法
外贸人如何跟踪客户需求
成功规避大出血!远东产科团队助力完全性前置胎盘产妇顺利分娩
前置胎盘的产科检查方法详解
深度探讨Android Root权限:获取途径、优势劣势及注意事项
天地会的传说与真相:乾隆朝发动台湾大起义,惨遭福康安率索伦骑兵镇压
福康安是不是乾隆的私生子?为何他能超越和珅获封为异姓王爷呢?
建设项目职业病危害风险分类管理目录是什么?
怎样提高做事的逻辑性和条理性?
北欧神话中的十大怪物之霜巨人始祖伊米尔
男人吃黑芝麻丸有哪些好处 男人吃黑芝麻丸的6大好处
哈尔滨公安全力守护亚冬会主火炬 “我们的心,与亚冬圣火一起‘澎湃’”
日本政府首次发布“富士山降灰”应对方案,按严重程度分四套对策
怀孕的最初征兆一般在几天才有反应?
什么路由器抗干扰比较好
如何评估和测试WiFi网络的抗干扰能力?
《西游记》里藏着这些诗词,你可能真没有注意
《西游记》里藏着这些诗词,你可能真没有注意
玻尿酸填充鼻基底后出现肉条该怎么改变