Postgresql去重函数distinct的用法说明

时间2024-02-29 18:37:03发布访客分类数据库浏览346

导读：收集整理的这篇文章主要介绍了Postgresql去重函数distinct的用法说明，觉得挺不错的，现在分享给大家，也给大家做个参考。在项目中我们常会对数据进行去重处理，有时候会用in或...

收集整理的这篇文章主要介绍了Postgresql去重函数distinct的用法说明，觉得挺不错的，现在分享给大家，也给大家做个参考。

在项目中我们常会对数据进行去重处理，有时候会用in或者EXISTS函数。或者通过group by也是可以实现查重

不过PostgreSQL还有自带去重函数：distinct

下面是distinct 的实例：

1、创建表：user

CREATE TABLE `user` ( `name` vArchar(30) DEFAULT NULL, `age` int(11) DEFAULT NULL) ENginE=InnoDB DEFAULT CHARSET=utf8;
    INSERT INTO `user` VALUES ('张三', 20);
    INSERT INTO `user` VALUES ('李四', 22);
    INSERT INTO `user` VALUES ('李四', 20);
    INSERT INTO `user` VALUES ('张三', 22);
    INSERT INTO `user` VALUES ('张三', 20);

查询结果：

SELECT * From user张三 20李四 22李四 20张三 22张三 20

2、根据 name 查询去重后的数据：

SELECT distinct name From user张三李四

3、根据name 和 age 查询去重后的数据：

SELECT distinct name,age FROM user张三 20李四 22李四 20张三 22

4、根据name,age查询重复数据数：

SELECT distinct name,age,count(*) 数据条数 FROM user GROUP BY name,age张三 20 2张三 22 1李四 20 1李四 22 1

二、查出重复数据后，我们需要删除重复数据

删除重复数据一般几种方式，一般采用临时表或者根据某个字段，例如id等，通过max或者min函数去重。

补充：基于postgresql ctid实现数据的差异同步

项目背景：

最近在做异构数据同步方面（非实时）的工作，从oracle,gbase,postgresql向MySQL数据库中同步，对于没有自增字段（自增ID或时间字段）的业务表，做差异同步是一件非常麻烦的事情，主要体现在记录的新增、更新与删除上

备注：源库只提供一个只读权限的用户

ctid在Pg中的作用

ctid是用来指向自身或新元组的元组标识符，怎么理解呢？下面能过几个实验来测试一下

satdb=# create table test_ctid(id int,name VARchar(100));
    satdb=# insert into test_ctid values(1,‘a'),(1,‘a');
    satdb=# insert into test_ctid values(2,‘a'),(3,‘a');

查看记录的ctid值

satdb=# select id,name,ctid from test_ctid;
    id | name | ctid----±-----±------1 | a | (0,1)1 | a | (0,2)2 | a | (0,3)3 | a | (0,4)(4 rows)

对id为2的记录进行更新

satdb=# update test_ctid set name=‘b' where id=2;
    UPDATE 1

这里可以看到id=2的记录指向了新的元组标识符 (0,5)

satdb=# select id,name,ctid from test_ctid;
    id | name | ctid----±-----±------1 | a | (0,1)1 | a | (0,2)3 | a | (0,4)2 | b | (0,5)(4 rows)satdb=# select * from test_ctid where ctid='(0,1)';
    id | name----±-----1 | a(1 row)

删除 id=3的记录后，对应的ctid(0,4)不存在了

satdb=# delete from test_ctid where id=3;
    DELETE 1satdb=# select *,ctid from test_ctid;
    id | name | ctid----±-----±------1 | a | (0,1)1 | a | (0,2)2 | b | (0,5)(3 rows)

再插入一条记录时，看看会不会使用(0,4)这个标识符

satdb=# insert into test_ctid values(3,‘d');
    INSERT 0 1satdb=# select *,ctid from test_ctid;
    id | name | ctid----±-----±------1 | a | (0,1)1 | a | (0,2)2 | b | (0,5)3 | d | (0,6)

这里新插入的记录不会使用(0,4)，而是直接分配新的标识符(0,6)

总结：

1、ctid的作用与oracle rowid类似，可以唯一标识一条记录

2、记录的更新后，后生产新的ctid

3、记录删除后，新插入的记录不会使用已经删除记录的ctid

4、基于ctid可以实现记录的去重操作

5、基于ctid可以实现差异增量同步(新增、删除、更新)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

您可能感兴趣的文章:

postgresql rank() over, dense_rank(), row_number()用法区别
PostgreSQL 实现distinct关键字给单独的几列去重
postgreSQL中的row_number() 与distinct用法说明

声明：本文内容由网友自发贡献，本站不承担相应法律责任。对本内容有异议或投诉，请联系2913721942#qq.com核实处理，我们将尽快回复您，谢谢合作！

若转载请注明出处： Postgresql去重函数distinct的用法说明
本文地址： https://pptw.com/jishu/633234.html

pgsql 如何删除仍有活动链接的数据库 ubuntu中怎么使用mount挂载u盘