去重是distinct还是group by？sql去重复操作详解SQL中distinct的用法

作者：发布时间：2020-09-17 来源:本站原创点击数：

distinct简单来说就是用来去重的，而group by的设计目的则是用来聚合统计的，两者在能够实现的功能上有些相同之处，但应该仔细区分，因为用错场景的话，效率相差可以倍计。

单纯的去重操作使用distinct，速度是快于group by的。

distinct
distinct支持单列、多列的去重方式。
单列去重的方式简明易懂，即相同值只保留1个。
多列的去重则是根据指定的去重的列信息来进行，即只有所有指定的列信息都相同，才会被认为是重复的信息。

干巴巴的说不好理解，示例一下：

mysql> select * from talk_test;
+----+-------+--------+
| id | name  | mobile |
+----+-------+--------+
|  1 | xiao9 | 555555 |
|  2 | xiao6 | 666666 |
|  3 | xiao9 | 888888 |
|  4 | xiao9 | 555555 |
|  5 | xiao6 | 777777 |
+----+-------+--------+

进行单列去重后的结果：

mysql> select distinct(name) from talk_test;
+-------+
| name  |
+-------+
| xiao9 |
| xiao6 |
+-------+
2 rows in set (0.01 sec)

mysql> select distinct(mobile) from talk_test;
+--------+
| mobile |
+--------+
| 555555 |
| 666666 |
| 888888 |
| 777777 |
+--------+

只会保留指定的列的信息

进行多列去重后的结果：

mysql> select distinct name,mobile from talk_test;
+-------+--------+
| name  | mobile |
+-------+--------+
| xiao9 | 555555 |
| xiao6 | 666666 |
| xiao9 | 888888 |
| xiao6 | 777777 |
+-------+--------+

只有所有指定的列信息都相同，才会被认定为重复的信息

在表中，可能会包含重复值。这并不成问题，不过，有时您也许希望仅仅列出不同（distinct）的值。关键词 distinct用于返回唯一不同的值。

表A：
在这里插入图片描述

表B:
在这里插入图片描述

1.作用于单列

select distinct name from A

执行后结果如下：
在这里插入图片描述

2.作用于多列
示例2.1

select distinct name, id from A

行后结果如下：
在这里插入图片描述

实际上是根据name和id两个字段来去重的，这种方式Access和SQL Server同时支持。

示例2.2

select distinct xing, ming from B

返回如下结果：
在这里插入图片描述

返回的结果为两行，这说明distinct并非是对xing和ming两列“字符串拼接”后再去重的，而是分别作用于了xing和ming列。

3.COUNT统计
select count(distinct name) from A; —表中name去重后的数目， SQL Server支持，而Access不支持
count是不能统计多个字段的，下面的SQL在SQL Server和Access中都无法运行。

select count(distinct name, id) from A;
若想使用，请使用嵌套查询，如下：

select count(*) from (select distinct xing, name from B) AS M;
4.distinct必须放在开头
select id, distinct name from A; —会提示错误，因为distinct必须放在开头
5.其他
distinct语句中select显示的字段只能是distinct指定的字段，其他字段是不可能出现的。例如，假如表A有“备注”列，如果想获取distinc name，以及对应的“备注”字段，想直接通过distinct是不可能实现的。但可以通过其他方法实现关于SQL Server将一列的多行内容拼接成一行的问题讨论

distinct这个关键字用来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是distinct只有用二重循环查询来解决，而这样对于一个数据量非常大的站来说，无疑是会直接影响到效率的。
下面先来看看例子：
table表

字段1 字段2
id name
1 a
2 b
3 c
4 c
5 b

库结构大概这样，这只是一个简单的例子，实际情况会复杂得多。

比如我想用一条语句查询得到name不重复的所有数据，那就必须

使用distinct去掉多余的重复记录。

select distinct name from table
得到的结果是:

name
a

好像达到效果了，可是，我想要得到的是id值呢？改一下查询语句吧:

select distinct name, id from table

结果会是:

id name
1 a
2 b
3 c
4 c
5 b

distinct怎么没起作用？作用是起了的，不过他同时作用了两个

字段，也就是必须得id与name都相同的才会被排除

我们再改改查询语句:

select id, distinct name from table

很遗憾，除了错误信息你什么也得不到，distinct必须放在开头。难到不能把distinct放到where条件里？能，照样报错。

下面方法可行:

select *, count(distinct name) from table group by name

结果:

id name count(distinct name)
1 a 1
2 b 1
3 c 1

最后一项是多余的，不用管就行了，目的达到

group by 必须放在 order by 和 limit之前，不然会报错

distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的目标字段，而无法返回其它字段，接下来通过本篇文章给大家分享SQL中distinct的用法，需要的朋友可以参考下
在使用mysql时，有时需要查询出某个字段不重复的记录，虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的目标字段，而无法返回其它字段，这个问题让我困扰很久，用distinct不能解决的话，我只有用二重循环查询来解决，而这样对于一个数据量非常大的站来说，无疑是会直接影响到效率的，所以浪费了我大量时间。

在表中，可能会包含重复值。这并不成问题，不过，有时您也许希望仅仅列出不同（distinct）的值。关键词 distinct用于返回唯一不同的值。