Linux sort命令详解:字符串排序

sort 是 Linux 的排序命令,而且可以依据不同的数据类型来进行排序。sort 将文件的每一行作为一个单位,相互比较。比较原则是从首字符向后,依次按 ASCII 码值进行比较,最后将它们按升序输出。

sort 命令格式如下:

[root@localhost ~]# sort [选项] 文件名

选项:
  • -f:忽略大小写;
  • -b:忽略每行前面的空白部分;
  • -n:以数值型进行排序,默认使用字符串排序;
  • -r:反向排序;
  • -u:删除重复行。就是 uniq 命令;
  • -t:指定分隔符,默认分隔符是制表符;
  • -k [n,m]:按照指定的字段范围排序。从第 n 个字段开始,到第 m 个字(默认到行尾);

sort 命令默认是用每行开头的第一个字符来进行排序的,比如:

[root@localhost ~]# sort /etc/passwd
#排序用户信息文件
abrt:x:173:173::/etc/abrt:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin apache:x:48:48:Apache:/var/www:/sbin/nologin
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
…省略部分输出…


如果想要反向排序,则使用“-r”选项,比如:

[root@localhost ~]# sort -r /etc/passwd
#反向排序
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
…省略部分输出…


如果想要指定排序的字段,则需要使用"-t"选项指定分隔符,并使用"-k"选项指定字段号。假如我想要按照 UID 字段排序 /etc/passwd 文件,命令如下:

[root@localhost ~]# sort -t":"-k 3,3 /etc/passwd
#指定分隔符是":",以第三个字段开头,以第三个字段结尾排序,也就是只用第三个字段排序
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
abrt:x:173:173::/etc/abrt:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
…省略部分输出…


看起来好像很美,可是如果仔细看看,怎么 daemon 用户的 UID 是 2,反而排在了下面?这是因为 sort 默认是按照字符排序的,前面用户的 UID 的第一个字符都是 1,所以这么排序。要想按照数字排序,请使用"-n"选项,比如:

[root@localhost ~]# sort -n -t":" -k 3,3 /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spod/lpd:/sbin/nologin
...省略部分输出...

当然,"-k"选项可以直接使用"-k 3",代表从第三个字段到行尾都排序(第一个字段先排序,如果一致,则第二个字段再排序,直到行尾)。