awk处理之案例四:sort加awk来过滤文本

编译环境

本系列文章所提供的算法均在以下环境下编译通过。

【脚本编译环境】Federa 8,linux 2.6.35.6-45.fc14.i686 【处理器】 Intel(R) Core(TM)2 Quad CPU Q9400 @ 2.66GHz 【内存】 2025272 kB

前言

awk是脚本中出色的文本处理工具。源码好像也是用C语言写的。本系列会针对不同的案例,用awk来解决我们所要的问题。 为什么会用awk呢?我们当然可以使用C语言或者java语言来对文本 做处理,但每次都要编译会令人发疯的。修改起来也麻烦,服务器空间,香港虚拟主机,正所谓杀鸡焉用牛刀。 而脚本的灵活便捷使得工作变得更加轻松容易。在shell脚本编程中,awk堪称瑞士军刀绝不为过。

本系列文章均系笔者所写,难免有一些错误或者纰漏,如果小伙伴们有好的建议或者更好的算法,请不吝赐教。

正文【场景】

我有这样一堆数据,这个模式大约3w条我希望判断出第二个域内重复的选项。然后重复的选项比较第四个域的大小,取出小的输出第一个域,如果相同比较第三个域的大小,美国空间,同样取出小的输出第一个域,若还是相同则输出第一个,这个该如何写脚本或者awk判断?

a.txt文本内容如下:

11elex337_u0000149012elex337_Golden21414014elex337_u0000179015elex337_u00001911016elex337_u0000209017elex337_Lokio9018elex337_u00002219019elex337_u00002311020elex337_u00002414021elex337_swordas159022elex337_Koann19023elex337_Vylex26024elex337_u00002819025elex337_u0000141026elex337_Golden21435127elex337_u0000160028elex337_u00001722029elex337_u00001910030elex337_u00002011031elex337_Lokio9032elex337_u0000229033elex337_u00002332034elex337_u0000249035elex337_swordas1522036elex337_Koann11037elex337_Vylex22039elex337_u00004211040elex337_u000043100生活的最大悲剧不是失败,而是一个人已经习惯于失败。

awk处理之案例四:sort加awk来过滤文本

相关文章:

你感兴趣的文章:

标签云: