C小加

厚德博学求真至善 The bright moon and breeze

posts - 145, comments - 195, trackbacks - 0, articles - 0

C++博客 :: 首页 :: 新随笔 :: 联系 :: 聚合

:: 管理

一天一个shell实例（1）文本中n个出现频率最高的单词

Posted on 2012-09-05 17:49 C小加阅读(3605) 评论(1) 编辑收藏引用所属分类: Linux

写一个文本处理程序，查找文本中n个出现频率最高的单词，输出的结果需要显示这些单词出现的次数，并按照次数从大到小排序。

把问题分成六个步骤：

1，将文本以一行一个单词的形式显示出来

2，将大写字母转换成小写

3，对单词进行排序

4，对排序好的单词列表统计每个单词出现的次数

5，按照出现的次数排序

6，显示单词列表的前n行

脚本的代码如下：

#1：$1为第一个参数，表示输出频率最高的行数

#2：$2为第二个参数，表示目标文本，使用cat把目标文本输入管道，|为管道符

#3：tr命令的-c选项用于选定不在”[a-z][A-Z]”字符集内的字符，tr命令将选定的字符转换成换行符，\012是换行符的八进制码，*表示将换行符任意扩展，使其等于被替换的字符集个数，这样就将所有非字母的符号转换为换行符，从而将文本文件以一行一个单词的形式显示出来。-s删除所有重复出现的字符序列，只保留一个。最后把得到的结果输入管道。

#4：tr把大写字母转化成小写字母

#5：把分好的单词进行排序

#6：uniq对排序好的单词列表统计每个单词出现的次数，并删除相邻重复行，-c 在输出行前面加上每行在输入文件中出现的次数。这样就得到了出现的频率及其对应的单词。

#7：用sort按照出现的频率从大大小排序，频率相同的按照字母排序。-k1表示按照第一域进行排序，-k2为按照第二域进行排序，先按照第一域排序如果第一域相等再按照第二域排序，-n表示数字，-r表示从大到小排序

#8：head 输出前n行

输出结果：

root@lNotebook-PC:/home/lwx/myshelltest# ./topn.sh 5 test .txt
13 qwe
12 qw
11 eqw
8 sdf
7 we

Feedback

# re: 一天一个shell实例（1）文本中n个出现频率最高的单词 回复 更多评论

2013-06-04 09:39 by ikodota

如何支持中文呢？

刷新评论列表

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: 一天一个shell实例（3）定时备份文件一天一个shell实例（2）生成随机数一天一个shell实例（1）文本中n个出现频率最高的单词

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理

C小加

一天一个shell实例（1）文本中n个出现频率最高的单词

Feedback

# re: 一天一个shell实例（1）文本中n个出现频率最高的单词 回复 更多评论

日历

公告

留言簿(21)

随笔分类(143)

随笔档案(145)

相册

各大OJ入口

近期比赛

信息网站

友情链接

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

C小加

一天一个shell实例（1）文本中n个出现频率最高的单词

Feedback

# re: 一天一个shell实例（1）文本中n个出现频率最高的单词 回复 更多评论

日历

公告

留言簿(21)

随笔分类(143)

随笔档案(145)

相册

各大OJ入口

近期比赛

信息网站

友情链接

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

# re: 一天一个shell实例（1）文本中n个出现频率最高的单词回复更多评论