《Python 程序设计任务 (9).pdf》由会员分享,可在线阅读,更多相关《Python 程序设计任务 (9).pdf(3页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、冲关任务冲关任务读取读取 pdf 内容内容、文本分词与可视化文本分词与可视化 任务任务 11-1.图 11-10 所示位置的“古诗词.pdf”文件,要求李雷输出文件中提到“人生”一词的所有语句。(一行视为一条语句)图 11-10 古诗词.pdf 文件位置 提示:提示:建议用 pdfplumber 模块相关功能读取文件内容,并按每页、每行做相应处理。任务任务 11-2.韩梅需要把如下唐代著名诗人李白的将敬酒进行分词,并显示出现频率最高的 5 个词及其出现次数(不能把标点符号计算为一个词)。君不见,黄河之水天上来,奔流到海不复回。君不见,高堂明镜悲白发,朝如青丝暮成雪!人生得意须尽欢,莫使金樽空对
2、月。天生我材必有用,千金散尽还复来。烹羊宰牛且为乐,会须一饮三百杯。岑夫子,丹丘生,将进酒,杯莫停。与君歌一曲,请君为我倾耳听。钟鼓馔玉不足贵,但愿长醉不复醒。古来圣贤皆寂寞,惟有饮者留其名。陈王昔时宴平乐,斗酒十千恣欢谑。主人何为言少钱,径须沽取对君酌。五花马、千金裘,呼儿将出换美酒,与尔同销万古愁!提示:提示:使用 pkuseg 即可实现分词并做词频统计,其中要把标点符号当作停用词处理。任务任务 11-3.在图 11-11 位置中有文件“词.txt”,该文件中每行记录了一个词,韩梅想把该文件中的词按出现频率高低用词云图进行可视化展示,词云图尺寸为 200200,背景为粉红色。图 11-11 “词.txt”内容 关卡任务关卡任务 韩梅找李雷帮忙把 pdf 文件中指定的内容生成词云。具体要对图 11-10 所示 pdf 文件按“古诗词.pdf”按如下要求进行如下处理:(1)查找 pdf 文件中含“春”的语句,一行认为是一条语句。(2)对以上含“春”的语句进行分词处理(不能把标点符号计算为一个词)。(3)以上分词后的结果出现频率前十的词,以白色为背景,按图 11-12 中“image.png”形状生成词云并显示。图 11-12 image.png 文件位置