lcaiyyh 发表于 2014-11-19 16:57:19

网页代码过滤 轻松获取专辑目录

通过过滤网页代码,可以将网页上显示不全的长文件名列表完整地提取出来。
我有一个含有75个视频文件的《中医诊断学》课件,文件名是以01.RMVB、02.RMVB……75.RMVB这种格式命名的。我希望能找到代表各集文件的标题替换掉以数字命名的视频文件名,这样便于在学习时按文件名点播。我在网上搜索和发帖求助,都没能找到该视频序列的现成文本名列表,但在一个视频网站上发现有该视频专辑的播放页面,却因播放页面上显示的文件名不全而无法以直接复制的办法取得完整的文件名序列(图1)。如果用点击每个链接,查看链接属性,复制完整链接名的办法,倒是可以获得完整的文件名称,但那样一个接一个地操作效率太低了。有没有效率更高的办法呢?

借助网页代码过滤是个解决问题的办法。既然用右键单击链接可以看到完整的视频文件名称,那说明在网页代码中肯定存在完全的视频文件名的记录。获得了网页代码,这些完整文件名也就在其中了。
但是,在网页代码中,完整的文件名是混杂在非常复杂的网页代码中的(图2),如何快速从这密密麻麻的网页中提取出我们所需要的完整视频文件名?这倒成了一个大问题。

最后,我在网页代码的基础上,利用文本编辑器软件的过滤替换技术,在很短的时间内过滤出自己需要的完整文件名序列。具体方法如下。
获取网页代码
右键单击网页,选择快捷菜单命令“查看源文件”,系统会自动用记事本打开网页的源文件代码。
借用EmEditor处理
由于记事本本身对源代码的过滤编辑作用有限,所以我们可以借助于功能强大的文字编辑软件EmEditor来解决问题。
打开EmEditor编辑软件,将以上由记事本获得的网页源码全部复制过来。
过滤网页源代码
经过对源代码的简单分析得知,在每个视频文件名的前面都有一个固定的字符串
用快捷键Ctrl+H启动替换窗口,在“查找”框中输入


最后,再用类似的替换方法成批将其他无关代码段或文字统统替换为空(“替换为”框中不填任何内容),再点一下EmEditor插件工具栏上的一次性删除空白行和重复行命令钮,一次性成批删除多余的空白行和重复行。剩下就是我们要的完全版文件目录列表了。
          
页: [1]
查看完整版本: 网页代码过滤 轻松获取专辑目录

邓州市,邓州网,邓州吧,邓州论坛,邓州门户网