Codejie's C++ Space

Using C++

LingosHook:结果抓取失败的一种原因


    LingosHook在抓取结果数据时,HTML的解析最主要的一个环节,就是说,如果对HTML字串分析上有任何的错误都会导致无法正确提取所需数据。
    还好LingosHook的HTML解析代码是自己的,怎么说呢,“代码在手,天下我有”,像是对付“破碎”HTML数据,稍微改改就OK了,嘿嘿。。。
    当然了,也有不好的时候,由于HTML解析代码是自己写的,对很多特殊的情况的支持不好,导致解析失败,比如最早发现<IMG>标签没有</IMG>这个问题找了很久,昨晚有发现了Lingoes还在用另一个特殊的标签<PARAM>,这个也没有</PARAM>;虽然Vicon词典并没有用到这个,但由于其它词典使用到了,而导致整个HTML解析失败。
    虽然加一个这样特殊标签处理很简单,只是在CheckSepicalTag()函数里面添加一行就OK,但问题是,谁知道还会有多少个这样的标签呢?我是不可能一个一个词典检测的啊。。。因此,如果使用中碰到类似无法抓取结果的时候,可以在'Setting'界面中,开启'Open Trace'选项,然后当数据到达时,将'Trace'界面中的HTML数据Copy出来,然后贴上来,我来定位原因。。。

posted on 2010-03-29 23:59 codejie 阅读(206) 评论(0)  编辑 收藏 引用 所属分类: 随笔而已


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理


公告

Using C++

导航

统计

留言簿(73)

随笔分类(513)

积分与排名

最新评论

阅读排行榜

评论排行榜