LingosHook第十八版(v1.2.001)主要围绕提高HTML数据词典识别率和识别速度做了大幅度的修改,可以这里下载了。修改内容如下:
1. 定义三种词典解析类型,并以此为据重新设计实现HTML数据分析算法;
2. 增加对词典解析配置,包括指定词典解析类型和是否解析;
描述的有些晕,还是上图说明吧。
如下图所示,在配置界面中新增了一个按钮,用于配置词典的解析参数;
点击此按钮,将弹出如下对话框,用于设置词典解析参数;
(对,是的,我终于把图标变小了,用的是歪门邪道,不说也罢。。。)
对话框中罗列了曾经使用过的词典。
1. 点击其图标可以设置指定词典的HTML数据是否被解析,‘X’为不解析;
2. 通过右键菜单可以看出,程序当前在支持三种HTML数据解析类型:0,1,2;
3. 右键菜单中前端标记有‘黑点’的类型表示此类型为程序默认类型;默认类型也可配置,请看下图;
4. 当当前使用类型不为默认类型时,可设置其为默认类型;
5. 标记为粗体的词典表示当前使用的类型为默认类型;
6. 点击'Reset the type of dictionary html data'按钮,可以将类型设置为其默认类型,如果存在的话;
上图中所列词典为我当前测试的词典,除了‘Jukuu’词典结果暂时无法归类外,其它词典都可以归为以上三类。因此当使用的词典不再以上列表中时,可先尝试依次设置不同解析类型,以检测是否可以分解其HTML数据。
从我的分析看,结果的外层格式是由Lingoes定死的,但各结果数据格式来自词典自定义,这也是结果不同于的根本所在,所以无法预知Lingoes的HTML数据结果格式到底有多少种。有兴趣的可以自己添加解析类型,源码在这里;当然你也可以发来词典名称和所查单词,由我来分析(这个请别太认真,我就说说,不能保证的。。。。)。
HtmlDictParser::TDictDefAttr g_stSysDictDefAttr[SIZE_DICTDEFATTR] =
{
{L"E1C27E806399D047822B6650194A3D32", HtmlDictParser::HTMLDATATYPE_1},//Vicon EC
{L"7AB175CC5F622A44A0DECE976AF22A16", HtmlDictParser::HTMLDATATYPE_1},//Langdao EC
{L"1E388F323A0BD943B30FC68598772814", HtmlDictParser::HTMLDATATYPE_1},//Fundset DC
{L"0895DFE8DB67F9409DB285590D870EDD", HtmlDictParser::HTMLDATATYPE_2},//Dict.CN online
{L"D4722835273E184582F2D24696A738EA", HtmlDictParser::HTMLDATATYPE_1},//Longman Dictionary of Contemporary English
{L"25D62D261B9B6943BE86B7DCF8F9D255", HtmlDictParser::HTMLDATATYPE_1},//Concise English Synonym & Antonym Dictionary
{L"74BF7ECCE3A9AC43B5E8902261A19B29", HtmlDictParser::HTMLDATATYPE_1},//Hudong Wiki
{L"C68363F3F2F8F04997C0552720B30742", HtmlDictParser::HTMLDATATYPE_1},//Google Web Definition
{L"3A259F0851B07D4AAA30FBFA43686AB3", HtmlDictParser::HTMLDATATYPE_2},//Dr.eye Online
{L"9455286C1F1BC84985523D2608B6A913", HtmlDictParser::HTMLDATATYPE_3},//Web Translation
};
<---- 疲惫的分割线 ---->
经过这次修改,LingosHook设计期的功能都实现了,应该可以收工,休息了。。。。