Codejie's C++ Space

Using C++

LAC : I hate encoded data.


    昨晚敲好了LAC的Native Dictionary数据表, 今天准备放些数据进去,又是那么一冲动--为什么不直接将Lingoes的数据导入进去呢?反正早晚要做的.

    于是兴冲冲地checkout出Lingoes-Extractor.这个项目是七八月份中无意间发现的,很强力,一定程度上破解了Lingoes的LD2格式,有兴趣的快去download吧.
 
    在最早做LingosHook时也不是没想过破解LD2,只是由于想着LingosHook只是个单词本,不是个词典,加上通过Hook方式也能获得数据,也就没有去尝试.现在要增加Native Dictionary,这些数据是必需的了,本来想着将前面准备的(CET4,6)拿来用用就好了,但又觉得是不是有点不专业啊.于是转而到处找词典数据,结果,结果就发现了这个Lingoes-Extractor项目.惊喜啊,当时就决定直接用Lingoes是数据了...

    现在悲剧了...这就是为什么前面说Lingoes-Extractor是'一定程度上'破解了LD2呢?因为,虽然破解出的数据很全部,但很多必要的数据无法获得.比如如下破解后的数据:
abut = abuts|abutted|abuttinga·but || ə'bʌtv.  邻接; 紧靠; 毗连

    数据显示了abut单词的多种表达式,以及音标,词性和解释,很全面,但问题是--这些数据该怎么分隔呢?
    研究了Lingoes-Extractor的源码,发现其似乎也没法分隔这些数据,只能简单地分成'单词'和'解释'两部分.
    
    现在,现在难道要我自己再来破解LD2吗? 太悲剧了...现在真的么时间玩破解啊...记得上次破解WOW的WDB文件(有图有真相...),差点死掉,我恨编码数据!!!


<---- 烧香的分割线 ---->

    高人啊,你在哪里啊... 唉,明天再好好看看人家的code先...

posted on 2012-10-16 00:22 codejie 阅读(1297) 评论(2)  编辑 收藏 引用 所属分类: 随笔而已

评论

# re: LAC : I hate encoded data. 2013-10-26 15:53 librehat

小的最近在做Linux KDE桌面下的一个词典小工具,到目前为止都用的网络查词(走有道、QQ、金山的API)。。。API查词结果太「骨感」了,而且只有中英文。

总算也要杠上LD2这个文件了,毕竟太多的词典都是LD2格式的。

想问问大侠,解开LD2文件有C++的实现吗?我对Java一窍不通……另,如果用javascript实现的话会不会效率很慢(考虑到一个LD2文件也有个几兆)  回复  更多评论   

# re: LAC : I hate encoded data. 2013-10-26 18:08 codejie

@librehat
因为LAC是android应用, 所以我也是用JAVA实现的. 但我觉得Extractor写的不错, 很好看懂的, Port到C++来实现肯定没问题的.javascript不熟悉, 效率问题要看你打算怎么利用LD2文件了. 像LAC是先将LD2的索引部分解开, LD2文件仅当数据使用, 如果你打算直接使用LD2, 那每次都解开索引部分, 怕效率就是大问题了.  回复  更多评论   


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   博问   Chat2DB   管理


公告

Using C++

导航

统计

留言簿(73)

随笔分类(513)

积分与排名

最新评论

阅读排行榜

评论排行榜