关于大规模数据操作

  大规模数据操作牵扯到效率以及计算机硬件资源占用的问题,当然,这两个指标是鱼与熊掌的关系。
但是,通过对数据的提前预处理,我们可以在一定程度上将鱼与熊掌得兼。
常用的预处理方法:
一,多维排序并创建索引。
将数据按照一定的层次排序,每个层次内部按照某一个指标再排序,同时,再排序过程中生成一个记录每个层次位置的索引表。
二,利用现有格式
关于利用已经有资源的情况已经不知一次被重申并且强调。
现有的大规模基因组相关数据格式有:GTF,GFF等等

posted on 2011-11-29 15:42 ewre 阅读(208) 评论(0)  编辑 收藏 引用 所属分类: Bioinformatics


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理


导航

<2012年3月>
26272829123
45678910
11121314151617
18192021222324
25262728293031
1234567

留言簿(2)

文章分类

文章档案

最新评论

阅读排行榜