2,下载下django,在django目录里运行,python setup.py install ,会自动查找path环境变量,将django的库放入d:/python25/lib

3,装一个setuptools-0.6c11.win32-py2.5.rar,会在 D:\Python25\Scripts 中出现 easy_install.exe

4,装mysql api和memcahe api,在D:\Python25\Scripts 目录下运行 easy_install.exe install mysqldb,或easy_install.exe install memcahe提示要去 http://pypi.python.org/simple/ 找具体下载安装的包,打开网址找到相应的url然后 easy_install.exe install url即可

5,如果没有自动安装程序 setuptools-0.6c11.win32-py2.5 或装不了,可以直接复制以前 D:\Python25\Lib\site-packages下的 MySQLdb 文件夹到 现在的D:\Python25\Lib\site-packages的目录下,只要版本对得上就可以正常运行,完全绿色的。

6,如果url安装不了,以前也没有用过,可以下载安装包,例如memcache的api安装可以去这里ftp://ftp.tummy.com/pub/python-memcached/old-releases/python-memcached-1.45.tar.gz 下载

然后解压进入目录执行python setup.py install

7,建立新的django项目或在以往的工程目录下运行 python manage.py syncdb (这里只会检测库中的表,没有表明就建立,如果有表明,结构被改变了是不会做任何修改的),同步数据库表结构,事先要在mysql里建立setting.py里设置的数据库。

  1. #coding=utf-8   
  2. #!/usr/lib/python2.5/bin/python   
  3. import os   
  4. import sys   
  5. from smtplib import SMTP   
  6. from email.MIMEMultipart import MIMEMultipart   
  7. from email.mime.application import MIMEApplication   
  8. from email.MIMEText import MIMEText   
  9. from email.MIMEBase import MIMEBase   
  10. from email import Utils,Encoders   
  11. import mimetypes   
  12. import time   
  14. STMP_SERVER = "mail.×××.com"  
  15. STMP_PORT = "25"  
  16. USERNAME = "×××@×××.com"  
  17. USERPASSWORD = "×××"  
  18. FROM = "MonitorCenterWarning@×××.com"  
  19. TO = "×××@gmail.com"  
  21. def sendFildByMail(config):   
  22.     print 'Preparing...'  
  23.     message = MIMEMultipart( )   
  24.     message['from'] = config['from']   
  25.     message['to'] = config['to']   
  26.     message['Reply-To'] = config['from']   
  27.     message['Subject'] = config['subject']   
  28.     message['Date'] = time.ctime(time.time())   
  29.     message['X-Priority'] =  '3'  
  30.     message['X-MSMail-Priority'] =  'Normal'  
  31.     message['X-Mailer'] =  'Microsoft Outlook Express 6.00.2900.2180'  
  32.     message['X-MimeOLE'] =  'Produced By Microsoft MimeOLE V6.00.2900.2180'  
  34.     if 'file' in config:   
  35.         #添加附件   
  36.         f=open(config['file'], 'rb')   
  37.         file = MIMEApplication(f.read())   
  38.         f.close()   
  39.         file.add_header('Content-Disposition''attachment', filename= os.path.basename(config['file']))   
  40.         message.attach(file)   
  42.     if 'content' in config:   
  43.         #添加文本内容   
  44.         f=open(config['content'], 'rb')   
  45.         f.seek(0)   
  46.         content = f.read()   
  47.         body = MIMEText(content, 'base64''gb2312')   
  48.         message.attach(body)   
  50.     print 'OKay'  
  51.     print 'Logging...'  
  52.     smtp = SMTP(config['server'], config['port'])   
  53.     #如果SMTP服务器发邮件时不需要验证登录则对下面这行加上注释   
  54.     smtp.login(config['username'], config['password'])   
  55.     print 'OK'  
  57.     print 'Sending...',   
  58.     smtp.sendmail (config['from'], [config['from'], config['to']], message.as_string())   
  59.     print 'OK'  
  60.     smtp.close()   
  61.     time.sleep(1)   
  63. if __name__ == "__main__":   
  64.     if len(sys.argv) < 2:   
  65.         print 'Usage: python %s contentfilename' % os.path.basename(sys.argv[0])   
  66.         print 'OR Usage: python %s contentfilename attachfilename' % os.path.basename(sys.argv[0])   
  67.         wait=raw_input("quit.")   
  68.         sys.exit(-1)   
  69.     elif len(sys.argv) == 2:   
  70.         sendFildByMail({   
  71.             'from': FROM,   
  72.             'to': TO,   
  73.             'subject''[MonitorCenter]Send Msg %s' % sys.argv[1],   
  74.             'content': sys.argv[1],   
  75.             'server': STMP_SERVER,   
  76.             'port': STMP_PORT,   
  77.             'username': USERNAME,   
  78.             'password': USERPASSWORD})   
  79.     elif len(sys.argv) == 3:   
  80.         sendFildByMail({   
  81.             'from': FROM,   
  82.             'to': TO,   
  83.             'subject''[MonitorCenter]Send Msg and File %s %s' % (sys.argv[1], sys.argv[2]),   
  84.             'content': sys.argv[1],   
  85.             'file': sys.argv[2],   
  86.             'server': STMP_SERVER,   
  87.             'port': STMP_PORT,   
  88.             'username': USERNAME,   
  89.             'password': USERPASSWORD})   
  90.     wait=raw_input("end.")  


windows xp下:


 linux ubuntu,suse下:




由于上证所,深交所level1,level2金融数据服务器在上午9:00开始到11:30和下午13:00开始到15:30一共大约5个小时的时间内流量比较大所以被监控服务器的网络流速算是一个被监控的重要指标。可以通过累加一段时间内各个网卡的上行,下行流量除以这个时间间隔计算出这段时间内的平均网速,我现在的采集频率是1分钟采集一次,在实际开盘期间运行过程中得到的网速监控信息用还是比较准确的,都保持在5M/S左右的速度,有时候在平时非服务期看见某台服务器的内网网卡网速达到5M/S ,果然就是有人在大手笔传输。


运行以下脚本要确定你的linux装了ethtool工具,在ubuntu2.6.27-7-server,ubuntu22.6.27.19-5-default,suse 测试通过。



  1. #coding=utf-8   
  2. #!/usr/bin/python   
  3. import re   
  4. import os   
  5. import time   
  7. import utils   
  8. def sortedDictValues3(adict):   
  9.     keys = adict.keys()   
  10.     keys.sort()   
  11.     return map(adict.get, keys)   
  13. def run():   
  14.     if utils.isLinux() == False:   
  15.         return [('ifconfig_collect os type error','this is windows')]   
  16.     #not first run   
  17.     if os.path.isfile('./oldifconfig'):   
  18.         fileold = open('./oldifconfig''r')   
  19.         fileold.seek(0)   
  20.         #读入上次记录的临时流量数据文件,和时间戳   
  21.         (oldtime, fileoldcontent) = fileold.read().split('#')   
  22.         fileold.close;   
  23.         netcard = {}   
  24.         tempstr = ''  
  25.         key = ''  
  26.         for strline in fileoldcontent.split('\n'):   
  27.             reobj = re.compile('^lo*.')   
  28.             if reobj.search(strline):   
  29.                 break;   
  30.             reobj = re.compile('^eth*.')   
  31.             if reobj.search(strline):   
  32.                 key = strline.split()[0]   
  33.             tempstr = tempstr + strline + '\n'  
  34.             netcard[key] = tempstr   
  35.         RXold = {}   
  36.         TXold = {}   
  37.         for key,value in netcard.items():   
  38.             tempsplit = value.split('\n')   
  39.             netcard[key] = ''  
  40.             for item in tempsplit:   
  41.                 item = item + '<br>'  
  42.                 netcard[key] = netcard[key] + item   
  43.                 tempcount = 1  
  44.                 for match in re.finditer("(bytes:)(.*?)( \()", item):   
  45.                     if tempcount == 1:   
  46.                         RXold[key] = match.group(2)   
  47.                         tempcount = tempcount + 1  
  48.                     elif tempcount == 2:   
  49.                         TXold[key] = match.group(2)   
  50.                         netcard[key] = netcard[key] + 'net io percent(bytes/s): 0 <br>'  
  52.         #记录当前网卡信息到临时文件中   
  53.         os.system('ifconfig > ifconfigtemp')   
  54.         file = open('./ifconfigtemp','r');   
  55.         fileold = open('./oldifconfig''w')   
  56.         temptimestr = str(int(time.time()));   
  57.         fileold.write(temptimestr)   
  58.         fileold.write('#')   
  59.         file.seek(0)   
  60.         fileold.write(file.read())   
  61.         fileold.close()   
  62.         returnkeys = []   
  63.         returnvalues = []   
  64.         netcard = {}   
  65.         tempcountcard = 0  
  66.         file.seek(0)   
  67.         key = ''  
  68.         for strline in file.readlines():   
  69.             reobj = re.compile('^lo*.')   
  70.             if reobj.search(strline):   
  71.                 break;   
  72.             reobj = re.compile('^eth*.')   
  73.             if reobj.search(strline):   
  74.                 key = strline.split()[0]   
  75.                 netcard[key] = ''  
  76.             netcard[key] = netcard[key] + strline   
  77.         newnetcard = {}   
  78.         file.seek(0)   
  79.         key = ''  
  80.         for strline in file.readlines():   
  81.             reobj = re.compile('^lo*.')   
  82.             if reobj.search(strline):   
  83.                 break;   
  84.             if re.search("^eth", strline):   
  85.                 templist = strline.split()   
  86.                 key = templist[0]   
  87.                 newnetcard[key] = ''  
  88.                 newnetcard[key] = templist[4] + newnetcard[key] + ' '  
  89.             if re.search("^ *inet ", strline):   
  90.                 templist = strline.split()   
  91.                 newnetcard[key] = templist[1][5:] + ' ' + newnetcard[key] + ' '  
  92.         for key,value in newnetcard.items():   
  93.             #记录每张网卡是否工作状态信息到临时文件   
  94.             os.system('ethtool %s > ethtooltemp'%(key))   
  95.             file = open('./ethtooltemp','r');   
  96.             tempethtooltemplist = file.read().split('\n\t')   
  97.             file.close   
  98.             if re.search("yes", tempethtooltemplist[-1]):   
  99.                 templist = newnetcard[key].split()   
  100.                 newnetcard[key] = templist[0] + ' runing! ' + templist[1]   
  101.             else:   
  102.                 templist = newnetcard[key].split()   
  103.                 if len(templist) > 1:   
  104.                     newnetcard[key] = templist[0] + ' stop! ' + templist[1]   
  105.                 else:   
  106.                     newnetcard[key] =  'stop! ' + templist[0]   
  107.         file.close()   
  108.         RX = {}   
  109.         TX = {}   
  110.         for key,value in netcard.items():   
  111.             tempsplit = value.split('\n')   
  112.             netcard[key] = ''  
  113.             for item in tempsplit:   
  114.                 item = item + '<br>'  
  115.                 netcard[key] = netcard[key] + item   
  116.                 tempcount = 1  
  117.                 for match in re.finditer("(bytes:)(.*?)( \()", item):   
  118.                     if tempcount == 1:   
  119.                         RX[key] = str(int(match.group(2)) - int(RXold[key]))   
  120.                         tempcount = tempcount + 1  
  121.                     elif tempcount == 2:   
  122.                         TX[key] = str(int(match.group(2)) - int(TXold[key]))   
  123.                         divtime = float(int(time.time()) - int(oldtime))   
  124.                         if divtime == 0:   
  125.                             rate = (float(TX[key]) + float(RX[key]))   
  126.                         else:   
  127.                             rate = (float(TX[key]) + float(RX[key]))/(divtime)   
  128.                         if rate == 0:   
  129.                             newnetcard[key] = '0' + ' ' + newnetcard[key]   
  130.                         else:   
  131.                             newnetcard[key] = '%.2f'%rate + ' ' + newnetcard[key]   
  132.         return zip(['order'], ['48']) + newnetcard.items();   
  133.     else:   
  134.         os.system('ifconfig > ifconfigtemp')   
  135.         file = open('./ifconfigtemp','r');   
  136.         fileold = open('./oldifconfig''w')   
  137.         temptimestr = str(int(time.time()));   
  138.         fileold.write(temptimestr)   
  139.         fileold.write('#')   
  140.         file.seek(0)   
  141.         fileold.write(file.read())   
  142.         fileold.close()   
  144.         netcard = {}   
  145.         file.seek(0)   
  146.         key = ''  
  147.         for strline in file.readlines():   
  148.             reobj = re.compile('^lo*.')   
  149.             if reobj.search(strline):   
  150.                 break;   
  151.             reobj = re.compile('^eth*.')   
  152.             if reobj.search(strline):   
  153.                 key = strline.split()[0]   
  154.                 netcard[key] = ''  
  155.             netcard[key] = netcard[key] + strline   
  156.         RX = {}   
  157.         TX = {}   
  159.         key = ''  
  160.         newnetcard = {}   
  161.         file.seek(0)   
  162.         for strline in file.readlines():   
  163.             reobj = re.compile('^lo*.')   
  164.             if reobj.search(strline):   
  165.                 break;   
  166.             if re.search("^eth", strline):   
  167.                 templist = strline.split()   
  168.                 key = templist[0]   
  169.                 newnetcard[key] = templist[4] + ' '  
  170.             if re.search("^ *inet ", strline):   
  171.                 templist = strline.split()   
  172.                 newnetcard[key] = newnetcard[key] + templist[1][5:] + ' '  
  173.         for key,value in newnetcard.items():   
  174.             os.system('ethtool %s > ethtooltemp'%(key))   
  175.             file = open('./ethtooltemp','r');   
  176.             tempethtooltemplist = file.read().split('\n')   
  177.             file.close   
  178.             if re.search("yes", tempethtooltemplist[-1]):   
  179.                 newnetcard[key] = newnetcard[key] + 'runing!'  
  180.             else:   
  181.                 newnetcard[key] = newnetcard[key] + 'stop!'  
  182.         file.close()   
  183.         for key,value in netcard.items():   
  184.             tempsplit = value.split('\n')   
  185.             netcard[key] = ''  
  186.             for item in tempsplit:   
  187.                 item = item + '<br>'  
  188.                 #print item   
  189.                 netcard[key] = netcard[key] + item   
  190.                 tempcount = 1  
  191.                 for match in re.finditer("(bytes:)(.*?)( \()", item):   
  192.                     if tempcount == 1:   
  193.                         RX[key] = match.group(2)   
  194.                         tempcount = tempcount + 1  
  195.                     elif tempcount == 2:   
  196.                         TX[key] = match.group(2)   
  197.                         netcard[key] = netcard[key] + 'net io percent(bytes/s): 0 <br>'  
  198.                         newnetcard[key] = newnetcard[key] + ' ' + '0 <br>'  
  199.         return zip(['order'], ['48']) + newnetcard.items();   
  200. if __name__ == '__main__':   
  201.     print run()  




每一个列表元素元组里面第二个元素第一个字段为网速 Bytes/S,例如eth1网卡的网速就是3.3KB/s,eth0网速是2.9KB/s,今天是周六这个流量很正常

2009年12月10日 #



int main(int argc, char* argv[])    //./CrtInvertedIdx moon.fidx.sort > sun.iidx
    ifstream ifsImgInfo(argv[1]);
    if (!ifsImgInfo) 
        cerr << "Cannot open " << argv[1] << " for input\n";
        return -1;

    string strLine,strDocNum,tmp1="";
    int cnt = 0;
    while (getline(ifsImgInfo, strLine)) 
        string::size_type idx;
        string tmp;

        idx = strLine.find("\t");
        tmp = strLine.substr(0,idx);

        if (tmp.size()<2 || tmp.size() > 8) continue;

        if (tmp1.empty()) tmp1=tmp;

        if (tmp == tmp1) 
            strDocNum = strDocNum + " " + strLine.substr(idx+1);
            if ( strDocNum.empty() )
                strDocNum = strDocNum + " " + strLine.substr(idx+1);

            cout << tmp1 << "\t" << strDocNum << endl;
            tmp1 = tmp;
            strDocNum = strDocNum + " " + strLine.substr(idx+1);

        //if (cnt==100) break;
    cout << tmp1 << "\t" << strDocNum << endl;  //倒排索引中每个字典单词后的文档编号以table键为间隔

    return 0;



int main(int argc, char* argv[])    //./CrtForwardIdx Tianwang.raw.***.seg > moon.fidx
    ifstream ifsImgInfo(argv[1]);
    if (!ifsImgInfo) 
        cerr << "Cannot open " << argv[1] << " for input\n";
        return -1;

    string strLine,strDocNum;
    int cnt = 0;
    while (getline(ifsImgInfo, strLine)) 
        string::size_type idx;

        if (cnt%2 == 1) //奇数行为文档编号
            strDocNum = strLine.substr(0,strLine.size());
        if (strLine[0]=='\0' || strLine[0]=='#' || strLine[0]=='\n')

        while ( (idx = strLine.find(SEPARATOR)) != string::npos ) //指定查找分界符
            string tmp1 = strLine.substr(0,idx);
            cout << tmp1 << "\t" << strDocNum << endl;
            strLine = strLine.substr(idx + SEPARATOR.size());

        //if (cnt==100) break;

    return 0;






前面的DocIndex程序输入一个Tianwang.raw.*****文件,会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx,我们这里对DocSegment程序进行分析。

这里输入 Tianwang.raw.*****,Doc.idx,Url.idx.sort_uniq等三个文件,输出一个Tianwang.raw.***.seg 分词完毕的文件

int main(int argc, char* argv[])
    string strLine, strFileName=argv[1];
    CUrl iUrl;
    vector<CUrl> vecCUrl;
    CDocument iDocument;
    vector<CDocument> vecCDocument;
    unsigned int docId = 0;

    //ifstream ifs("Tianwang.raw.2559638448");
    ifstream ifs(strFileName.c_str());  //DocSegment Tianwang.raw.****
    if (!ifs) 
        cerr << "Cannot open tianwang.img.info for input\n";
        return -1;

    ifstream ifsUrl("Url.idx.sort_uniq");   //排序并消重后的url字典
    if (!ifsUrl) 
        cerr << "Cannot open Url.idx.sort_uniq for input\n";
        return -1;
    ifstream ifsDoc("Doc.idx"); //字典文件
    if (!ifsDoc) 
        cerr << "Cannot open Doc.idx for input\n";
        return -1;

    while (getline(ifsUrl,strLine)) //偏离url字典存入一个向量内存中
        char chksum[33];
        int  docid;

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%s%d", chksum, &docid );
        iUrl.m_sChecksum = chksum;
        iUrl.m_nDocId = docid;

    while (getline(ifsDoc,strLine))     //偏离字典文件将其放入一个向量内存中
        int docid,pos,length;
        char chksum[33];

        memset(chksum, 0, 33);
        sscanf( strLine.c_str(), "%d%d%d%s", &docid, &pos, &length,chksum );
        iDocument.m_nDocId = docid;
        iDocument.m_nPos = pos;
        iDocument.m_nLength = length;
        iDocument.m_sChecksum = chksum;


    strFileName += ".seg";
    ofstream fout(strFileName.c_str(), ios::in|ios::out|ios::trunc|ios::binary);    //设置完成分词后的数据输出文件
    for ( docId=0; docId<MAX_DOC_ID; docId++ )

        // find document according to docId
        int length = vecCDocument[docId+1].m_nPos - vecCDocument[docId].m_nPos -1;
        char *pContent = new char[length+1];
        memset(pContent, 0, length+1);
        ifs.read(pContent, length);

        char *s;
        s = pContent;

        // skip Head
        int bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
            if (*s == '\n')
                newlines = 0;
        if (bytesRead == HEADER_BUF_SIZE-1) continue;

        // skip header
        bytesRead = 0,newlines = 0;
        while (newlines != 2 && bytesRead != HEADER_BUF_SIZE-1) 
            if (*s == '\n')
                newlines = 0;
        if (bytesRead == HEADER_BUF_SIZE-1) continue;

        //iDocument.m_sBody = s;
        iDocument.RemoveTags(s);    //去除<>
        iDocument.m_sBodyNoTags = s;

        delete[] pContent;
        string strLine = iDocument.m_sBodyNoTags;

        CStrFun::ReplaceStr(strLine, " ", " ");
        CStrFun::EmptyStr(strLine); // set " \t\r\n" to " "

        // segment the document 具体分词处理
        CHzSeg iHzSeg;
        strLine = iHzSeg.SegmentSentenceMM(iDict,strLine);
        fout << docId << endl << strLine;
        fout << endl;

这里只是浮光掠影式的过一遍大概的代码,后面我会有专题详细讲解 parse html 和 segment docment 等技术



会用到一个文件 tianwang.raw.520    //爬取回来的原始文件,包含多个网页的所有信息,所以很大,这也是一个有待解决的问题,到底存成大文件(如果过大会超过2G或4G的限制,而且文件过大索引效率过低)还是小文件(文件数过多用于打开关闭文件句柄的消耗过大)还有待思考,还就是存储方案的解决最终肯定是要存为分布式的,最终总文件量肯定是会上TB的,TSE只支持小型的搜索引擎需求。          
会产生一下三个文件 Doc.idx, Url.idx, DocId2Url.idx    //Data文件夹中的Doc.idx DocId2Url.idx和Doc.idx

2、运行命令#sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夹中的Url.idx.sort_uniq
会用到一个文件 Url.idx文件 //md5 hash 之后的url完整地址和document id值对
会产生一个文件 Url.idx.sort_uniq //URL消重,md5 hash排序,提高检索效率

3、运行命令#./DocSegment Tianwang.raw.2559638448 
会用到一个文件 Tianwang.raw.2559638448  //Tianwang.raw.2559638448为爬回来的文件 ,每个页面包含http头,分词为后面建立到排索引做准备
会产生一个文件 Tianwang.raw.2559638448.seg //分词文件,由一行document id号和一行文档分词组(只对每个文档<html></html>中<head></head><body></body>等文字标记中的文本进行分组)构成

4、运行命令#./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx //建立独立的正向索引

#set | grep "LANG"
#LANG=en; export LANG;
#sort moon.fidx > moon.fidx.sort

6、运行命令#./CrtInvertedIdx moon.fidx.sort > sun.iidx //建立倒排索引


//DocIndex.h start-------------------------------------------------------------


#ifndef _COMM_H_040708_
#define _COMM_H_040708_



using namespace std;

const unsigned HEADER_BUF_SIZE = 1024;
const unsigned RstPerPage = 20; //前台搜索结果数据集返回条数

//const unsigned MAX_DOC_IDX_ID = 21312;  //DocSegment.cpp中要用到
const unsigned MAX_DOC_IDX_ID = 22104;

//const string IMG_INFO_NAME("./Data/s1.1");
const string INF_INFO_NAME("./Data/sun.iidx"); //倒排索引文件
//朱德  14383 16151 16151 16151 1683 207 6302 7889 8218 8218 8637
//朱古力  1085 1222

//9万多条 字元文件 包括特殊符号,标点,汉字
const string DOC_IDX_NAME("./Data/Doc.idx"); //倒排索引文件
const string RAWPAGE_FILE_NAME("./Data/Tianwang.swu.iceway.1.0");

const string DOC_FILE_NAME = "Tianwang.swu.iceway.1.0";  //Docindex.cpp中要用到
const string Data_DOC_FILE_NAME = "./Data/Tianwang.swu.iceway.1.0";  //Snapshot.cpp中要用到

//const string RM_THUMBNAIL_FILES("rm -f ~/public_html/ImgSE/timg/*");

//const string THUMBNAIL_DIR("/ImgSE/timg/");

#endif _COMM_H_040708_
//DocIndex.h end--------------------------------------------------------------//DocIndex.cpp start-----------------------------------------------------------

#include "Md5.h"
#include "Url.h"
#include "Document.h"

#include "Comm.h"

using namespace std;

int main(int argc, char* argv[])
    //ifstream ifs("Tianwang.raw.2559638448");
 //ifstream ifs("Tianwang.raw.3023555472");
 ifstream ifs(DOC_FILE_NAME.c_str()); //打开Tianwang.raw.3023555472文件,最原始的文件
 if (!ifs)
     cerr << "Cannot open " << "tianwang.img.info" << " for input\n";
     return -1;
 ofstream ofsUrl("Url.idx", ios::in|ios::out|ios::trunc|ios::binary); //建立并打开Url.idx文件
 if( !ofsUrl )
  cout << "error open file " << endl;

 ofstream ofsDoc("Doc.idx", ios::in|ios::out|ios::trunc|ios::binary); //建立并打开Doc.idx文件
 if( !ofsDoc )
  cout << "error open file " << endl;

 ofstream ofsDocId2Url("DocId2Url.idx", ios::in|ios::out|ios::trunc|ios::binary); //建立并打开DocId2Url.idx文件
 if( !ofsDocId2Url )
  cout << "error open file " << endl;

 int cnt=0; //文档编号从0开始计算
 string strLine,strPage;
 CUrl iUrl;
 CDocument iDocument;
 CMD5 iMD5;
 int nOffset = ifs.tellg();
 while (getline(ifs, strLine))
  if (strLine[0]=='\0' || strLine[0]=='#' || strLine[0]=='\n')
   nOffset = ifs.tellg();

  if (!strncmp(strLine.c_str(), "version: 1.0", 12)) //判断第一行是否是version: 1.0如果是就解析下去
   if(!getline(ifs, strLine)) break;
   if (!strncmp(strLine.c_str(), "url: ", 4)) //判断第二行是否是url: 如果是则解析下去
    iUrl.m_sUrl = strLine.substr(5); //截取url: 五个字符之后的url内容
    iMD5.GenerateMD5( (unsigned char*)iUrl.m_sUrl.c_str(), iUrl.m_sUrl.size() ); //对url用md5 hash处理
    iUrl.m_sChecksum = iMD5.ToString(); //将字符数组组合成字符串这个函数在Md5.h中实现

   } else

   while (getline(ifs, strLine))
    if (!strncmp(strLine.c_str(), "length: ", 8)) //一直读下去直到判断澹澹(相对第五行)惺欠袷莑ength: 是则接下下去
     sscanf(strLine.substr(8).c_str(), "%d", &(iDocument.m_nLength)); //将该块所代表网页的实际网页内容长度放入iDocument数据结构中

   getline(ifs, strLine); //跳过相对第六行故意留的一个空行

   iDocument.m_nDocId = cnt; //将文档编号赋值到iDocument数据结构中
   iDocument.m_nPos = nOffset; //文档结尾在大文件中的结束行号
   char *pContent = new char[iDocument.m_nLength+1]; //新建该文档长度的字符串指针

   memset(pContent, 0, iDocument.m_nLength+1); //每一位初始化为0
   ifs.read(pContent, iDocument.m_nLength); //根据获得的文档长度读取澹(其中包含协议头)读取文档内容
   iMD5.GenerateMD5( (unsigned char*)pContent, iDocument.m_nLength );
   iDocument.m_sChecksum = iMD5.ToString(); //将字符数组组合成字符串这个函数在Md5.h中实现
   delete[] pContent;
   ofsUrl << iUrl.m_sChecksum ; //将md5hash后的url写入Url.idx文件
   ofsUrl << "\t" << iDocument.m_nDocId << endl; //在一行中一个tab距离分隔,将文件编号写入Url.idx文件

   ofsDoc << iDocument.m_nDocId ; //将文件编号写入Doc.idx文件
   ofsDoc << "\t" << iDocument.m_nPos ; //在一行中一个tab距离分隔,将该文档结束行号澹(同样也是下一文档开始行号)写入Doc.idx文件
   //ofsDoc << "\t" << iDocument.m_nLength ;
   ofsDoc << "\t" << iDocument.m_sChecksum << endl; //在一行中一个tab距离分隔,将md5hash后的url写入Doc.idx文件

   ofsDocId2Url << iDocument.m_nDocId ; //将文件编号写入DocId2Url.idx文件
   ofsDocId2Url << "\t" << iUrl.m_sUrl << endl; //将该文档的完整url写入DocId2Url.idx文件

   cnt++; //文档编号加一说明该以文档分析完毕,生成下一文档的编号

  nOffset = ifs.tellg();


 ofsDoc << cnt ;
 ofsDoc << "\t" << nOffset << endl;


//DocIndex.cpp end-----------------------------------------------------------author:http://hi.baidu.com/jrckkyy




//下是 Tiny search 非必须因素  
4. Create forward index (docic-->termid)     //建立正向索引  
    ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx  
//Tianwang.raw.2559638448.seg 将每个页面分成一行如下<BR>//分词   DocID<BR>1<BR>三星/  s/  手机/  论坛/  ,/  手机/  铃声/  下载/  ,/  手机/  图片/  下载/  ,/  手机/<BR>2<BR>...<BR>...<BR>... 

//下是 Tiny search 非必须因素

4. Create forward index (docic-->termid)  //建立正向索引

 ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx


posted @ 2009-12-10 22:54 学者站在巨人的肩膀上 阅读(979) | 评论 (0)编辑 收藏



view plaincopy to clipboardprint?
    CDisplayRst iDisplayRst;   
    float used_msec = (end_tv.tv_sec-begin_tv.tv_sec)*1000   
            setRelevantRst.size(), iQuery.m_iStart);  


