雁过无痕

:: 管理 ::

很经典的可使用动态规划方法解决的题目，和计算两字符串的最长公共子序列相似。

设A_i为字符串A(a₁a₂a₃ … a_m)的前i个字符（即为a₁,a₂,a₃ … a_i）

设B_j为字符串B(b₁b₂b₃ … b_n)的前j个字符（即为b₁,b₂,b₃ … b_j）

设 L(i , j)为使两个字符串和A_i和B_j相等的最小操作次数。

当a_i等于b_j时显然L(i, j)=L(i-1, j-1)

当a_i不等于b_j时

若将它们修改为相等，则对两个字符串至少还要操作L(i-1, j-1)次

若删除a_i或在B_j后添加a_i，则对两个字符串至少还要操作L(i-1, j)次

若删除b_j或在A_i后添加b_j，则对两个字符串至少还要操作L(i, j-1)次

此时L(i, j)=min( L(i-1, j-1), L(i-1, j), L(i, j-1) ) + 1

显然，L(i, 0)=i，L(0, j)=j, 再利用上述的递推公式，可以直接计算出L(i, j)值。

为了保持与书中代码一致，下面的函数参数类型是string,而不是char*。

distance_1

由于只要求计算两字串的距离，计算时，只用到两列数据，因而可以对代码进一步优化，节省空间。

distance_2

上面的代码还可进一步优化，比如通过指针而不是数组名来访问内存。如果内存足够大，可以多申请空间，每次循环，通过修改保存的数据起始位置，避免内存复制。

补充：字符串的相似度，就是求编辑距离（edit distance）。

posted on 2010-08-16 00:21 flyinghearts 阅读(1380) 评论(0) 编辑收藏引用所属分类: 编程之美

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: 对环状数组求连续子数组的最大和最短摘要的生成（补充）点在三角形内（1）《编程之美》读书笔记25： 2.21只考加法的面试题《编程之美》读书笔记24： 3.5 最短摘要的生成《编程之美》读书笔记23： 1.1 让CPU占用率曲线听你指挥《编程之美》读书笔记目录《编程之美》读书笔记18： 3.7 队列中取最大数操作问题《编程之美》读书笔记17： 2.16 求数组中最长递增子序列《编程之美》读书笔记16： 3.10 分层遍历二叉树

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理