题目描述:
给N个串(N<100,000),总长不超过100,000。对于每个串,求至少在其他k个串中作为子串出现过的子串个数。
算法分析:
不难想到在若干个串中,找满足****性质的子串,可以用后缀数组求LCP解决。
这里有一个性质,就是如果对于串S的后缀串Si,子串Sij满足题目的性质,那么Sii...Sij都会满足。
这样解的分部具有单调性,二分答案来求解。
对于串LCPij,我们要找到含有LCPij的所有后缀串。用线段树不难找到。
设LCP(p...q)都含有Sij。下面我们的问题是,LCP(p...q)对应多少个原串。
一开始我也蒙了,后来才知道根本不用求出对应多少个原串,只需知道是否大于等于k就可以了。
我们扫一遍,预处理出LCP数组中对于r,最大的满足LCP(l,r)对应k个原串的l。
这题非常爽!! 又AK了一场,更爽!!!
#include<iostream>
#include<algorithm>
#include<cstdio>
#include<cassert>
#include<cstring>
using namespace std;
typedef unsigned long long ull;
const int BS = 37;
const int N = 2* int(1e5) + 10;
char ch[N];
ull hash[N], base[N], ans[N];
int sa[N], lcp[N], pos[N] , n , k, P[N];
int seg[N<<2], M, len;
// suffix array
inline int cal(int a,int b,int c){
if( a > b) swap(a,b);
int l = 0;
int r; if(c==0) r = len-b;
else r = min(pos[P[a]+1]-a-1,pos[P[b]+1]-b-1);
while(l<r){
int mid = l+r >>1;
if( hash[a] - hash[a + mid + 1] == (hash[b] - hash[b + mid + 1]) * base[b-a]) l = mid + 1; else r = mid;
}
return r;
}
bool cmp(int a,int b) {
int l = cal(a,b,0);
if(a + l == len) return 1;
if(b + l == len) return 0;
assert(ch[a+l] != ch[b+l]);
return ch[a+l] < ch[b+l];
}
// queue
int flag[N],R[N],pa[N];
void init(){
for(int i=0;i<len;i++){
pa[i] = P[sa[i]];
flag[i] = -1;
}
int cnt = 0,now = 0;
for(int i=0;i<len;i++){
if(flag[pa[i]] == -1){
cnt ++;
}
flag[pa[i]] = i;
if(cnt<k) R[i] = now;
else if(cnt == k){
while(flag[pa[now]]!= now) now++;
R[i] = now;
}
else {
flag[pa[now]] = -1;
now ++;
while(flag[pa[now]]!= now) now++;
R[i] = now;
cnt --;
}
}
}
// segment tree
int dfs(int p,int c,int v){
if(p >= M) return p;
if(c){
if(seg[p<<1|1] < v)return dfs(p<<1|1,c,v);
else return dfs(p<<1,c,v);
}
else {
if(seg[p<<1] < v) return dfs(p<<1,c,v);
else return dfs(p<<1|1,c,v);
}
}
bool upt(int p,int v){
if(v == 0) return N;
// cout<<"upt: "<<p<<" "<<v<<" ";
int r = -1, l = -1;
if(seg[p+=M] < v) r = p;
for(;p>1;p>>=1){
if(p&1) if(l==-1) if(seg[p^1] < v) l = dfs(p^1,1,v);
if(~p&1) if(r==-1) if(seg[p^1]< v) r = dfs(p^1,0,v);
}
// cout<<l-M<<" "<<r-M<<endl;
l-=M, r-=M;
return R[r] > l;
}
// debug
int OP(int p){while(ch[p]!='$') cout<<ch[p++];}
// main
int main(){
base[0] = 1;
for(int i=1;i<N;i++) base[i] = base[i-1] * BS;
while(~scanf("%d%d",&n,&k)){
pos[0] = 0;
for(int i=0;i<n;i++){
scanf("%s",ch + pos[i]);
pos[i+1] = pos[i] + strlen(ch + pos[i]) + 1;
ch[pos[i+1]-1] = '$';
}
len = pos[n];
int nowp = 0;
for(int i=0;i<len;i++) {P[i] = nowp; if(ch[i]=='$') nowp++;}
// for(int i=0;i<len;i++) cout<<P[i]<<" "; cout<<endl;
// build lcp
hash[len] = 0;
for(int i=len-1;i>=0; i--)
hash[i] = hash[i+1]+ base[len-1-i] * (ch[i] == '$' ? 0 : ch[i] - 'a' + 1);
for(int i=0;i<len;i++) sa[i] = i;
stable_sort(sa, sa + len, cmp);
for(int i=0;i<len-1;i++) lcp[i] = cal(sa[i],sa[i+1],1);
lcp[len] = lcp[len-1] = 0;
// build seg
for(int i=30;i;i--) if((1<<i) > len) M = 1<<i;
for(int i=M;i<M+M;i++) seg[i] = ~0u>>2;
for(int i=0;i<=len;i++) seg[i+M] = lcp[i];
for(int i=M-1;i;i--) seg[i] = min(seg[i<<1] , seg[i<<1|1]);
init();
memset(ans,0,sizeof(ans));
for(int i = n; i < len; i++){
int p = P[sa[i]];
int l = 0, r = pos[p+1] - sa[i] ;
// OP(sa[i]); cout<<" "<<l<<" "<<r<<endl;
while(l<r) {
int mid = l + r >> 1;
if( upt(i,mid)) l = mid +1;
else r = mid;
}
// OP(sa[i]);cout<<" "<<lcp[i]<<" "<<r-1<<endl;
ans[p] += r-1;
}
for(int i=0;i<n;i++)
cout<<ans[i]<<" "; cout<<endl;
}
}
posted on 2012-07-26 10:20
西月弦 阅读(750)
评论(1) 编辑 收藏 引用 所属分类:
解题报告