mayoko’s diary

プロコンとかいろいろ。

技術室奥プログラミングコンテスト G - おおきなかずを作った (I made a huge number) その2

満点解法書いてみてなんとなく理解したので書きます。

ソースコードは解説コードに少し説明を加えただけです。

解法

基本的な方針は以前書いたものと変わりません。mayokoex.hatenablog.com

満点解法に向けて工夫しなければならないことは,

文字列の比較部分を O(\log n)でやりたい, という部分です。そのための大まかな方針は以下のとおりです。

1. 入力文字列 s の suffix array を作る
2. suffix array を元に lcp を求める
3. lcp を元に任意の整数の組 (i, j) において i と j のsuffix の先頭共通文字列数を求められるようにする(Sparse Table というデータ構造を用いる)
4. 上の情報を元に以前書いた記事と同様に dp を解く

suffix array, lcp, Sparse Table の概要については蟻本に記述があります。ただ蟻本に書いてある suffix array の作り方だと速度が足りないのでここでは SA-IS と呼ばれる suffix array で最強のアルゴリズムを使っています。

で, それが終わったら Sparse Table を作るのですが, これの目的は任意の整数の組 (i, j) において i と j の suffix の先頭共通文字列数を求めることです。
それをやるために RMQ を用います。 lcp の情報で (i, i+1) の組における suffix の先頭共通文字列数がわかるので, それを使うと
(i, j) の組における suffix の先頭共通文字列数は (i, i+1), (i+1, i+2), ..., (j-1, j) の最小値です。なので, RMQ を使えば求めたい文字数が求められます。

#define FOR(i,a,b) for(int i=a;i<b;i++)
#define REP(i,b) FOR(i,0,b)

const int Nmax = 1000001;
int bucket[Nmax];

template <class T>
void CreateBeginBucket(T* data, int size, int maxVal){
    REP(i, maxVal + 1) bucket[i] = 0;
    REP(i, size) bucket[data[i]]++;
    int sum = 0;
    REP(i, maxVal + 1){ bucket[i] += sum; swap(bucket[i], sum); }
}

template <class T>
void CreateEndBucket(T* data, int size, int maxVal){
    REP(i, maxVal + 1) bucket[i] = 0;
    REP(i, size) bucket[data[i]]++;
    int sum = 0;
    REP(i, maxVal + 1){ sum += bucket[i]; bucket[i] = sum; }
}

template<class T>
void InducedSort(T* data, int size, int* SA, int maxVal, bool* isL){
    CreateBeginBucket(data, size, maxVal);
    REP(i, size) if (SA[i] > 0 && isL[SA[i] - 1]) SA[bucket[data[SA[i] - 1]]++] = SA[i] - 1;
}

template<class T>
void InvertInducedSort(T* data, int size, int* SA, int maxVal, bool* isL){
    CreateEndBucket(data, size, maxVal);
    for (int i = size - 1; i >= 0; --i) if (SA[i] > 0 && !isL[SA[i] - 1]) SA[--bucket[data[SA[i] - 1]]] = SA[i] - 1;
}

template <class T>
void DBGOUT(T* sa, int size){
    REP(i, size) printf("%d ", int(sa[i]));
    printf("\n");
}

template<class T>
void SA_IS(T* data, int size, int* SA, int maxVal, bool* isL){
    REP(i, size) SA[i] = -1;
#define isLMS(x) (x>0 && isL[x-1] && !isL[x])
    isL[size - 1] = false;
    for (int i = size - 2; i >= 0; i--) isL[i] = data[i] > data[i + 1] || (data[i] == data[i + 1] && isL[i + 1]);
    CreateEndBucket(data, size, maxVal);
    FOR(i, 1, size) if (isLMS(i)) SA[--bucket[data[i]]] = i;
    InducedSort(data, size, SA, maxVal, isL);
    InvertInducedSort(data, size, SA, maxVal, isL);

    int c = 0;
    REP(i, size) if (isLMS(SA[i])) SA[c++] = SA[i];
    FOR(i, c, size) SA[i] = -1;

    int idx = -1;
    int prev = -1;
    REP(i, c){
        bool diff = false;
        REP(d, size){
            if (prev == -1 || data[SA[i] + d] != data[prev + d] || isL[SA[i] + d] != isL[prev + d]){
                diff = true;
                break;
            }
            else if (d > 0 && isLMS(SA[i] + d)) break;
        }
        if (diff){ idx++; prev = SA[i]; }
        SA[c + SA[i] / 2] = idx;
    }
    int j = size;
    for (int i = size - 1; i >= c; i--) if (SA[i] >= 0) SA[--j] = SA[i];

    int* nxdata = SA + size - c;
    int* nxsa = SA;
    if (c == idx + 1) REP(i, c) nxsa[nxdata[i]] = i;
    else SA_IS(nxdata, c, nxsa, idx, isL + size);

    j = c;
    for (int i = size - 1; i >= 1; i--) if (isLMS(i)) nxdata[--j] = i;
    REP(i, c) nxsa[i] = nxdata[nxsa[i]];
    FOR(i, c, size) SA[i] = -1;
    CreateEndBucket(data, size, maxVal);
    for (int i = c - 1; i >= 0; i--) swap(nxsa[i], SA[--bucket[data[nxsa[i]]]]);
    InducedSort(data, size, SA, maxVal, isL);
    InvertInducedSort(data, size, SA, maxVal, isL);
}

// SA_IS
/* 入力 */
// input: 対象となる文字列
// size : 文字列の長さ
/* 出力 */
// SA   : 返される suffix array
bool isLPool[Nmax * 2];
void SA_IS(unsigned char* input, int size, int* SA){
    int mv = 0;
    REP(i, size) if (mv < input[i]) mv = input[i];
    SA_IS(input, size, SA, mv, isLPool);
}

// CreateLCP
// data: 対象となる文字列
// size: 文字列の長さ
// SA  : dataの suffix array の情報
// 出力
// lcp という配列に情報が保存される
// invertSA という配列に, i 番目の配列が SA で何番目の index かに関する情報が保持される
int lcp[Nmax];
int invertSA[Nmax];
void CreateLCP(unsigned char* data, int size, int* SA){
    lcp[0] = -1;
    REP(i, size) invertSA[SA[i]] = i;
    int prev = 0;
    REP(i, size){
        if (invertSA[i] > 0){
            while (data[i + prev] == data[SA[invertSA[i] - 1] + prev]){
                ++prev;
                if (i + prev >= size || SA[invertSA[i] - 1] + prev >= size)
                    break;
            }
            lcp[invertSA[i]] = prev;
        }
        prev = max(prev - 1, 0);
    }
}

// Sparse Table をlcp を元に構成する
int st[21][Nmax];
void InitSparseTable(int n){
    int h = 1;
    while ((1 << h) < n) h++;
    REP(i, n) st[0][i] = lcp[i];
    FOR(j, 1, h + 1){
        REP(i, n - (1<<j) + 1){
            st[j][i] = min(st[j - 1][i], st[j - 1][i + (1 << (j - 1))]);
        }
    }
}

inline int TopBit(int t){
    for (int i = 20; i >= 0; i--){
        if ((1 << i)&t) return i;
    }
    return -1;
}

int GetLCP(int f, int s){
    if (f > s) swap(f, s);
    int diff = TopBit(s-f);
    return min(st[diff][f], st[diff][s - (1 << diff)]);
}

unsigned char str[Nmax];
int indices[Nmax];

int compare(int f, int s, int l){
    int fi = invertSA[f];
    int si = invertSA[s];
    if (GetLCP(fi + 1, si + 1) >= l)
        return 0;
    else
        return 2 * (fi > si) - 1;
}

int dpd[Nmax];
int main(){
    int n;
    scanf("%d", &n);
    scanf("%s", str);
    SA_IS(str, n + 1, indices);
    CreateLCP(str, n + 1, indices);
    InitSparseTable(n + 1);
    fill(dpd, dpd + n + 1, 1000000000);
    int* dp = dpd + 1;
    dp[n - 2] = 1;
    for (int i = n - 2; i >= 0; i--){
        if (str[i + 1] != '0'){
            int nx = i - dp[i];
            if (nx >= -1){
                if (compare(nx + 1, i + 1, dp[i]) <= 0){
                    nx--;
                }
                if (nx >= -1){
                    dp[nx] = min(dp[nx], i - nx);
                }
            }
        }
        dp[i - 1] = min(dp[i - 1], dp[i] + 1);
    }
    printf("%d\n", dp[-1]);
}