Некоторое время я использовал реализацию Apache Commons lang StringUtils расстояния Левенштейна . Он реализует несколько хорошо известных трюков, чтобы использовать меньше памяти, просто привязывая к двум массивам вместо того, чтобы выделять огромную таблицу nxm для таблицы воспоминаний. Также проверяется только «полоса» шириной 2 * k +1, где k — максимальное количество правок.
В большинстве практических случаев использования Левенштейна вам просто важно, находится ли строка в пределах небольшого числа (1, 2, 3) правок другой строки. Это исключает большую часть вычислений n * m, что делает levenstein «дорогим». Мы обнаружили, что при ak <= 3 левенштейн с этими уловками был быстрее, чем расстояние Яро-Винклера , которое является приблизительным расчетом расстояния редактирования, которое было создано для более быстрого приближения (ну, было много причин).
К сожалению, реализация Apache Commons Lang рассчитывает только Левенштейна, а не возможное и более полезное расстояние Дамерау-Левенштейна . Левенштейн определяет операции редактирования вставки, удаления и замены. Вариант Damerau добавляет * transposition * в список, что довольно полезно для большинства мест, где я использую расстояние редактирования. К сожалению, расстояние DL не является истинной метрикой в том смысле, что оно не учитывает неравенство треугольника, но существует множество приложений, на которые это не влияет. Как вы можете видеть на этой странице википедии, часто возникает путаница между оптимальным выравниванием строк и расстоянием DL. На практике OSA является более простым алгоритмом и требует меньше бухгалтерского учета, поэтому время выполнения, вероятно, немного быстрее.
Я не смог найти никаких реализаций OSA или DL, которые бы использовали трюки с памятью и трюки с «полосами», которые я видел в Apache Commons Lang. Так что я реализовал свой OSA, используя эти приемы. В какой-то момент я также реализую DL с уловками и посмотрю, каковы различия в производительности:
Вот OSA на Java. Это общественное достояние; не стесняйтесь использовать, как вам нравится. Модульные тесты приведены ниже. В Guava есть только зависимость, но это просто класс предварительных условий и аннотация для документации, поэтому ее легко удалить, если хотите:
| 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 080 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 | packagecom.github.steveash.util;importstaticcom.google.common.base.Preconditions.checkArgument;importstaticcom.google.common.base.Preconditions.checkNotNull;importstaticcom.google.common.primitives.Shorts.checkedCast;importstaticjava.lang.Math.abs;importstaticjava.lang.Math.max;importjava.util.Arrays;importcom.google.common.annotations.VisibleForTesting;/** * Implementation of the OSA which is similar to the Damerau-Levenshtein in that it allows for transpositions to * count as a single edit distance, but is not a true metric and can over-estimate the cost because it disallows * substrings to edited more than once.  See wikipedia for more discussion on OSA vs DL * <p/> * See Algorithms on Strings, Trees and Sequences by Dan Gusfield for more information. * <p/> * This also has a set of local buffer implementations to avoid allocating new buffers each time, which might be * a premature optimization * <p/> * @author Steve Ash */publicclassOptimalStringAlignment {    privatestaticfinalintthreadLocalBufferSize = 64;    privatestaticfinalThreadLocal<short[]> costLocal = newThreadLocal<short[]>() {        @Override        protectedshort[] initialValue() {            returnnewshort[threadLocalBufferSize];        }    };    privatestaticfinalThreadLocal<short[]> back1Local = newThreadLocal<short[]>() {        @Override        protectedshort[] initialValue() {            returnnewshort[threadLocalBufferSize];        }    };    privatestaticfinalThreadLocal<short[]> back2Local = newThreadLocal<short[]>() {        @Override        protectedshort[] initialValue() {            returnnewshort[threadLocalBufferSize];        }    };    publicstaticinteditDistance(CharSequence s, CharSequence t, intthreshold) {        checkNotNull(s, "cannot measure null strings");        checkNotNull(t, "cannot measure null strings");        checkArgument(threshold >= 0, "Threshold must not be negative");        checkArgument(s.length() < Short.MAX_VALUE, "Cannot take edit distance of strings longer than 32k chars");        checkArgument(t.length() < Short.MAX_VALUE, "Cannot take edit distance of strings longer than 32k chars");        if(s.length() + 1> threadLocalBufferSize || t.length() + 1> threadLocalBufferSize)            returneditDistanceWithNewBuffers(s, t, checkedCast(threshold));        short[] cost = costLocal.get();        short[] back1 = back1Local.get();        short[] back2 = back2Local.get();        returneditDistanceWithBuffers(s, t, checkedCast(threshold), back2, back1, cost);    }    @VisibleForTesting    staticinteditDistanceWithNewBuffers(CharSequence s, CharSequence t, shortthreshold) {        intslen = s.length();        short[] back1 = newshort[slen + 1];    // "up 1" row in table        short[] back2 = newshort[slen + 1];    // "up 2" row in table        short[] cost = newshort[slen + 1];     // "current cost"        returneditDistanceWithBuffers(s, t, threshold, back2, back1, cost);    }    privatestaticinteditDistanceWithBuffers(CharSequence s, CharSequence t, shortthreshold,            short[] back2, short[] back1, short[] cost) {        shortslen = (short) s.length();        shorttlen = (short) t.length();        // if one string is empty, the edit distance is necessarily the length of the other        if(slen == 0) {            returntlen <= threshold ? tlen : -1;        } elseif(tlen == 0) {            returnslen <= threshold ? slen : -1;        }        // if lengths are different > k, then can't be within edit distance        if(abs(slen - tlen) > threshold)            return-1;        if(slen > tlen) {            // swap the two strings to consume less memory            CharSequence tmp = s;            s = t;            t = tmp;            slen = tlen;            tlen = (short) t.length();        }        initMemoiseTables(threshold, back2, back1, cost, slen);        for(shortj = 1; j <= tlen; j++) {            cost[0] = j; // j is the cost of inserting this many characters            // stripe bounds            intmin = max(1, j - threshold);            intmax = min(slen, (short) (j + threshold));            // at this iteration the left most entry is "too much" so reset it            if(min > 1) {                cost[min - 1] = Short.MAX_VALUE;            }            iterateOverStripe(s, t, j, cost, back1, back2, min, max);            // swap our cost arrays to move on to the next "row"            short[] tempCost = back2;            back2 = back1;            back1 = cost;            cost = tempCost;        }        // after exit, the current cost is in back1        // if back1[slen] > k then we exceeded, so return -1        if(back1[slen] > threshold) {            return-1;        }        returnback1[slen];    }    privatestaticvoiditerateOverStripe(CharSequence s, CharSequence t, shortj,            short[] cost, short[] back1, short[] back2, intmin, intmax) {        // iterates over the stripe        for(inti = min; i <= max; i++) {            if(s.charAt(i - 1) == t.charAt(j - 1)) {                cost[i] = back1[i - 1];            } else{                cost[i] = (short) (1+ min(cost[i - 1], back1[i], back1[i - 1]));            }            if(i >= 2&& j >= 2) {                // possible transposition to check for                if((s.charAt(i - 2) == t.charAt(j - 1)) &&                        s.charAt(i - 1) == t.charAt(j - 2)) {                    cost[i] = min(cost[i], (short) (back2[i - 2] + 1));                }            }        }    }    privatestaticvoidinitMemoiseTables(shortthreshold, short[] back2, short[] back1, short[] cost, shortslen) {        // initial "starting" values for inserting all the letters        shortboundary = (short) (min(slen, threshold) + 1);        for(shorti = 0; i < boundary; i++) {            back1[i] = i;            back2[i] = i;        }        // need to make sure that we don't read a default value when looking "up"        Arrays.fill(back1, boundary, slen + 1, Short.MAX_VALUE);        Arrays.fill(back2, boundary, slen + 1, Short.MAX_VALUE);        Arrays.fill(cost, 0, slen + 1, Short.MAX_VALUE);    }    privatestaticshortmin(shorta, shortb) {        return(a <= b ? a : b);    }    privatestaticshortmin(shorta, shortb, shortc) {        returnmin(a, min(b, c));    }} | 
| 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 | importorg.junit.Testimportstaticcom.github.steveash.util.OptimalStringAlignment.editDistance/** * @author Steve Ash */classOptimalStringAlignmentTest {    @Test    publicvoidshouldBeZeroForEqualStrings() throwsException {        assert0== editDistance("steve", "steve", 1)        assert0== editDistance("steve", "steve", 0)        assert0== editDistance("steve", "steve", 2)        assert0== editDistance("steve", "steve", 100)        assert0== editDistance("s", "s", 1)        assert0== editDistance("s", "s", 0)        assert0== editDistance("s", "s", 2)        assert0== editDistance("s", "s", 100)        assert0== editDistance("", "", 0)        assert0== editDistance("", "", 1)        assert0== editDistance("", "", 100)    }    @Test    publicvoidshouldBeOneForSingleOperation() throwsException {        def a = "steve";        for(inti = 0; i < 5; i++) {            assertOneOp(newStringBuilder(a).insert(i, 'f'), a)            assertOneOp(newStringBuilder(a).deleteCharAt(i), a)            def sb = newStringBuilder(a)            sb.setCharAt(i, 'x'as char);            assertOneOp(sb, a)            if(i > 1) {                sb = newStringBuilder(a)                chart = sb.charAt(i - 1)                sb.setCharAt(i - 1, sb.charAt(i))                sb.setCharAt(i, t)                println "comparing "+ sb.toString() + " -> "+ a                assertOneOp(sb, a)            }        }    }    @Test    publicvoidshouldCountTransposeAsOne() throwsException {        assert3== editDistance("xxsteve", "steev", 4)        assert3== editDistance("xxsteve", "steev", 3)        assert3== editDistance("steev", "xxsteve", 4)        assert3== editDistance("steev", "xxsteve", 3)        assert-1== editDistance("steev", "xxsteve", 2)        assert4== editDistance("xxtseve", "steev", 4)        assert5== editDistance("xxtsevezx", "steevxz", 5)        assert6== editDistance("xxtsevezx", "steevxzpp", 6)        assert7== editDistance("xxtsfevezx", "steevxzpp", 7)        assert4== editDistance("xxtsf", "st", 7)        assert4== editDistance("evezx", "eevxzpp", 7)        assert7== editDistance("xxtsfevezx", "steevxzpp", 7)    }    @Test    publicvoidshouldCountLeadingCharacterTranspositionsAsOne() throwsException {        assert1== editDistance("rosa", "orsa", 2)    }    privatevoidassertOneOp(CharSequence a, CharSequence b) {        assert1== editDistance(a, b, 1)        assert1== editDistance(b, a, 1)        assert1== editDistance(a, b, 2)        assert1== editDistance(b, a, 2)    }    @Test    publicvoidshouldShortCutWhenSpecialCase() throwsException {        assert1== editDistance("s", "", 1)        assert1== editDistance("", "s", 1)        assert-1== editDistance("s", "", 0)        assert-1== editDistance("", "s", 0)        assert-1== editDistance("st", "", 1)        assert-1== editDistance("", "st", 1)        assert-1== editDistance("steve", "ste", 0)        assert-1== editDistance("ste", "steve", 0)        assert-1== editDistance("stev", "steve", 0)        assert-1== editDistance("ste", "steve", 1)        assert-1== editDistance("steve", "ste", 1)        assert1== editDistance("steve", "stev", 1)        assert1== editDistance("stev", "steve", 1)    }} |