超过两个字符串的最长常见子字符串 - python

https://stackoverflow.com/questions/2892931

04-10-2019
|

题

我正在寻找一个python库，以查找最长的常见子弦乐 一组琴弦. 。有两种解决这个问题的方法：

使用后缀树
使用动态编程。

实施的方法并不重要。重要的是可以使用 一组琴弦 （不仅是两个字符串）。

解决方案

这些配对函数将在任何任意字符串中找到最长的常见字符串：

def long_substr(data):
    substr = ''
    if len(data) > 1 and len(data[0]) > 0:
        for i in range(len(data[0])):
            for j in range(len(data[0])-i+1):
                if j > len(substr) and is_substr(data[0][i:i+j], data):
                    substr = data[0][i:i+j]
    return substr

def is_substr(find, data):
    if len(data) < 1 and len(find) < 1:
        return False
    for i in range(len(data)):
        if find not in data[i]:
            return False
    return True


print long_substr(['Oh, hello, my friend.',
                   'I prefer Jelly Belly beans.',
                   'When hell freezes over!'])

毫无疑问，该算法可以得到改进，而且我对Python的影响不大，因此也许在语法上也可以更有效，但是应该可以完成这项工作。

编辑： 衬里JF Sebastian证明的第二个IS_SUBSTR函数。用法保持不变。注意：对算法没有更改。

def long_substr(data):
    substr = ''
    if len(data) > 1 and len(data[0]) > 0:
        for i in range(len(data[0])):
            for j in range(len(data[0])-i+1):
                if j > len(substr) and all(data[0][i:i+j] in x for x in data):
                    substr = data[0][i:i+j]
    return substr

希望这可以帮助，

杰森。

其他提示

我更喜欢这个 is_substr, ，因为我发现它更可读性和直观：

def is_substr(find, data):
  """
  inputs a substring to find, returns True only 
  if found for each data in data list
  """

  if len(find) < 1 or len(data) < 1:
    return False # expected input DNE

  is_found = True # and-ing to False anywhere in data will return False
  for i in data:
    print "Looking for substring %s in %s..." % (find, i)
    is_found = is_found and find in i
  return is_found

这可以短：

def long_substr(data):
  substrs = lambda x: {x[i:i+j] for i in range(len(x)) for j in range(len(x) - i + 1)}
  s = substrs(data[0])
  for val in data[1:]:
    s.intersection_update(substrs(val))
  return max(s, key=len)

SET（可能）实现为Hash-Maps，这使得这有点效率低下。如果您（1）将集合数据类型作为trie实现，（2）只需将邮标存储在trie中，然后强制每个节点作为端点（这等同于添加所有substring）这个婴儿的记忆力很高，尤其是因为尝试的交叉点非常容易。

然而，这是简短的，过早的优化是大量浪费时间的根源。

def common_prefix(strings):
    """ Find the longest string that is a prefix of all the strings.
    """
    if not strings:
        return ''
    prefix = strings[0]
    for s in strings:
        if len(s) < len(prefix):
            prefix = prefix[:len(s)]
        if not prefix:
            return ''
        for i in range(len(prefix)):
            if prefix[i] != s[i]:
                prefix = prefix[:i]
                break
    return prefix

从 http://bitbucket.org/ned/cog/src/tip/cogapp/whiteutils.py

# this does not increase asymptotical complexity
# but can still waste more time than it saves. TODO: profile
def shortest_of(strings):
    return min(strings, key=len)

def long_substr(strings):
    substr = ""
    if not strings:
        return substr
    reference = shortest_of(strings) #strings[0]
    length = len(reference)
    #find a suitable slice i:j
    for i in xrange(length):
        #only consider strings long at least len(substr) + 1
        for j in xrange(i + len(substr) + 1, length + 1):
            candidate = reference[i:j]  # ↓ is the slice recalculated every time?
            if all(candidate in text for text in strings):
                substr = candidate
    return substr

免责声明 这对Jtjacques的答案几乎没有增加。但是，希望这应该更可读和快点和它不适合发表评论，因此为什么我将其发布在答案中。我不满意 shortest_of, ，老实说。

您可以使用基于广义后缀树的ANSI C实现的包装器。该模块易于处理。

看一眼：这里

如果有人正在寻找一个广义版本，该版本也可以列出任意对象序列的列表：

def get_longest_common_subseq(data):
    substr = []
    if len(data) > 1 and len(data[0]) > 0:
        for i in range(len(data[0])):
            for j in range(len(data[0])-i+1):
                if j > len(substr) and is_subseq_of_any(data[0][i:i+j], data):
                    substr = data[0][i:i+j]
    return substr

def is_subseq_of_any(find, data):
    if len(data) < 1 and len(find) < 1:
        return False
    for i in range(len(data)):
        if not is_subseq(find, data[i]):
            return False
    return True

# Will also return True if possible_subseq == seq.
def is_subseq(possible_subseq, seq):
    if len(possible_subseq) > len(seq):
        return False
    def get_length_n_slices(n):
        for i in xrange(len(seq) + 1 - n):
            yield seq[i:i+n]
    for slyce in get_length_n_slices(len(possible_subseq)):
        if slyce == possible_subseq:
            return True
    return False

print get_longest_common_subseq([[1, 2, 3, 4, 5], [2, 3, 4, 5, 6]])

print get_longest_common_subseq(['Oh, hello, my friend.',
                                     'I prefer Jelly Belly beans.',
                                     'When hell freezes over!'])

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow