Pergunta
Eu tenho uma classe que representa um intervalo. Esta classe tem duas propriedades "start" e "fim" de um tipo comparável. Agora estou procurando um algoritmo eficiente para levar a união de um conjunto de tais intervalos.
Obrigado antecipadamente.
Solução
Classificar-los por um dos termos (começar, por exemplo), em seguida, verificar se há sobreposições com a sua (do lado direito) próximo como você se move através da lista.
class tp():
def __repr__(self):
return '(%d,%d)' % (self.start, self.end)
def __init__(self,start,end):
self.start=start
self.end=end
s=[tp(5,10),tp(7,8),tp(0,5)]
s.sort(key=lambda self: self.start)
y=[ s[0] ]
for x in s[1:]:
if y[-1].end < x.start:
y.append(x)
elif y[-1].end == x.start:
y[-1].end = x.end
Outras dicas
Use a varredura algoritmo linha . Basicamente, você classificar todos os valores em uma lista (mantendo quer se trate de início ou fim do intervalo junto com cada item). Esta operação é O (N log N). Então você circuito em uma única passagem ao longo dos itens classificados e calcular a intervalos O (n).
O (N log N) + O (n) = O (n log n)
Acontece que este problema foi resolvido, muitas vezes - em níveis variados de fantasia, indo sob nomenclatura (s): http://en.wikipedia.org/wiki/Interval_tree , http: //en.wikipedia.org/wiki/Segment_tree , e também 'RangeTree'
(como a pergunta do OP envolve grandes contagens de intervalos estes datastructures matéria)
em termos de minha própria escolha de seleção biblioteca python:
-
A partir de testes, eu estou achando que o que a maioria das unhas de TI em termos de ser atual cheio de recursos e python (não bit-apodreceu): o 'Intervalo' e aulas de 'união' de SymPy, consulte: http://sympystats.wordpress.com/2012/03/30/simplifying-sets/
-
Outra boa aparência escolha, um desempenho superior, mas menos característica de opção ricos (por exemplo, não funcionou em flutuante remoção queima.): https://pypi.python.org/pypi/Banyan
Por fim: pesquisar em torno de si mesmo SO, em qualquer uma IntervalTree, SegmentTree, RangeTree, e você encontrará respostas / ganchos mais abundância
O algoritmo por geocar falha quando:
s=[tp(0,1),tp(0,3)]
Eu não estou muito certo, mas acho que este é o caminho correto:
class tp():
def __repr__(self):
return '(%.2f,%.2f)' % (self.start, self.end)
def __init__(self,start,end):
self.start=start
self.end=end
s=[tp(0,1),tp(0,3),tp(4,5)]
s.sort(key=lambda self: self.start)
print s
y=[ s[0] ]
for x in s[1:]:
if y[-1].end < x.start:
y.append(x)
elif y[-1].end == x.start:
y[-1].end = x.end
if x.end > y[-1].end:
y[-1].end = x.end
print y
Eu também implementou para subtração:
#subtraction
z=tp(1.5,5) #interval to be subtracted
s=[tp(0,1),tp(0,3), tp(3,4),tp(4,6)]
s.sort(key=lambda self: self.start)
print s
for x in s[:]:
if z.end < x.start:
break
elif z.start < x.start and z.end > x.start and z.end < x.end:
x.start=z.end
elif z.start < x.start and z.end > x.end:
s.remove(x)
elif z.start > x.start and z.end < x.end:
s.append(tp(x.start,z.start))
s.append(tp(z.end,x.end))
s.remove(x)
elif z.start > x.start and z.start < x.end and z.end > x.end:
x.end=z.start
elif z.start > x.end:
continue
print s
Classificar todos os pontos. Em seguida, percorrer a lista incrementando um contador para pontos "Iniciar", e diminuindo-lo para os pontos de "end". Se o contador chega a 0, então é realmente um ponto final de um dos intervalos da União.
O contador nunca vai dar negativo, e vai chegar a 0 no final da lista.
Para encontrar o total da união de intervalos em c ++
#include <iostream>
#include <algorithm>
struct interval
{
int m_start;
int m_end;
};
int main()
{
interval arr[] = { { 9, 10 }, { 5, 9 }, { 3, 4 }, { 8, 11 } };
std::sort(
arr,
arr + sizeof(arr) / sizeof(interval),
[](const auto& i, const auto& j) { return i.m_start < j.m_start; });
int total = 0;
auto current = arr[0];
for (const auto& i : arr)
{
if (i.m_start >= current.m_end)
{
total += current.m_end - current.m_start;
current = i;
}
else if (i.m_end > current.m_end)
{
current.m_end = i.m_end;
}
}
total += current.m_end - current.m_start;
std::cout << total << std::endl;
}