Python с поддержкой табуляции len() и функции заполнения
Вопрос
Функции Python len() и заполнения, такие как string.ljust(), не поддерживают табуляцию, т.е.они рассматривают ' ' как любой другой символ одинарной ширины и не округляют len до ближайшего кратного значению табуляции.Пример:
len('Bear\tnecessities\t')
17 вместо 24 (т.е.4+(8-4)+11+(8-3) )
и сказать, что мне также нужна функция pad_with_tabs(s)
такой, что
pad_with_tabs('Bear', 15) = 'Bear\t\t'
Ищем простые реализации - в первую очередь компактность и читаемость, а затем эффективность.Это простой, но раздражающий вопрос.@gnibbler - можете ли вы показать чисто Pythonic-решение, даже если оно, скажем, в 20 раз менее эффективно?
Конечно, вы можете конвертировать туда и обратно, используя str.expandtabs(TABWIDTH), но это неуклюже.Импорт математических вычислений, чтобы получить TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) )
также кажется огромным излишним убийством.
Я не смог придумать ничего более элегантного, чем следующее:
TABWIDTH = 8
def pad_with_tabs(s,maxlen):
s_len = len(s)
while s_len < maxlen:
s += '\t'
s_len += TABWIDTH - (s_len % TABWIDTH)
return s
и поскольку строки Python являются неизменяемыми, и если мы не хотим вставить нашу функцию в строковый модуль, чтобы добавить ее в качестве метода, мы также должны присвоить результат функции:
s = pad_with_tabs(s, ...)
В частности, я не смог получить чистые подходы, используя понимание списка или string.join(...)
''.join([s, '\t' * ntabs])
без специального оформления случаев, когда len(s) < целое число, кратное TABWIDTH, или len(s)>=maxlen уже.
Может ли кто-нибудь показать лучшие функции len() иpad_with_tabs()?
Решение
TABWIDTH=8
def my_len(s):
return len(s.expandtabs(TABWIDTH))
def pad_with_tabs(s,maxlen):
return s+"\t"*((maxlen-len(s)-1)/TABWIDTH+1)
Почему я использовал expandtabs()
?
Ну это быстро
$ python -m timeit '"Bear\tnecessities\t".expandtabs()'
1000000 loops, best of 3: 0.602 usec per loop
$ python -m timeit 'for c in "Bear\tnecessities\t":pass'
100000 loops, best of 3: 2.32 usec per loop
$ python -m timeit '[c for c in "Bear\tnecessities\t"]'
100000 loops, best of 3: 4.17 usec per loop
$ python -m timeit 'map(None,"Bear\tnecessities\t")'
100000 loops, best of 3: 2.25 usec per loop
Все, что перебирает вашу строку, будет медленнее, потому что одна итерация примерно в 4 раза медленнее, чем expandtabs
даже если вы ничего не делаете в цикле.
$ python -m timeit '"Bear\tnecessities\t".split("\t")'
1000000 loops, best of 3: 0.868 usec per loop
Даже простое разделение по вкладкам занимает больше времени.Вам все равно придется перебирать разделение и дополнять каждый элемент до табуляции.
Другие советы
Я считаю, что гнибблер лучше всего подходит для большинства практических случаев.Но в любом случае вот наивное (без учета CR, LF и т.д.) решение для вычисления длины строки без создания расширенной копии:
def tab_aware_len(s, tabstop=8):
pos = -1
extra_length = 0
while True:
pos = s.find('\t', pos+1)
if pos<0:
return len(s) + extra_length
extra_length += tabstop - (pos+extra_length) % tabstop - 1
Вероятно, это может быть полезно для некоторых огромных строк или даже файлов, отображаемых в памяти.А вот функция заполнения немного оптимизирована:
def pad_with_tabs(s, max_len, tabstop=8):
length = tab_aware_len(s, tabstop)
if length<max_len:
s += '\t' * ((max_len-1)//tabstop + 1 - length//tabstop)
return s
TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) )
это действительно массовое убийство;вы можете получить тот же результат гораздо проще.Для позитива i
и n
, использовать:
def round_up_positive_int(i, n):
return ((i + n - 1) // n) * n
Эта процедура работает практически на любом языке, который я когда-либо использовал, после соответствующего перевода.
Тогда вы можете сделать next_pos = round_up_positive_int(len(s), TABWIDTH)
Для небольшого повышения элегантности вашего кода вместо
while(s_len < maxlen):
использовать это:
while s_len < maxlen: