Как преобразовать массив байтов в строку в Common Lisp?
-
03-07-2019 - |
Вопрос
Я вызываю забавный API, который возвращает массив байтов, но мне нужен текстовый поток.Есть ли простой способ получить текстовый поток из массива байтов?На данный момент я просто собрал:
(defun bytearray-to-string (bytes)
(let ((str (make-string (length bytes))))
(loop for byte across bytes
for i from 0
do (setf (aref str i) (code-char byte)))
str))
а затем обернуть результат в with-input-from-string, но это не лучший способ.(Плюс, это ужасно неэффективно.)
В данном случае я знаю, что это всегда ASCII, поэтому интерпретировать его как ASCII или UTF-8 будет нормально.Я использую SBCL с поддержкой Unicode, но я бы предпочел портативное решение (даже только ASCII) решению, специфичному для SBCL-Unicode.
Решение
ГИБКИЕ ПОТОКИ (http://weitz.de/flexi-streams/) имеет портативную функцию преобразования
(flexi-streams:octets-to-string #(72 101 108 108 111) :external-format :utf-8)
=>
"Hello"
Или, если вам нужен поток:
(flexi-streams:make-flexi-stream
(flexi-streams:make-in-memory-input-stream
#(72 101 108 108 111))
:external-format :utf-8)
вернет поток, который читает текст из байт-вектора
Другие советы
Для этого преобразования есть две переносимые библиотеки:
гибкие потоки, уже упомянутые в другом ответе.
Эта библиотека старше и имеет больше возможностей, в частности расширяемые потоки.
Вавилон, библиотека специально для кодирования и декодирования символов.
Главное преимущество Babel перед гибкими потоками — скорость.
Для достижения наилучшей производительности используйте Babel, если он имеет необходимые вам функции, а в противном случае вернитесь к гибким потокам.Ниже (немного ненаучный) микротест, иллюстрирующий разницу в скорости.
Для этого тестового примера Babel в 337 раз быстрее и требует в 200 раз меньше памяти.
(asdf:operate 'asdf:load-op :flexi-streams)
(asdf:operate 'asdf:load-op :babel)
(defun flexi-streams-test (bytes n)
(loop
repeat n
collect (flexi-streams:octets-to-string bytes :external-format :utf-8)))
(defun babel-test (bytes n)
(loop
repeat n
collect (babel:octets-to-string bytes :encoding :utf-8)))
(defun test (&optional (data #(72 101 108 108 111))
(n 10000))
(let* ((ub8-vector (coerce data '(simple-array (unsigned-byte 8) (*))))
(result1 (time (flexi-streams-test ub8-vector n)))
(result2 (time (babel-test ub8-vector n))))
(assert (equal result1 result2))))
#|
CL-USER> (test)
Evaluation took:
1.348 seconds of real time
1.328083 seconds of user run time
0.020002 seconds of system run time
[Run times include 0.12 seconds GC run time.]
0 calls to %EVAL
0 page faults and
126,402,160 bytes consed.
Evaluation took:
0.004 seconds of real time
0.004 seconds of user run time
0.0 seconds of system run time
0 calls to %EVAL
0 page faults and
635,232 bytes consed.
|#
Если вам не нужно беспокоиться о кодировке UTF-8 (что, по сути, означает «просто ASCII»), вы можете использовать MAP:
(карта 'строка #'код-символ #(72 101 108 108 111))
Я предлагаю использовать предлагаемые решения Flexistream или Babel.
Но просто для полноты картины и для удобства будущих гуглеров, посещающих эту страницу, я хочу упомянуть собственный sb-ext:octets-to-string от sbcl:
SB-EXT:OCTETS-TO-STRING is an external symbol in #<PACKAGE "SB-EXT">.
Function: #<FUNCTION SB-EXT:OCTETS-TO-STRING>
Its associated name (as in FUNCTION-LAMBDA-EXPRESSION) is
SB-EXT:OCTETS-TO-STRING.
The function's arguments are: (VECTOR &KEY (EXTERNAL-FORMAT DEFAULT) (START 0)
END)
Its defined argument types are:
((VECTOR (UNSIGNED-BYTE 8)) &KEY (:EXTERNAL-FORMAT T) (:START T) (:END T))
Its result type is:
*
SBCL поддерживает так называемый Серые ручьи.Это расширяемые потоки, основанные на классах CLOS и универсальных функциях.Вы можете создать подкласс текстового потока, который получает символы из массива байтов.
Попробуйте FORMAT
функция. (FORMAT NIL ...)
возвращает результаты в виде строки.