Atoparsec:Ignorando os termos entre colchetes?
-
13-12-2019 - |
Pergunta
Estou tentando criar arquivos TSV grandes com JSON na 5ª coluna adequados para importação para o mongoDB.Em particular, quero alterar os campos-chave de nível superior e apenas os campos-chave de nível superior para _id.Isto é o que tenho até agora, parece funcionar, mas é lento:
{-# LANGUAGE OverloadedStrings #-}
import System.Environment (getArgs)
import Data.Conduit.Binary (sourceFile, sinkFile)
import Data.Conduit
import qualified Data.Conduit.Text as CT
import qualified Data.Conduit.List as CL
import qualified Data.Text as T
import Data.Monoid ((<>))
import Data.Attoparsec.Text as APT
import Control.Applicative
main = do
(inputFile : outputFile : _) <- getArgs
runResourceT $ sourceFile inputFile
$= CT.decode CT.utf8 $= CT.lines $= CL.map jsonify
$= CT.encode CT.utf8 $$ sinkFile outputFile
jsonify :: T.Text -> T.Text
jsonify = go . T.splitOn "\t"
where
go (_ : _ : _ : _ : content : _) = case parseOnly keyTo_id content of
Right res -> res <> "\n"
_ -> ""
go _ = ""
keyTo_id :: Parser T.Text
keyTo_id = skipWhile(/='{') >> T.snoc <$>
(T.cons <$> (char '{')
<*> (T.concat <$> many1 ( bracket
<|> (string "\"key\":" >> return "\"_id\":")
<|> APT.takeWhile1(\x -> x /= '{' && x /= '}' && x/= '"')
<|> T.singleton <$> satisfy (/= '}')
)))
<*> char '}'
bracket :: Parser T.Text
bracket = T.cons <$> char '{'
<*> scan 1 test
where
test :: Int -> Char -> Maybe Int
test 0 _ = Nothing
test i '}'= Just (i-1)
test i '{' = Just (i+1)
test i _ = Just i
De acordo com o criador de perfil, 58,7% do tempo é gasto entre colchetes, 19,6% em keyTo_id e 17,1% em main.
Certamente há uma maneira melhor de retornar os termos entre colchetes inalterados se os colchetes corresponderem.
Examinei brevemente o attoparsec-conduit, mas não tenho ideia de como usar essa biblioteca e nem sei se esse é o tipo de coisa para a qual ela pode ser usada.
EDITAR:Atualizado o código.Os dados são de openlibrary.org, e.g. http://openlibrary.org/data/ol_dump_authors_latest.txt.gz
Solução
Use o scan
função.Ele permite que você verifique uma string mantendo um estado.No seu caso, o estado será um número – a diferença entre chaves de abertura e fechamento que você encontrou até agora.Quando seu estado é 0, isso significa que as chaves correspondem dentro da substring atual.
O truque é que você não desconstrui e reconstrói a corda dessa maneira, então deve ser mais rápido.
Além disso, você pode obter algum desempenho mesmo com seu algoritmo atual usando texto preguiçoso - o concat
função funcionaria com mais eficiência.