Регулярное выражение для поиска неэкранированных двойных кавычек в CSV-файле
Вопрос
Каким было бы регулярное выражение для поиска наборов из 2 неэкранированных двойных кавычек, которые содержатся в столбцах, заключенных в двойные кавычки в CSV-файле?
Не совпадение:
"asdf","asdf"
"", "asdf"
"asdf", ""
"adsf", "", "asdf"
Совпадение:
"asdf""asdf", "asdf"
"asdf", """asdf"""
"asdf", """"
Решение
Попробуй это:
(?m)""(?![ \t]*(,|$))
Объяснение:
(?m) // enable multi-line matching (^ will act as the start of the line and $ will act as the end of the line (i))
"" // match two successive double quotes
(?! // start negative look ahead
[ \t]* // zero or more spaces or tabs
( // open group 1
, // match a comma
| // OR
$ // the end of the line or string
) // close group 1
) // stop negative look ahead
Итак, простым английским языком: "заключите две последовательные двойные кавычки, только если перед ними нет запятой или конца строки с необязательными пробелами и символами табуляции между ними".
(i) помимо того, что он нормальный начало строки и конец строки мета-символы.
Другие советы
Из-за сложности вашей проблемы решение зависит от используемого вами движка.Это потому, что для ее решения вы должны использовать look behind и look ahead, и каждый движок здесь не один и тот же.
Мой ответ заключается в использовании движка Ruby.Проверка - это всего лишь одно регулярное выражение, но я привожу здесь весь код, чтобы лучше объяснить это.
ОБРАТИТЕ внимание, что из-за механизма регулярных выражений Ruby (или моих знаний) дополнительный просмотр вперед / назад невозможен.Итак, мне нужна небольшая проблема с пробелами до и после запятой.
Вот мой код:
orgTexts = [
'"asdf","asdf"',
'"", "asdf"',
'"asdf", ""',
'"adsf", "", "asdf"',
'"asdf""asdf", "asdf"',
'"asdf", """asdf"""',
'"asdf", """"'
]
orgTexts.each{|orgText|
# Preprocessing - Eliminate spaces before and after comma
# Here is needed if you may have spaces before and after a valid comma
orgText = orgText.gsub(Regexp.new('\" *, *\"'), '","')
# Detect valid character (non-quote and valid quote)
resText = orgText.gsub(Regexp.new('([^\"]|^\"|\"$|(?<=,)\"|\"(?=,)|(?<=\\\\)\")'), '-')
# resText = orgText.gsub(Regexp.new('([^\"]|(^|(?<=,)|(?<=\\\\))\"|\"($|(?=,)))'), '-')
# [^\"] ===> A non qoute
# | ===> or
# ^\" ===> beginning quot
# | ===> or
# \"$ ===> endding quot
# | ===> or
# (?<=,)\" ===> quot just after comma
# \"(?=,) ===> quot just before comma
# (?<=\\\\)\" ===> escaped quot
# This part is to show the invalid non-escaped quots
print orgText
print resText.gsub(Regexp.new('"'), '^')
# This part is to determine if there is non-escaped quotes
# Here is the actual matching, use this one if you don't want to know which quote is un-escaped
isMatch = ((orgText =~ /^([^\"]|^\"|\"$|(?<=,)\"|\"(?=,)|(?<=\\\\)\")*$/) != 0).to_s
# Basicall, it match it from start to end (^...$) there is only a valid character
print orgText + ": " + isMatch
print
print ""
print ""
}
При выполнении код печатает:
"asdf","asdf"
-------------
"asdf","asdf": false
"","asdf"
---------
"","asdf": false
"asdf",""
---------
"asdf","": false
"adsf","","asdf"
----------------
"adsf","","asdf": false
"asdf""asdf","asdf"
-----^^------------
"asdf""asdf","asdf": true
"asdf","""asdf"""
--------^^----^^-
"asdf","""asdf""": true
"asdf",""""
--------^^-
"asdf","""": true
Я надеюсь, что дам вам здесь некоторую идею, которую вы можете использовать с другими движками и языками.
".*"(\n|(".*",)*)
думаю, должно сработать...
Для однострочных совпадений:
^("[^"]*"\s*,\s*)*"[^"]*""[^"]*"
или для многострочного:
(^|\r\n)("[^\r\n"]*"\s*,\s*)*"[^\r\n"]*""[^\r\n"]*"
Редактировать / Примечание: В зависимости от используемого движка регулярных выражений, вы могли бы использовать lookbehinds и другие материалы, чтобы сделать регулярное выражение более компактным.Но это должно работать в большинстве движков регулярных выражений просто отлично.
Попробуйте использовать это регулярное выражение:
"(?:[^",\\]*|\\.)*(?:""(?:[^",\\]*|\\.)*)+"
Это будет соответствовать любой строке, заключенной в кавычки, по крайней мере, с одной парой неэкранированных двойных кавычек.