إزالة أحرف XML غير صالحة من سلسلة في Java
-
26-09-2019 - |
سؤال
مرحبًا ، أود إزالة جميع أحرف XML غير صالحة من سلسلة. أرغب في استخدام تعبير منتظم مع طريقة string.replace.
مثل
line.replace(regExp,"");
ما هو regexp الصحيح لاستخدامه؟
حرف XML غير صالح هو كل ما ليس هذا:
[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
شكرًا.
المحلول
regex Java يدعم الشخصيات التكميلية, ، حتى تتمكن من تحديد تلك النطاقات العالية مع اثنين من chars utf-16 المشفرة.
إليكم نمط إزالة الشخصيات غير القانونية في XML 1.0:
// XML 1.0
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml10pattern = "[^"
+ "\u0009\r\n"
+ "\u0020-\uD7FF"
+ "\uE000-\uFFFD"
+ "\ud800\udc00-\udbff\udfff"
+ "]";
سيريد معظم الناس إصدار XML 1.0.
إليكم نمط إزالة الشخصيات غير القانونية في XML 1.1:
// XML 1.1
// [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml11pattern = "[^"
+ "\u0001-\uD7FF"
+ "\uE000-\uFFFD"
+ "\ud800\udc00-\udbff\udfff"
+ "]+";
ستحتاج إلى استخدام String.replaceAll(...)
و لا String.replace(...)
.
String illegal = "Hello, World!\0";
String legal = illegal.replaceAll(pattern, "");
نصائح أخرى
هل يجب أن نعتبر الشخصيات البديلة؟ خلاف ذلك "(current> = 0x10000) && (الحالي <= 0x10ffff)" لن يكون صحيحًا أبدًا.
كما اختبرت أن طريقة regex تبدو أبطأ من الحلقة التالية.
if (null == text || text.isEmpty()) {
return text;
}
final int len = text.length();
char current = 0;
int codePoint = 0;
StringBuilder sb = new StringBuilder();
for (int i = 0; i < len; i++) {
current = text.charAt(i);
boolean surrogate = false;
if (Character.isHighSurrogate(current)
&& i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) {
surrogate = true;
codePoint = text.codePointAt(i++);
} else {
codePoint = current;
}
if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
|| ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
|| ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
|| ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
sb.append(current);
if (surrogate) {
sb.append(text.charAt(i));
}
}
}
حل يونيو ، مبسط. استخدام StringBuffer#appendCodePoint(int)
, ، لا أحتاج char current
أو String#charAt(int)
. أستطيع أن أقول زوجًا بديلًا عن طريق التحقق مما إذا كان codePoint
أكبر من 0xFFFF
.
(ليس من الضروري القيام بـ I ++ ، نظرًا لأن البديل المنخفض لن يمرر المرشح. ولكن بعد ذلك ، سيعيد استخدام الرمز لنقاط التعليمات البرمجية المختلفة وسوف يفشل. أفضل البرمجة على القرصنة.)
StringBuilder sb = new StringBuilder();
for (int i = 0; i < text.length(); i++) {
int codePoint = text.codePointAt(i);
if (codePoint > 0xFFFF) {
i++;
}
if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
|| ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
|| ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
|| ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
sb.appendCodePoint(codePoint);
}
}
كل هذه الإجابات حتى الآن استبدل الشخصيات نفسها فقط. ولكن في بعض الأحيان سيكون لمستند XML تسلسلات كيان XML غير صالحة مما يؤدي إلى أخطاء. على سبيل المثال ، إذا كان لديك 
في XML الخاص بك ، سيتم رمي محلل Java XML Illegal character entity: expansion character (code 0x2 at ...
.
فيما يلي برنامج Java بسيط يمكنه استبدال تسلسل الكيانات غير الصالحة.
public final Pattern XML_ENTITY_PATTERN = Pattern.compile("\\&\\#(?:x([0-9a-fA-F]+)|([0-9]+))\\;");
/**
* Remove problematic xml entities from the xml string so that you can parse it with java DOM / SAX libraries.
*/
String getCleanedXml(String xmlString) {
Matcher m = XML_ENTITY_PATTERN.matcher(xmlString);
Set<String> replaceSet = new HashSet<>();
while (m.find()) {
String group = m.group(1);
int val;
if (group != null) {
val = Integer.parseInt(group, 16);
if (isInvalidXmlChar(val)) {
replaceSet.add("&#x" + group + ";");
}
} else if ((group = m.group(2)) != null) {
val = Integer.parseInt(group);
if (isInvalidXmlChar(val)) {
replaceSet.add("&#" + group + ";");
}
}
}
String cleanedXmlString = xmlString;
for (String replacer : replaceSet) {
cleanedXmlString = cleanedXmlString.replaceAll(replacer, "");
}
return cleanedXmlString;
}
private boolean isInvalidXmlChar(int val) {
if (val == 0x9 || val == 0xA || val == 0xD ||
val >= 0x20 && val <= 0xD7FF ||
val >= 0x10000 && val <= 0x10FFFF) {
return false;
}
return true;
}
/**
* This method ensures that the output String has only
* valid XML unicode characters as specified by the
* XML 1.0 standard. For reference, please see
* <a href="http://www.w3.org/TR/2000/REC-xml-20001006#NT-Char">the
* standard</a>. This method will return an empty
* String if the input is null or empty.
*
* @param in The String whose non-valid characters we want to remove.
* @return The in String, stripped of non-valid characters.
*/
public static String stripNonValidXMLCharacters(String in) {
StringBuffer out = new StringBuffer(); // Used to hold the output.
char current; // Used to reference the current character.
if (in == null || ("".equals(in))) return ""; // vacancy test.
for (int i = 0; i < in.length(); i++) {
current = in.charAt(i); // NOTE: No IndexOutOfBoundsException caught here; it should not happen.
if ((current == 0x9) ||
(current == 0xA) ||
(current == 0xD) ||
((current >= 0x20) && (current <= 0xD7FF)) ||
((current >= 0xE000) && (current <= 0xFFFD)) ||
((current >= 0x10000) && (current <= 0x10FFFF)))
out.append(current);
}
return out.toString();
}
من أفضل طريقة لترميز البيانات النصية لـ XML في Java؟
String xmlEscapeText(String t) {
StringBuilder sb = new StringBuilder();
for(int i = 0; i < t.length(); i++){
char c = t.charAt(i);
switch(c){
case '<': sb.append("<"); break;
case '>': sb.append(">"); break;
case '\"': sb.append("""); break;
case '&': sb.append("&"); break;
case '\'': sb.append("'"); break;
default:
if(c>0x7e) {
sb.append("&#"+((int)c)+";");
}else
sb.append(c);
}
}
return sb.toString();
}
إذا كنت ترغب في تخزين العناصر النصية مع الأحرف المحرمة في نموذج تشبه XML ، فيمكنك استخدام XPL بدلاً من ذلك. يوفر Dev -Kit معالجة XPL و XML المتزامنة إلى XML و XML - مما يعني عدم تكلفة الوقت للترجمة من XPL إلى XML. أو ، إذا لم تكن بحاجة إلى الطاقة الكاملة لـ XML (مساحات الأسماء) ، فيمكنك فقط استخدام XPL.
String xmlData = xmlData.codePoints().filter(c -> isValidXMLChar(c)).collect(StringBuilder::new,
StringBuilder::appendCodePoint, StringBuilder::append).toString();
private boolean isValidXMLChar(int c) {
if((c == 0x9) ||
(c == 0xA) ||
(c == 0xD) ||
((c >= 0x20) && (c <= 0xD7FF)) ||
((c >= 0xE000) && (c <= 0xFFFD)) ||
((c >= 0x10000) && (c <= 0x10FFFF)))
{
return true;
}
return false;
}
أعتقد أن المقالات التالية قد تساعدك.
http://commons.apache.org/lang/api-2.1/org/apache/commons/lang/stringescapeutils.htmlhttp://www.javapractices.com/topic/topicaction.do؟id=96
بعد فترة وجيزة ، حاول استخدام StringesCapeutils من مشروع Jakarta.