Подходит ли мой метод защиты от XSS для разрешения пользовательского HTML в PHP?
Вопрос
Я работаю над поиском хорошего способа сделать данные, отправляемые пользователем, в данном случае разрешить HTML и сделать так, чтобы это было максимально безопасно и быстро, насколько я могу.
Я знаю, что КАЖДЫЙ ОТДЕЛЬНЫЙ ЧЕЛОВЕК на этом сайте, кажется, думает http://htmlpurifier.org вот ответ на этот вопрос.Я действительно частично согласен. htmlочиститель имеет лучший открытый исходный код для фильтрации отправленного пользователем HTML, но это решение очень громоздкое и не подходит для производительности на сайте с высоким трафиком.Возможно, когда-нибудь я даже воспользуюсь этим решением, но сейчас моя цель - найти более легкий метод.
Я использую 2 функции, приведенные ниже, уже около 2 с половиной лет без каких-либо проблем, но я думаю, что пришло время прислушаться к мнению профессионалов, если они помогут мне.
Вызывается первая функция FilterHTML($строка) он запускается перед сохранением пользовательских данных в базу данных mysql.Вызывается вторая функция формат_db_value($text, $nl2br = false) и я использую его на странице, где я планирую показать предоставленные пользователем данные.
Ниже 2 функций приведена куча кодов XSS, которые я нашел на http://ha.ckers.org/xss.html и затем я запустил их на этих 2 функциях, чтобы увидеть, насколько эффективен мой код, я несколько доволен результатами, они блокировали каждый код, который я пробовал, но я знаю, что это все еще не на 100% безопасно, очевидно.
Не могли бы вы, ребята, пожалуйста, просмотреть это и дать мне какие-либо советы по самому моему коду или даже по всей концепции фильтрации html.
Я хотел бы когда-нибудь внести его в белый список, но htmlочиститель это единственное решение, которое, как я нашел, стоит использовать для этого, и, как я уже упоминал, оно не такое легкое, как хотелось бы.
function FilterHTML($string) {
if (get_magic_quotes_gpc()) {
$string = stripslashes($string);
}
$string = html_entity_decode($string, ENT_QUOTES, "ISO-8859-1");
// convert decimal
$string = preg_replace('/&#(\d+)/me', "chr(\\1)", $string); // decimal notation
// convert hex
$string = preg_replace('/&#x([a-f0-9]+)/mei', "chr(0x\\1)", $string); // hex notation
//$string = html_entity_decode($string, ENT_COMPAT, "UTF-8");
$string = preg_replace('#(&\#*\w+)[\x00-\x20]+;#U', "$1;", $string);
$string = preg_replace('#(<[^>]+[\s\r\n\"\'])(on|xmlns)[^>]*>#iU', "$1>", $string);
//$string = preg_replace('#(&\#x*)([0-9A-F]+);*#iu', "$1$2;", $string); //bad line
$string = preg_replace('#/*\*()[^>]*\*/#i', "", $string); // REMOVE /**/
$string = preg_replace('#([a-z]*)[\x00-\x20]*([\`\'\"]*)[\\x00-\x20]*j[\x00-\x20]*a[\x00-\x20]*v[\x00-\x20]*a[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iU', '...', $string); //JAVASCRIPT
$string = preg_replace('#([a-z]*)([\'\"]*)[\x00-\x20]*v[\x00-\x20]*b[\x00-\x20]*s[\x00-\x20]*c[\x00-\x20]*r[\x00-\x20]*i[\x00-\x20]*p[\x00-\x20]*t[\x00-\x20]*:#iU', '...', $string); //VBSCRIPT
$string = preg_replace('#([a-z]*)[\x00-\x20]*([\\\]*)[\\x00-\x20]*@([\\\]*)[\x00-\x20]*i([\\\]*)[\x00-\x20]*m([\\\]*)[\x00-\x20]*p([\\\]*)[\x00-\x20]*o([\\\]*)[\x00-\x20]*r([\\\]*)[\x00-\x20]*t#iU', '...', $string); //@IMPORT
$string = preg_replace('#([a-z]*)[\x00-\x20]*e[\x00-\x20]*x[\x00-\x20]*p[\x00-\x20]*r[\x00-\x20]*e[\x00-\x20]*s[\x00-\x20]*s[\x00-\x20]*i[\x00-\x20]*o[\x00-\x20]*n#iU', '...', $string); //EXPRESSION
$string = preg_replace('#</*\w+:\w[^>]*>#i', "", $string);
$string = preg_replace('#</?t(able|r|d)(\s[^>]*)?>#i', '', $string); // strip out tables
$string = preg_replace('/(potspace|pot space|rateuser|marquee)/i', '...', $string); // filter some words
//$string = str_replace('left:0px; top: 0px;','',$string);
do {
$oldstring = $string;
//bgsound|
$string = preg_replace('#</*(applet|meta|xml|blink|link|script|iframe|frame|frameset|ilayer|layer|title|base|body|xml|AllowScriptAccess|big)[^>]*>#i', "...", $string);
} while ($oldstring != $string);
return addslashes($string);
}
Приведенная ниже функция используется при отображении кода, отправленного пользователем, на веб-странице
function format_db_value($text, $nl2br = false) {
if (is_array($text)) {
$tmp_array = array();
foreach ($text as $key => $value) {
$tmp_array[$key] = format_db_value($value);
}
return $tmp_array;
} else {
$text = htmlspecialchars(stripslashes($text));
if ($nl2br) {
return nl2br($text);
} else {
return $text;
}
}
}
Приведенные ниже коды взяты из ha.ckers.org и все они, похоже, не справляются с моими функциями, описанными выше
Я не перепробовал все на этом сайте, хотя их гораздо больше, это лишь некоторые из них.
Исходный код находится в верхней строке каждого набора, а код после выполнения моих функций - в строке под ним.
<IMG SRC="javascript:alert(\'XSS\');"><b>hello</b> hiii
<IMG SRC=...alert('XSS');"><b>hello</b> hiii
<IMG SRC=JaVaScRiPt:alert('XSS')>
<IMG SRC=...alert('XSS')>
<IMG SRC=javascript:alert(String.fromCharCode(88,83,83))>
<IMG SRC=...alert(String.fromCharCode(88,83,83))>
<IMG SRC=javascript:alert('XSS')>
<IMG SRC=...alert('XSS')>
<IMG SRC=javascript:alert('XSS')>
<IMG SRC=F MLEJNALN !>
<IMG SRC=javascript:alert('XSS')>
<IMG SRC=...alert('XSS')>
<IMG SRC="jav
ascript:alert('XSS');">
<IMG SRC=...alert('XSS');">
perl -e 'print "<IMG SRC=javascript:alert("XSS")>";' > out
perl -e 'print "<IMG SRC=java\0script:alert(\"XSS\")>";' > out
<BODY onload!#$%&()*~+-_.,:;?@[/|\]^`=alert("XSS")>
...
<iframe src=http://ha.ckers.org/scriptlet.html <
...
<LAYER SRC="http://ha.ckers.org/scriptlet.html"></LAYER>
......
<META HTTP-EQUIV="Link" Content="<http://ha.ckers.org/xss.css>; REL=stylesheet">
...; REL=stylesheet">
<IMG STYLE="xss:...(alert('XSS'))">
<IMG STYLE="xss:expr/*XSS*/ession(alert('XSS'))">
<XSS STYLE="xss:...(alert('XSS'))">
<XSS STYLE="xss:expression(alert('XSS'))">
<EMBED SRC="data:image/svg+xml;base64,PHN2ZyB4bWxuczpzdmc9Imh0dH A6Ly93d3cudzMub3JnLzIwMDAvc3ZnIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcv MjAwMC9zdmciIHhtbG5zOnhsaW5rPSJodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hs aW5rIiB2ZXJzaW9uPSIxLjAiIHg9IjAiIHk9IjAiIHdpZHRoPSIxOTQiIGhlaWdodD0iMjAw IiBpZD0ieHNzIj48c2NyaXB0IHR5cGU9InRleHQvZWNtYXNjcmlwdCI+YWxlcnQoIlh TUyIpOzwvc2NyaXB0Pjwvc3ZnPg==" type="image/svg+xml" AllowScriptAccess="always"></EMBED>
<EMBED SRC="data:image/svg+xml;base64,PHN2ZyB4bWxuczpzdmc9Imh0dH A6Ly93d3cudzMub3JnLzIwMDAvc3ZnIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcv MjAwMC9zdmciIHhtbG5zOnhsaW5rPSJodHRwOi8vd3d3LnczLm9yZy8xOTk5L3hs aW5rIiB2ZXJzaW9uPSIxLjAiIHg9IjAiIHk9IjAiIHdpZHRoPSIxOTQiIGhlaWdodD0iMjAw IiBpZD0ieHNzIj48c2NyaXB0IHR5cGU9InRleHQvZWNtYXNjcmlwdCI+YWxlcnQoIlh TUyIpOzwvc2NyaXB0Pjwvc3ZnPg==" type="image/svg+xml" AllowScriptAccess="always"></EMBED>
<IMG
SRC
=
"
j
a
v
a
s
c
r
i
p
t
:
a
l
e
r
t
(
'
X
S
S
'
)
"
>
<IMG
SRC
=...
a
l
e
r
t
(
'
X
S
S
'
)
"
>
Решение
Вот четыре альтернативы :
Другие советы
Единственный способ убедиться в этом - внести в белый список теги и атрибуты, которые они могут использовать, и написать строгие регулярные выражения для проверки допустимых значений атрибутов.Если вы хотите разрешить такие атрибуты, как "стиль", то у вас возникают дополнительные сложности.
Внесение в черный список может только усложнить атаку для некоторых людей, но это не усложнит ее для человека, который использует технику, о которой вы еще не слышали.
Я бы попробовал использовать regexp, чтобы добавить отсутствующие закрывающие теги к тому, что ввели пользователи, и заменить <br>
с <br />
и так далее, затем проанализируйте его с помощью SimpleXML, затем выполните итерацию по нему и удалите любой тег, которого нет в белом списке, любой атрибут, которого нет в белом списке для данного тега, и любой атрибут, значение которого соответствует точному регулярному выражению для этого атрибута.В конце концов, я бы использовал asXML(), чтобы вернуть текст обратно.Я бы начал с минимального набора тегов и атрибутов и добавлял новые по мере необходимости, будучи особенно осторожным со всем, что может содержать URL.
IMHO htmlawed является лучшим - скудный, быстрый, с полным охватом HTML, наиболее гибкий...черный или белый список для тегов И атрибутов.В безопасности? Поражения все коды ha.ckers XSS
Как насчет использования собственного HTML-парсера PHP?
Мне было любопытно об этом, поэтому я написал некоторый код для тестирования (требуется PHP 5.3.6+):
$badHtml = file_get_contents('badHtml.txt');
$html = sprintf('<div id="input">%s</div>', $badHtml);
// tidy is no required, but may fix invalid markup
$tidy = new \tidy();
$tidy->parseString($html, array(), 'utf8');
$tidy->cleanRepair();
$dom = new \DomDocument('1.0', 'UTF-8');
libxml_use_internal_errors(true);
$dom->loadHtml($tidy);
$input = $dom->getElementById('input');
// tag as key, attributes as values
$allowed = array(
'table' => array('border'),
'tbody' => array(),
'tr' => array(),
'td' => array(),
'th' => array(),
'img' => array('src', 'alt'),
'p' => array(),
'ul' => array(),
'ol' => array(),
'li' => array(),
'a' => array('href', 'title'),
'strong' => array(),
'em' => array(),
'sub' => array(),
'sup' => array(),
);
$walk = function(\DomNode $node) use($allowed, &$walk){
// only check tags
if($node->nodeType !== XML_ELEMENT_NODE)
return;
if(!isset($allowed[$node->nodeName]))
return $node->parentNode->removeChild($node);
foreach($node->attributes as $key => $attr){
if(!in_array($key, $allowed[$node->nodeName], true))
$node->removeAttribute($key);
// expect URLs here
if(!in_array($key, array('href', 'src'), true))
continue;
if(!filter_var($attr->value, FILTER_VALIDATE_URL))
return $node->parentNode->removeChild($node);
}
array_map($walk, iterator_to_array($node->childNodes));
};
// convert DOMNodeList to array because this way the bad stuff
// can be removed within the loop
array_map($walk, iterator_to_array($input->childNodes));
// export HTML
$sanitized = $dom->saveHtml($input);
Вывод, без запуска Tidy:
Кажется, все в порядке.Или это удалило слишком много?:) Должно быть намного быстрее, чем HTMLPurifier, теоретически более безопасно, поскольку оно менее разрешающее, и, вероятно, также быстрее, чем регулярные выражения.