htmlspecialchars导致文本消失

https://stackoverflow.com//questions/11705829

13-12-2019
|

题

我遇到了一个特定的字符串（它不是完全可打印的，但您可以在下面看到它）导致HTMLSpeCialChars（）返回零长度字符串。有没有方法可以修复？

$Stmnt = 'SELECT subject_name FROM bans WHERE id = 2321';
$Fetch = $Conn->query($Stmnt);
if(!$Fetch)
    die('Could not query DB');
while($Row = $Fetch->fetch_array(MYSQLI_ASSOC))
{
    $RawName = $Row['subject_name'];
    $RawLen = strlen($RawName);
    echo('RAW NAME: ['.$RawName.']'.', LENGTH: ['.$RawLen.']'.'<br />');
    for($i = 0; $i < $RawLen; $i++)
        echo('CHAR '.$i.' = ['.$RawName[$i].'] (ORD: '.ord($RawName[$i]).')<br />');

    $CleanName = htmlspecialchars($RawName, ENT_QUOTES, 'UTF-8');
    $CleanLen = strlen($CleanName);
    echo('CLEAN NAME: ['.$CleanName.']'.', LENGTH: ['.$CleanLen.']'.'<br />');
    for($i = 0; $i < $CleanLen; $i++)
        echo('CHAR '.$i.' = ['.$CleanName[$i].'] (ORD: '.ord($CleanName[$i]).')<br />');
}
$Fetch->close();
echo('DONE');

输出：

RAW NAME: [━═★ Coммander Fι5н �], LENGTH: [31]
CHAR 0 = [�] (ORD: 226)
CHAR 1 = [�] (ORD: 148)
CHAR 2 = [�] (ORD: 129)
CHAR 3 = [�] (ORD: 226)
CHAR 4 = [�] (ORD: 149)
CHAR 5 = [�] (ORD: 144)
CHAR 6 = [�] (ORD: 226)
CHAR 7 = [�] (ORD: 152)
CHAR 8 = [�] (ORD: 133)
CHAR 9 = [ ] (ORD: 32)
CHAR 10 = [C] (ORD: 67)
CHAR 11 = [o] (ORD: 111)
CHAR 12 = [�] (ORD: 208)
CHAR 13 = [�] (ORD: 188)
CHAR 14 = [�] (ORD: 208)
CHAR 15 = [�] (ORD: 188)
CHAR 16 = [a] (ORD: 97)
CHAR 17 = [n] (ORD: 110)
CHAR 18 = [d] (ORD: 100)
CHAR 19 = [e] (ORD: 101)
CHAR 20 = [r] (ORD: 114)
CHAR 21 = [ ] (ORD: 32)
CHAR 22 = [F] (ORD: 70)
CHAR 23 = [�] (ORD: 206)
CHAR 24 = [�] (ORD: 185)
CHAR 25 = [5] (ORD: 53)
CHAR 26 = [�] (ORD: 208)
CHAR 27 = [�] (ORD: 189)
CHAR 28 = [ ] (ORD: 32)
CHAR 29 = [�] (ORD: 226)
CHAR 30 = [�] (ORD: 148)
CLEAN NAME: [], LENGTH: [0]
DONE

解决方案

我现在了解它为什么返回零长度的字符串。抱歉提出这个问题。我应该在发布之前研究更多。无论如何，答案如下：

在PHP手册页面for htmlspecialchars

如果输入字符串包含在给定编码的给定编码中的无效代码单元序列，则将返回空字符串，除非设置ENT_IGNORE或ENT_SUBSTITE标志。

然后我问自己关于这个字符串的“无效”是什么？在wiki 页面for utf-8 它提供了utf- 8编码。代表“纯文本ASCII”的所有代码点将是0-127（字节中的MSB始终为0）。

如果字节的MSB为1（十进制128至255），它会告诉UTF-8兼容解析器，即CodePoint由多字节链组成。 和下一个字节的前两个最重要的位必须是1，后跟一个0。

显然在此字符串中，存在一个字节超过127的情况，下面的字节不能以1＆0开头。因此，它是无效的UTF-8编码。

感谢如此帖子对于在我看来的分辨率，是使用Ent_substitute标志（或者我假设Ent_ignore如果确定删除这些不合形的字节不会是安全问题）。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow