我使用 simple_html_dom 以解析网站。 有一种方法来提取的文档类型?

有帮助吗?

解决方案

您可以使用file_get_contents函数从网站获得的所有的HTML数据。 例如

<?php
   $html = file_get_contents("http://google.com");
   $html = str_replace("\n","",$html);
   $get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
   $doctype = $matches[1][0];
?>

其他提示

可以使用$html->find('unknown')。这工作 - 至少 - 在simplehtmldom库的1.11版本。我用它如下所示:

function get_doctype($doc)
{
    $els = $doc->find('unknown');

    foreach ($els as $e => $el) 
        if ($el->parent()->tag == 'root') 
            return $el;

    return NULL;
}

这只是处理可能被发现的任何其他“未知”的元素;我假设第一个将文档类型。如果你想确保它开始与->innertext,虽然你可以明确地检查'!DOCTYPE '

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top