提取与simple_html_dom DOCTYPE

https://stackoverflow.com/questions/1566028

21-09-2019
|

题

我使用 simple_html_dom 以解析网站。有一种方法来提取的文档类型？

解决方案

您可以使用file_get_contents函数从网站获得的所有的HTML数据。例如

<?php
   $html = file_get_contents("http://google.com");
   $html = str_replace("\n","",$html);
   $get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
   $doctype = $matches[1][0];
?>

其他提示

可以使用$html->find('unknown')。这工作 - 至少 - 在simplehtmldom库的1.11版本。我用它如下所示：

function get_doctype($doc)
{
    $els = $doc->find('unknown');

    foreach ($els as $e => $el) 
        if ($el->parent()->tag == 'root') 
            return $el;

    return NULL;
}

这只是处理可能被发现的任何其他“未知”的元素;我假设第一个将文档类型。如果你想确保它开始与->innertext，虽然你可以明确地检查'!DOCTYPE '。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow