提取与simple_html_dom DOCTYPE
-
21-09-2019 - |
题
我使用 simple_html_dom
以解析网站。
有一种方法来提取的文档类型?
解决方案
您可以使用file_get_contents
函数从网站获得的所有的HTML数据。
例如
<?php
$html = file_get_contents("http://google.com");
$html = str_replace("\n","",$html);
$get_doctype = preg_match_all("/(<!DOCTYPE.+\">)<html/i",$html,$matches);
$doctype = $matches[1][0];
?>
其他提示
可以使用$html->find('unknown')
。这工作 - 至少 - 在simplehtmldom库的1.11版本。我用它如下所示:
function get_doctype($doc)
{
$els = $doc->find('unknown');
foreach ($els as $e => $el)
if ($el->parent()->tag == 'root')
return $el;
return NULL;
}
这只是处理可能被发现的任何其他“未知”的元素;我假设第一个将文档类型。如果你想确保它开始与->innertext
,虽然你可以明确地检查'!DOCTYPE '
。
不隶属于 StackOverflow