Как мне получить содержимое веб-страницы от веб-просмотра?

StackOverflow https://stackoverflow.com/questions/2376471

  •  24-09-2019
  •  | 
  •  

Вопрос

На Android у меня есть WebView это отображает страницу.

Как мне получить источник страницы, не запрашивая страницу снова?

Похоже на то WebView должен иметь какой-то getPageSource() Метод, который возвращает строку, но увы это не так.

Если я включим JavaScript, какой подходящий JavaScript поставить в этот звонок, чтобы получить содержимое?

webview.loadUrl("javascript:(function() { " +  
    "document.getElementsByTagName('body')[0].style.color = 'red'; " +  
    "})()");  
Это было полезно?

Решение

Я знаю, что это поздний ответ, но я нашел этот вопрос, потому что у меня была такая же проблема. Я думаю, что нашел ответ в эта почта на Lexandera.com. Ниже приведен код в основном вырезан и паста с сайта. Кажется, это делает трюк.

final Context myApp = this;

/* An instance of this class will be registered as a JavaScript interface */
class MyJavaScriptInterface
{
    @JavascriptInterface
    @SuppressWarnings("unused")
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

final WebView browser = (WebView)findViewById(R.id.browser);
/* JavaScript must be enabled if you want it to work, obviously */
browser.getSettings().setJavaScriptEnabled(true);

/* Register a new JavaScript interface called HTMLOUT */
browser.addJavascriptInterface(new MyJavaScriptInterface(), "HTMLOUT");

/* WebViewClient must be set BEFORE calling loadUrl! */
browser.setWebViewClient(new WebViewClient() {
    @Override
    public void onPageFinished(WebView view, String url)
    {
        /* This call inject JavaScript into the page which just finished loading. */
        browser.loadUrl("javascript:window.HTMLOUT.processHTML('<head>'+document.getElementsByTagName('html')[0].innerHTML+'</head>');");
    }
});

/* load a web page */
browser.loadUrl("http://lexandera.com/files/jsexamples/gethtml.html");

Другие советы

Нами Выпуск 12987., Ответ в Blundell вылетает (по крайней мере, на моем 2,3 виртуальных машинах). Вместо этого я перехваю вызов Console.log со специальным префиксом:

// intercept calls to console.log
web.setWebChromeClient(new WebChromeClient() {
    public boolean onConsoleMessage(ConsoleMessage cmsg)
    {
        // check secret prefix
        if (cmsg.message().startsWith("MAGIC"))
        {
            String msg = cmsg.message().substring(5); // strip off prefix

            /* process HTML */

            return true;
        }

        return false;
    }
});

// inject the JavaScript on page load
web.setWebViewClient(new WebViewClient() {
    public void onPageFinished(WebView view, String address)
    {
        // have the page spill its guts, with a secret prefix
        view.loadUrl("javascript:console.log('MAGIC'+document.getElementsByTagName('html')[0].innerHTML);");
    }
});

web.loadUrl("http://www.google.com");

Это ответ на основе Jluckyiv's., но я думаю, что лучше и проще изменить JavaScript следующим образом.

browser.loadUrl("javascript:HTMLOUT.processHTML(document.documentElement.outerHTML);");

Вы считаете, что выбираете HTML отдельно, а затем загружать его в веб-просмотр?

String fetchContent(WebView view, String url) throws IOException {
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet get = new HttpGet(url);
    HttpResponse response = httpClient.execute(get);
    StatusLine statusLine = response.getStatusLine();
    int statusCode = statusLine.getStatusCode();
    HttpEntity entity = response.getEntity();
    String html = EntityUtils.toString(entity); // assume html for simplicity
    view.loadDataWithBaseURL(url, html, "text/html", "utf-8", url); // todo: get mime, charset from entity
    if (statusCode != 200) {
        // handle fail
    }
    return html;
}

Мне удалось запустить эту работу, используя код от ответа @ Jluckyiv, но мне пришлось добавить аннотацию @JavascriptInterface в метод ProcessHTML в MyjavaScriptInterface.

class MyJavaScriptInterface
{
    @SuppressWarnings("unused")
    @JavascriptInterface
    public void processHTML(String html)
    {
        // process the html as needed by the app
    }
}

Вам также необходимо аннотировать метод с @JavascriptInterface, если ваша целевая целевая зависимость находится> = 17 - потому что существует новые требования к безопасности в SDK 17, то есть все методы JavaScript должны быть аннотированы с @javascriptinterface. В противном случае вы увидите ошибку, как: uncaught jumpeError: объект [объект объекта] не имеет метода «ProcessHTML» в NULL: 1

Если вы работаете над KITKAT и выше, вы можете использовать инструменты удаленного отладки Chrome, чтобы найти все запросы и ответы, идущие и выходить из вашего веб-просмотра, а также исходный код HTML просмотра страницы.

https://devtoover.chrome.com/devtools/docs/remote-debugging

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top