웹 페이지에서 HTML을 스트립하고 단어 빈도를 계산 하시겠습니까?

https://stackoverflow.com/questions/207404

03-07-2019
|

문제

Groovy에서는 웹 페이지를 잡고 HTML 태그 등을 제거하고 문서의 텍스트 만 남기는 방법은 무엇입니까? 단어 주파수 카운터를 만들 수 있도록 결과가 컬렉션에 덤프를 원합니다.

마지막으로 Groovy 에서이 작업을하고 싶다고 다시 언급하겠습니다.

해결책

Groovy (그루비 태그를 기준으로 추측) 로이 작업을 수행하고 싶다고 가정하면 접근 방식은 쉘 스크립트 지향 또는 Java 라이브러리를 사용하는 것 같습니다. 쉘 스크립팅의 경우 나는 Moogs에 동의 할 것입니다. Lynx 또는 Elinks를 사용하는 것이 아마도 가장 쉬운 방법 일 것입니다. 그렇지 않으면 살펴보십시오 htmlparser 그리고 봐라 파일의 모든 단어를 처리합니다 (관련 코드 스 니펫을 찾으려면 아래로 스크롤)

당신은 아마도 HTML 구문 분석에 그루비와 함께 사용하기 위해 Java Libs를 찾는 데 갇혀있을 것입니다. Groovy를 사용하지 않는다면 원하는 언어를 게시하십시오. 텍스트 도구에 대한 HTML 무엇을하고 있는지, 당신이 일하는 언어에 따라.

다른 팁

HTML에서 토큰 화 된 단어 모음을 원한다면 XML (유효한 XML이어야 함)처럼 구문 분석하고 태그 사이의 모든 텍스트를 가져 오십시오. 이와 같은 것은 어떻습니까 :

def records = new XmlSlurper().parseText(YOURHTMLSTRING)
def allNodes = records.depthFirst().collect{ it }
def list = []
allNodes.each {
    it.text().tokenize().each {
        list << it
    }
}

당신은 사용할 수 있습니다 Lynx 웹 브라우저 문서 텍스트를 뱉어 내고 저장합니다.

이 작업을 자동으로 하시겠습니까? 이를 수행하는 별도의 응용 프로그램을 원하십니까? 아니면 응용 프로그램에 코딩하는 데 도움이됩니까? 어떤 플랫폼 (Windows 데스크탑, 웹 서버 등)이 실행됩니까?

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow