문제

감지해야 문장의 경계에서 HTML.많은 문장의 경계를 탐지 소프트웨어가 있(java.텍스트입니다.BreakIterator 나 내가 사용하고),그러나 그것의 모든 가정 일반 텍스트입니다.HTML 은 풍부한다는 것,그리고 일부를 포함한 단서를 어디 문니다.

예를 들어, <p>, <ul>/<li>, <td> 과 다른 태그 표시장의 경계를,또는 적어도를 나타내는 말하지 않을 가능성이 확장하는 것입니다. <b>, <i>, <em>, <span>, <a> 그리고 몇 가지 다른 태그 안에 표시됩니다.

은 누구나 알고 있 모든 소프트웨어를 활용하는 HTML 태그에 추가하여,정상적인 NLP 물건을 결정하는 문장의 경계를?

도움이 되었습니까?

해결책

솔루션 구현이었다 1.분할 문서로 별도의 블록에서 모든 html 태그를 제외한 인라인 태그(<i>, <b>, <span>,etc.), 2.스트립 인라인 태그에서 각 블록,3.보에 대한 문장 내에서 각 블록을 사용하여 전통적인 방법입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top