문장의 경계 검출 HTML
-
11-12-2019 - |
문제
감지해야 문장의 경계에서 HTML.많은 문장의 경계를 탐지 소프트웨어가 있(java.텍스트입니다.BreakIterator 나 내가 사용하고),그러나 그것의 모든 가정 일반 텍스트입니다.HTML 은 풍부한다는 것,그리고 일부를 포함한 단서를 어디 문니다.
예를 들어, <p>, <ul>/<li>, <td>
과 다른 태그 표시장의 경계를,또는 적어도를 나타내는 말하지 않을 가능성이 확장하는 것입니다. <b>, <i>, <em>, <span>, <a>
그리고 몇 가지 다른 태그 안에 표시됩니다.
은 누구나 알고 있 모든 소프트웨어를 활용하는 HTML 태그에 추가하여,정상적인 NLP 물건을 결정하는 문장의 경계를?
해결책
솔루션 구현이었다 1.분할 문서로 별도의 블록에서 모든 html 태그를 제외한 인라인 태그(<i>
, <b>
, <span>
,etc.), 2.스트립 인라인 태그에서 각 블록,3.보에 대한 문장 내에서 각 블록을 사용하여 전통적인 방법입니다.
제휴하지 않습니다 StackOverflow