가능한 영어 단어 경계에 문자열을 분할합니다

https://stackoverflow.com/questions/2258588

text-analysis

20-09-2019
|

문제

나는 최근에 Adobe Acrobat Pro의 OCR 기능을 사용하여 일본 칸 지 사전을 처리했습니다. 출력의 전반적인 품질은 일반적으로 내가 기대했던 것보다 상당히 낫지 만 텍스트의 영어 부분의 단어 경계는 종종 손실되었습니다. 예를 들어 내 파일의 한 줄이 있습니다.

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

나는 돌아 다니며 누락 된 단어 경계를 어디에나 삽입 할 수 있지만, 이것은 이미 실질적인 작업에 추가 될 것입니다. 나는 이와 같은 텍스트를 분석 할 수있는 소프트웨어, 일부 단어가 함께 실행되고 가능한 단어 경계에 텍스트를 나눌 수 있기를 바라고 있습니다. 그런 패키지가 있습니까?

나는 EMACS를 사용하고 있으므로 문제의 패키지가 이미 EMACS 패키지이거나 EMAC에 쉽게 통합 될 수 있으므로 위의 커서를 위와 같은 줄에 올려 놓고 일부를 반복적으로 호출 할 수 있다면 더 달콤합니다. 가능한 정확성의 순서가 줄어든 단어 경계의 선을 분할하는 명령.

해결책 2

나도 아무것도 찾을 수 없었고 결국 더 많이 대화식 접근.

다른 팁

나는 이미 존재하는 것을 알지 못합니다.

가장 간단한 방법은 단순히 사전에 문자열에 포함 된 가장 긴 단어 세트와 일치하는 것입니다. 물론 많은 단어가있을 수 있으므로 모든 조합과 순열을 계획해야합니다. 이런 식으로 수행하는 것은 계산 비용이 많이 들지만 상당히 빠르게 작성합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow