문제

안녕하세요 여러분:나는 다른 사람(각각 약 10 킬로바이트)에 의해 문자의 수백을 처리하기 위해 스탠포드 코렌 엘프 소프트웨어를 사용하고 있습니다.출력을 얻은 후에는 더 처리하고 토큰,문장 및 문자 수준에서 정보를 추가해야합니다.나는 아주 새로운 사람이고 더 많은 처리를 허용하기 위해 스탠포드 코렌에서 파이프 라인 결과를 출력하는 것이 가장 좋은 방법인지 궁금했다.

나는 전형적인 접근 방식이 출력 될 것이라고 추측하고있다.내가 할 경우,나는 그 디스크 공간의 기가 바이트에 대해 걸릴 것으로 추정하고,궁금하다,다음,얼마나 빠르고 쉽게 추가 처리 및 정보의 추가를 위해 자바에 다시 그 많은 엑스 미리리터 를로드하는 것입니다?

다른 방법은 코렌이 생성하는 주석 객체를 직렬화하고 처리를 위해 다시 로드하는 것입니다.장점:추가 처리를 위해 문장 구문 분석 문자열을 트리로 다시 변환하는 방법을 알아낼 필요가 없습니다.단점:주석 객체는 내가 여전히 조작에 매우 거친 해요 객체의 다른 유형을 많이 포함하고 스탠포드 코렌에 이것에 대한 문서는 나에게 슬림 보인다.

도움이 되었습니까?

해결책

이것은 정말로 당신이 나중에 무엇을 하고 싶은지의 문제입니다.직렬화를 수행하는 것은 아마도 가장 간단하고 빠른 접근 방식 일 것입니다.

다른 언어로 읽거나 자신의 데이터 구조로 읽으려면 어떻게해야합니까?

나는 첫 번째 길을 갈 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top