를 추정하기 위한 알고리즘의 수는 영어 번역은 단어에서 일본

https://stackoverflow.com/questions/145190

02-07-2019
|

문제

내가 하려고 올라와 방법을 추정하기 위해 영어 단어에서 번역본으로 켜집니다.일본은 세 가지 주요 스크립트-- 한자, 히라가나, 고 가타카나 --각각은 서로 다른 평균 캐릭터를 워드 비율(한자 최저,가타카나 최고).

예제:

컴퓨터:コンピュータ(가타카나이-6 문자);計算機(한자:3 자)
whale:くじら(히라가나-- 3 자리);鯨(한자:1 캐릭터)

데이터,나는 큰 용어의 일본어 단어와 영어 번역,상당히 큰 코퍼스의 일치하는 일본의 소스 문서를 영어로 번역.내가 가고 싶어하는 공식 계산됩니다 숫자의 한자,히라가나와 가타카나 문서 원본 텍스트,그리고 추정하는 수은 영어 단어의 이성으로 돌.

해결책

나는 것을 시작으로 선형 근사값: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, 으로 계수 a1,a2,a3 에 맞게 데이터를 사용하여 선형 최소한 사각형입니다.

지 않는 경우 대략적인을 아주 잘 다음과 같은 최악의 경우에 대한 이유들이 맞지 않으면(전문 말씀,etc.).

다른 팁

여기에 무엇을 볼랜드(지금은 엠바카데로)에 대해 생각하게 영어를 영어가 아닌:

길이의 영어 string(문자 수)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

나는 생각을 정렬할 수 있습의 적용이(으로 일부 수정)일본을 비-일본.

또 다른 요소를 고려할 수 있는 톤의 언어입니다.영어,지침은 말로 표현으로 명령에서와 같이"OK." 그러나 일본어,명령은 무례로 간주해야 합니다 문구를 지침에서 존경(또는 케이고)"에서와 같이 okボタンを押してください。"

계에 대한 세 글자 한자 콤보.많은의 단어로 번역해 또는 문자를 한자 콤보 등 国際化(국제화:20chars),高可用性(high availability:17 자).

내 경험에 의 번역 및 현지화 전문가,좋은 엄지손가락의 규칙 2 일본 문자는 영어 단어입니다.

로 번역기를 사 일본어와 영어,말할 수 있는 이것은 매우 정량화하기 어려운,그러나 일반적으로 내 경험에 영어로 번역 텍스트에서는 일본이 거의 200%등 많은 문자로 원본 텍스트입니다.일본에서 많은 문화적으로 특정 문구와 명사를 수 없는 문자 그대로 번역해야에서 설명한 영어입니다.번역할 때 그것을 위해 특별한되지 않는 것입니다 내가 한 일본어 문장을 만들어 절 밖으로 하기 위해서는 그것에 대한 의미에게 전달하는 리더입니다.의 상단에 내 다음 예를 참고하십시오.

"懐かしい"

이로 향수.그러나 일본은 그것으로 사용할 수 있는 하나의 문구에 감탄.아직에서,영어 전달하기 위해서 향수의 느낌을 우리는 많은 문맥.예를 들어,필요할 수 있는 단일 문장으로 형:

"내가 걸어 내 초등학교,나는 범람의 추억과 함께 사라졌습니다."라고 말했습니다

이것은 왜 기계 번역 한국어와 영어 사는 것은 불가능합니다.

만,그것은 조금 더 복잡한 그 이상의 문자 수를 명사에 비해 영어,예를 들어,일본 또한 다른 문법 구조를 비교하는 영어를,그래서 특정 문장이 사용하는 것에 더 많은 단어 일본,및 다른 사람을 사용하는 것이 더 적은 단어입니다.난 정말 모르겠어,일본어,그래서 용서해 주십시오를 사용하여 한국 예를 들어 있습니다.

에서 한국어,문장을 종종 보다 짧은 영어 문장,주로는 사실 그들은 짧 컨텍스트를 사용하여하기 위해 단어입니다.예를 들어,"나는 당신을 사랑"같이 있을 수 있으로 짧으로 사랑해("사랑해",단순히 동사는"사랑"),또는 만큼 완전한 자격을 갖춘 문장 저는 당신을 살앙해요(I[항목이][오브젝트]love[동사+예정자].에서는 텍스트가 기록 된 방법에 따라 컨텍스트는 일반적으로 설정하여 이전 문장에서는 단락이다.

어쨌든 가지고,알고리즘을 실제로 알고 이런 종류의 것은 매우 어려운,그래서 당신은 아마 더 나은,그냥을 사용하여 통계입니다.당신이 해야 할 사용하여 임의의 샘플을 어디 알려진 일본어 텍스트,그리고 영어 텍스트가 같은 의미입니다.더 큰 샘플(고 더 많은 무작위는 그것이)더 나은...하지만 그들은 임의로,그것은 많은 차이를 만들 수 없는 방법은 당신이 지난 몇백 있습니다.

이제 다른 것은 이 비율은 변화에 완전히 유형의 텍스트는 번역하고 있습니다.예를 들어,고도의 기술 문서 매우 가능성이 훨씬 더 높은 영어/일본어 길이의 비율보다 물론 멍청 한다.

으로 단순히 사용하는 단어의 사전하는 단어로 번역-는 아마이 작동하지 않습을 잘(아마 잘못).같은 단어 번역되지 않은 같은 단어 모든 시간에서 서로 다른 언어(하지만 훨씬 더 가능성이에서 일어나는 기술적 토론).예를 들어 단어는 아름답습니다.가 있지만 하나 이상의 단어에 할당을에서는 한국인(즉선택이있다),그러나 때때로 내가 잃는 선택에서와 같이,문장(는 음식은 아름다운)여기서 말하는 것이 아닙니 음식은 좋아 보인다.난 그것은 맛 좋은,나의 옵션을 번역하는 단어 변경합니다.이것은 매우 일반적인 상황.

또 다른 큰 문제는 최적의 번역이 있습니다.뭔가하는 인간은 정말 나쁜하고,무언가를하는 컴퓨터는 훨씬 더 나쁘다.때마다 나는 교정하는 문서 번역에서 다른 텍스트 영어,나는 항상 볼 수있는 다양한 방법으로 잘라 그것은 훨씬 짧다.

그렇지만,통계,수있을 것입 밖으로 작동하는 매우 좋은 평균 비율로서 길이 사역이 될 것입니다 지금까지 다른 것보다는 것이었다 모든 번역을 최적입니다.

그것은 간단한 충분은 당신을 찾아 비율.

각 스크립트의 수를 계산하는 스크립트는 문자와 영어 단어에서 당신의 용어집을 작동 비율이 있습니다.

이 증대될 수 있으로 일본의 소스 문서 가 할 수 있습을 모두 검출하는 스크립트가 일본어 단어와 영 해당하는 구문에 번역이 있습니다.그렇지 않으면 당신은 예상 비율 또는 무시로 원본 데이터

그 후,당신 말대로,세 번호 각 단어의 스크립트의 원본 텍스트,할 곱하고 있어야 합고 쾌적하게 이용하실 수 있습니다.

내(이기는 하지만 작은)경험을 나타내는 것으로 보인,어떤 언어를 텍스트 블록의 동일한 금액을 가지고 인쇄되는 공간을 전하는 해당 정보입니다.그래서,큰 흉내 텍스트의 블록 할당할 수 있습니다 폭을 계산하의 각 문자는 영어(이 잡아서 일반적인 글꼴과 같은 Times New Roman),와 마찬가지로 사용하는 일반적인 일본 글꼴을 동일한 지점에서 크기의 수를 계산하는 캐릭터가 필요할 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow