문제

내가 하려고 올라와 방법을 추정하기 위해 영어 단어에서 번역본으로 켜집니다.일본은 세 가지 주요 스크립트-- 한자, 히라가나, 고 가타카나 --각각은 서로 다른 평균 캐릭터를 워드 비율(한자 최저,가타카나 최고).

예제:

  • 컴퓨터:コンピュータ(가타카나이-6 문자);計算機(한자:3 자)
  • whale:くじら(히라가나-- 3 자리);鯨(한자:1 캐릭터)

데이터,나는 큰 용어의 일본어 단어와 영어 번역,상당히 큰 코퍼스의 일치하는 일본의 소스 문서를 영어로 번역.내가 가고 싶어하는 공식 계산됩니다 숫자의 한자,히라가나와 가타카나 문서 원본 텍스트,그리고 추정하는 수은 영어 단어의 이성으로 돌.

도움이 되었습니까?

해결책

나는 것을 시작으로 선형 근사값: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, 으로 계수 a1,a2,a3 에 맞게 데이터를 사용하여 선형 최소한 사각형입니다.

지 않는 경우 대략적인을 아주 잘 다음과 같은 최악의 경우에 대한 이유들이 맞지 않으면(전문 말씀,etc.).

다른 팁

여기에 무엇을 볼랜드(지금은 엠바카데로)에 대해 생각하게 영어를 영어가 아닌:

길이의 영어 string(문자 수)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

나는 생각을 정렬할 수 있습의 적용이(으로 일부 수정)일본을 비-일본.

또 다른 요소를 고려할 수 있는 톤의 언어입니다.영어,지침은 말로 표현으로 명령에서와 같이"OK." 그러나 일본어,명령은 무례로 간주해야 합니다 문구를 지침에서 존경(또는 케이고)"에서와 같이 okボタンを押してください。"

계에 대한 세 글자 한자 콤보.많은의 단어로 번역해 또는 문자를 한자 콤보 등 国際化(국제화:20chars),高可用性(high availability:17 자).

내 경험에 의 번역 및 현지화 전문가,좋은 엄지손가락의 규칙 2 일본 문자는 영어 단어입니다.

로 번역기를 사 일본어와 영어,말할 수 있는 이것은 매우 정량화하기 어려운,그러나 일반적으로 내 경험에 영어로 번역 텍스트에서는 일본이 거의 200%등 많은 문자로 원본 텍스트입니다.일본에서 많은 문화적으로 특정 문구와 명사를 수 없는 문자 그대로 번역해야에서 설명한 영어입니다.번역할 때 그것을 위해 특별한되지 않는 것입니다 내가 한 일본어 문장을 만들어 절 밖으로 하기 위해서는 그것에 대한 의미에게 전달하는 리더입니다.의 상단에 내 다음 예를 참고하십시오.

"懐かしい"

이로 향수.그러나 일본은 그것으로 사용할 수 있는 하나의 문구에 감탄.아직에서,영어 전달하기 위해서 향수의 느낌을 우리는 많은 문맥.예를 들어,필요할 수 있는 단일 문장으로 형:

"내가 걸어 내 초등학교,나는 범람의 추억과 함께 사라졌습니다."라고 말했습니다

이것은 왜 기계 번역 한국어와 영어 사는 것은 불가능합니다.

만,그것은 조금 더 복잡한 그 이상의 문자 수를 명사에 비해 영어,예를 들어,일본 또한 다른 문법 구조를 비교하는 영어를,그래서 특정 문장이 사용하는 것에 더 많은 단어 일본,및 다른 사람을 사용하는 것이 더 적은 단어입니다.난 정말 모르겠어,일본어,그래서 용서해 주십시오를 사용하여 한국 예를 들어 있습니다.

에서 한국어,문장을 종종 보다 짧은 영어 문장,주로는 사실 그들은 짧 컨텍스트를 사용하여하기 위해 단어입니다.예를 들어,"나는 당신을 사랑"같이 있을 수 있으로 짧으로 사랑해("사랑해",단순히 동사는"사랑"),또는 만큼 완전한 자격을 갖춘 문장 저는 당신을 살앙해요(I[항목이][오브젝트]love[동사+예정자].에서는 텍스트가 기록 된 방법에 따라 컨텍스트는 일반적으로 설정하여 이전 문장에서는 단락이다.

어쨌든 가지고,알고리즘을 실제로 알고 이런 종류의 것은 매우 어려운,그래서 당신은 아마 더 나은,그냥을 사용하여 통계입니다.당신이 해야 할 사용하여 임의의 샘플을 어디 알려진 일본어 텍스트,그리고 영어 텍스트가 같은 의미입니다.더 큰 샘플(고 더 많은 무작위는 그것이)더 나은...하지만 그들은 임의로,그것은 많은 차이를 만들 수 없는 방법은 당신이 지난 몇백 있습니다.

이제 다른 것은 이 비율은 변화에 완전히 유형의 텍스트는 번역하고 있습니다.예를 들어,고도의 기술 문서 매우 가능성이 훨씬 더 높은 영어/일본어 길이의 비율보다 물론 멍청 한다.

으로 단순히 사용하는 단어의 사전하는 단어로 번역-는 아마이 작동하지 않습을 잘(아마 잘못).같은 단어 번역되지 않은 같은 단어 모든 시간에서 서로 다른 언어(하지만 훨씬 더 가능성이에서 일어나는 기술적 토론).예를 들어 단어는 아름답습니다.가 있지만 하나 이상의 단어에 할당을에서는 한국인(즉선택이있다),그러나 때때로 내가 잃는 선택에서와 같이,문장(는 음식은 아름다운)여기서 말하는 것이 아닙니 음식은 좋아 보인다.난 그것은 맛 좋은,나의 옵션을 번역하는 단어 변경합니다.이것은 매우 일반적인 상황.

또 다른 큰 문제는 최적의 번역이 있습니다.뭔가하는 인간은 정말 나쁜하고,무언가를하는 컴퓨터는 훨씬 더 나쁘다.때마다 나는 교정하는 문서 번역에서 다른 텍스트 영어,나는 항상 볼 수있는 다양한 방법으로 잘라 그것은 훨씬 짧다.

그렇지만,통계,수있을 것입 밖으로 작동하는 매우 좋은 평균 비율로서 길이 사역이 될 것입니다 지금까지 다른 것보다는 것이었다 모든 번역을 최적입니다.

그것은 간단한 충분은 당신을 찾아 비율.

각 스크립트의 수를 계산하는 스크립트는 문자와 영어 단어에서 당신의 용어집을 작동 비율이 있습니다.

이 증대될 수 있으로 일본의 소스 문서 할 수 있습을 모두 검출하는 스크립트가 일본어 단어와 영 해당하는 구문에 번역이 있습니다.그렇지 않으면 당신은 예상 비율 또는 무시로 원본 데이터

그 후,당신 말대로,세 번호 각 단어의 스크립트의 원본 텍스트,할 곱하고 있어야 합고 쾌적하게 이용하실 수 있습니다.

내(이기는 하지만 작은)경험을 나타내는 것으로 보인,어떤 언어를 텍스트 블록의 동일한 금액을 가지고 인쇄되는 공간을 전하는 해당 정보입니다.그래서,큰 흉내 텍스트의 블록 할당할 수 있습니다 폭을 계산하의 각 문자는 영어(이 잡아서 일반적인 글꼴과 같은 Times New Roman),와 마찬가지로 사용하는 일반적인 일본 글꼴을 동일한 지점에서 크기의 수를 계산하는 캐릭터가 필요할 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top