Pergunta

Eu estou tentando chegar a uma forma de estimar o número de palavras em Inglês tradução do japonês vai se transformar em. Japonês tem três roteiros principais - Kanji , Hiragana e Katakana -. e cada um tem uma taxa média de caráter diferente-a-palavra (Kanji sendo o mais baixo, Katakana o mais alto)

Exemplos:

  • computador: ? ? ? ? ? ? (Katakana - 6 personagens);??? (Kanji: 3 caracteres)
  • baleia: ? ? ? (Hiragana - 3 caracteres);? (Kanji: 1 personagem)

Como os dados, eu tenho um grande glossário de palavras japonesas e suas traduções para o inglês, e uma bastante grande corpus de documentos de origem japonesa combinados e suas traduções para o inglês. Eu quero chegar a uma fórmula que vai contar o número de Kanji, Hiragana e Katakana caracteres em um texto de origem, e estimar o número de palavras em Inglês este é susceptível de se transformar em.

Foi útil?

Solução

Gostaria de começar com aproximação linear: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, com os coeficientes a1, a2, a3 ajuste de seus dados usando linear dos mínimos quadrados.

Se isto não se aproxima muito bem, em seguida, olhar para os casos mais graves para as razões que não cabem (palavras especializadas, etc.).

Outras dicas

Aqui está o que Borland (agora Embarcadero) pensa em Inglês para não-Inglês:

comprimento de corda Inglês (em caracteres)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Eu acho que você pode classificar de aplicar esta (com algumas modificações) para japonês a não-japonês.

Outro elemento que você pode querer considerar é o tom da linguagem. Em Inglês, as instruções são formuladas como um imperativo como em "Pressione OK." Mas, na língua japonesa, imperativos são considerados rude, e você deve instruções frase em honorífico (ou keigo) como em "OK ? ? ? ? ? ? ? ? ? ? ?."

Cuidado com as três letras kanji combos. Muitos dos grandes palavras se traduzem em três ou quatro letras kanji combinação tais como ?? ? (internacionalização: 20 caracteres), ? ??? (alta disponibilidade: 17 caracteres).

Em minha experiência como tradutor e localização especialista, uma boa regra de ouro é de 2 caracteres japoneses por palavra Inglês.

Como um tradutor experiente entre Japonês e Inglês, posso dizer que este é extremamente difícil de quantificar, mas normalmente na minha experiência Inglês texto traduzido do japonês é quase 200% maior número de personagens como o texto de origem. Em japonês existem muitas frases e nomes culturalmente específicas que não podem ser traduzidas literalmente e necessidade de ser explicado em Inglês. Ao traduzir não é incomum para mim tomar uma única frase japonesa e fazer um único parágrafo Inglês fora dele para que o significado de ser comunicada ao leitor. Em cima da minha aqui está um exemplo:

?? ? ? ??

Este significa literalmente nostálgico. No entanto, em japonês pode ser usado como uma única frase em uma exclamação. No entanto, em Inglês, a fim de transmitir uma sensação de nostalgia que exigem muito mais contexto. Por exemplo, pode ser necessário para transformar essa única frase em uma frase:

"Enquanto eu caminhava pela minha antiga escola primária, eu fui inundado com as memórias do passado."

É por isso que a tradução automática entre Japonês e Inglês é impossível.

Bem, é um pouco mais complexo do que apenas o número de caracteres em um substantivo em relação ao Inglês, por exemplo, japonês também tem uma estrutura gramatical diferente em comparação com Inglês, então certas frases usaria mais palavras em japonês, e outros o fariam usar palavras menos. Eu realmente não sei japonês, então por favor, perdoe-me por usar coreana como um exemplo.

Em coreano, uma frase é muitas vezes menor do que uma frase Inglês, principalmente devido ao fato de que eles são cortados usando contexto para preencher as palavras que faltam. Por exemplo, dizer "eu te amo" pode ser tão curto quanto ??? ( "sarang hae", simplesmente o verbo "amor"), ou enquanto a sentença totalmente qualificado ?? ?? ? ?? ?? (I [tema] você [objeto ] amor [verbo + modificador educado]. em um texto como está escrito depende do contexto, o que é geralmente definida por sentenças no início do parágrafo.

De qualquer forma, ter um algoritmo para realmente conhecer este tipo de coisa seria muito difícil, então provavelmente você está muito melhor, apenas usando estatísticas. O que você deve fazer é usar amostras aleatórias, onde os textos japoneses conhecidos e textos ingleses têm o mesmo significado. Quanto maior for a amostra (e quanto mais aleatório que é) o melhor ... mas se eles são verdadeiramente aleatório, não vai fazer muita diferença quantas você tem passado algumas centenas.

Agora, outra coisa é esta relação mudaria completamente o tipo de texto que está sendo traduzido. Por exemplo, documento altamente técnico é bastante provável ter uma muito maior relação comprimento Japonês / Inglês do que um romance sentimental.

Quanto simplesmente usando seu dicionário da palavra traduções de palavras para - que provavelmente não vai funcionar para o bem (e provavelmente está errado). A mesma palavra não traduz a mesma palavra de cada vez em um idioma diferente (embora muito mais provável de acontecer em discussões técnicas). Por exemplo, a palavra bonita. Não há apenas mais de uma palavra que eu poderia atribuir-lhe no coreano (ou seja, não é uma escolha), mas às vezes eu perco essa escolha, como na frase (que comida é muito bonito), onde eu não quero dizer a comida parece Boa. Quero dizer o gosto é bom, e minha opção de traduções para essa palavra alterações. E esta é uma circunstância muito comum.

Outro grande problema é a tradução ideal. Algo que de humanos são realmente ruim, e algo que os computadores são muito, muito pior no. Sempre que eu revisar um documento traduzido a partir de outro texto para Inglês, eu sempre pode ver várias formas de cortá-la muito, muito mais curto.

Assim, embora, com estatísticas, você seria capaz de elaborar uma boa relação média muito de comprimento entre traduções, isso vai ser muito diferente do que seria foram a todas as traduções de ser ideal.

Parece bastante simples -. Você só precisa descobrir as razões

Para cada roteiro, contar o número de caracteres de script e palavras em inglês no seu glossário e trabalho fora da relação.

Isto pode ser aumentada com os documentos de origem japonesa assumindo você pode detectar tanto que script de uma palavra japonesa está dentro e o que a frase equivalente Inglês é na tradução. Caso contrário, você vai ter que guesstimate os rácios ou ignorar isso como fonte de dados,

Então, como você diz, contar o número de palavras em cada roteiro de seu texto fonte, fazer os multiplica, e você deve ter uma estimativa aproximada.

O meu (embora pequena) experiência parece indicar que, não importa o que a língua, blocos de texto ter a mesma quantidade de espaço impresso para transmitir informação equivalente. Assim, para um bloco grande ish de texto, você pode atribuir uma largura de contagem para cada personagem em Inglês (agarrar esta de uma fonte comum, como Times New Roman), e também usar uma fonte japonesa comum no mesmo tamanho de ponto para calcular o número de caracteres que seriam necessários.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top