Domanda

Sto cercando di trovare un modo per stimare il numero di parole inglesi in cui si tradurrà una traduzione dal giapponese. Il giapponese ha tre script principali: Kanji , Hiragana e Katakana - e ognuno ha un rapporto carattere / parola medio diverso (Kanji è il più basso, Katakana il più alto).

Esempi:

  • computer: & # 12467; & # 12531; & # 12500; & # 12517; & # 12540; & # 12479; (Katakana - 6 personaggi); & # 35336; & # 31639; & # 27231; (Kanji: 3 caratteri)
  • balena: & # 12367; & # 12376; & # 12425; (Hiragana - 3 caratteri); & # 39912; (Kanji: 1 carattere)

Come dati, ho un grande glossario di parole giapponesi e le loro traduzioni in inglese, e un corpus abbastanza grande di documenti sorgente giapponesi abbinati e le loro traduzioni in inglese. Voglio trovare una formula che conterà il numero di caratteri Kanji, Hiragana e Katakana in un testo sorgente e stimerà il numero di parole inglesi che probabilmente si trasformeranno in.

È stato utile?

Soluzione

Vorrei iniziare con un'approssimazione lineare: approx_english_words = a1 * no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3 , con i coefficienti a1, a2, a3 adattati dai tuoi dati usando i minimi quadrati lineari.

Se questo non si avvicina molto bene, guarda i casi peggiori per i motivi per cui non si adattano (parole specializzate, ecc.).

Altri suggerimenti

Ecco cosa pensa Borland (ora Embarcadero) dall'inglese al non inglese:

Lunghezza della stringa inglese (in caratteri)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Penso che sia possibile applicare questo (con qualche modifica) dal giapponese al non giapponese.

Un altro elemento che potresti voler prendere in considerazione è il tono della lingua. In inglese, le istruzioni sono definite come un imperativo come in " Premi OK. & Quot; Ma in lingua giapponese, gli imperativi sono considerati maleducati e devi pronunciare le istruzioni in onorifico (o keigo) come in " OK ? ? ? ? ? ? ? ? ? ? ?? "

Fai attenzione alle combo kanji di tre lettere. Molte delle parole più grandi si traducono in una combo kanji di tre o quattro lettere come ?? ? (internazionalizzazione: 20 caratteri), ? ??? (alta disponibilità: 17 caratteri).

Nella mia esperienza come traduttore e specialista di localizzazione, una buona regola empirica è di 2 caratteri giapponesi per parola inglese.

Come traduttore esperto tra giapponese e inglese, posso dire che questo è estremamente difficile da quantificare, ma in genere nella mia esperienza il testo inglese tradotto dal giapponese ha quasi il 200% di caratteri rispetto al testo sorgente. In giapponese ci sono molte frasi e sostantivi culturalmente specifici che non possono essere tradotti letteralmente e devono essere spiegati in inglese. Quando traduco non è insolito per me prendere una sola frase giapponese e farne un singolo paragrafo inglese in modo che il significato sia comunicato al lettore. Fuori dalla cima qui c'è un esempio:

& # 12300; & # 25040; & # 12363; & # 12375; & # 12356; & # 12301;

Questo significa letteralmente nostalgico. Tuttavia, in giapponese può essere usato come una singola frase in un punto esclamativo. Tuttavia, in inglese per trasmettere una sensazione di nostalgia abbiamo bisogno di molto più contesto. Ad esempio, potresti dover trasformare quella singola frase in una frase:

" Mentre camminavo vicino alla mia vecchia scuola elementare, sono stato inondato di ricordi del passato. "

Questo è il motivo per cui la traduzione automatica tra giapponese e inglese è impossibile.

Beh, è ??un po 'più complesso del semplice numero di caratteri in un sostantivo rispetto all'inglese, ad esempio, il giapponese ha anche una struttura grammaticale diversa rispetto all'inglese, quindi alcune frasi userebbero PIÙ parole in giapponese e altre usa MENO parole. Non conosco davvero il giapponese, quindi ti prego di perdonarmi per aver usato il coreano come esempio.

In coreano, una frase è spesso più breve di una frase inglese, principalmente a causa del fatto che vengono abbreviati utilizzando il contesto per riempire le parole mancanti. Ad esempio, dicendo " Ti amo " potrebbe essere breve come ??? ("sarang hae", semplicemente il verbo "amore"), o fino a quando la frase pienamente qualificata ?? ?? ? ?? ?? (I [argomento] tu [oggetto] amore [verbo + modificatore gentile ] In un testo il modo in cui è scritto dipende dal contesto, che di solito è impostato da frasi precedenti nel paragrafo.

Ad ogni modo, avere un algoritmo per CONOSCERE effettivamente questo genere di cose sarebbe molto difficile, quindi probabilmente stai molto meglio, usando solo le statistiche. Quello che dovresti fare è usare campioni casuali in cui i testi giapponesi noti e quelli inglesi hanno lo stesso significato. Più grande è il campione (e più casuale è) meglio è ... anche se se sono veramente casuali, non farà molta differenza quanti ne hai superati alcune centinaia.

Ora, un'altra cosa è che questo rapporto cambierebbe completamente sul tipo di testo tradotto. Ad esempio, è molto probabile che un documento altamente tecnico abbia un rapporto lunghezza giapponese / inglese molto più elevato rispetto a un romanzo sdolcinato.

Per quanto riguarda semplicemente l'uso del dizionario delle traduzioni da parola a parola, probabilmente non funzionerà bene (e probabilmente è sbagliato). La stessa parola non si traduce ogni volta nella stessa parola in una lingua diversa (sebbene molto più probabile accada nelle discussioni tecniche). Ad esempio, la parola bella. Non c'è solo più di una parola a cui potrei assegnarlo in coreano (cioè c'è una scelta), ma a volte perdo quella scelta, come nella frase (che il cibo è bello), dove non intendo il cibo sembra bene. Voglio dire, ha un buon sapore e la mia opzione di traduzione per quella parola cambia. E questa è una circostanza MOLTO comune.

Un altro grosso problema è la traduzione ottimale. Qualcosa di cui gli umani sono davvero cattivi e qualcosa in cui i computer sono molto peggio. Ogni volta che ho revisionato un documento tradotto da un altro testo in inglese, posso sempre vedere vari modi per ridurlo molto più breve.

Quindi, anche se, con le statistiche, saresti in grado di elaborare un rapporto medio abbastanza lungo tra le traduzioni, questo sarà molto diverso da come sarebbe se tutte le traduzioni fossero ottimali.

Sembra abbastanza semplice: devi solo scoprire i rapporti.

Per ogni script, conta il numero di caratteri dello script e le parole inglesi nel tuo glossario e calcola il rapporto.

Questo può essere aumentato con i documenti di origine giapponese supponendo che sia sia in grado di rilevare in quale sceneggiatura sia contenuta una parola giapponese sia quale sia la frase equivalente inglese nella traduzione. Altrimenti dovrai indovinare i rapporti o ignorarli come dati di origine,

Quindi, come dici tu, conta il numero di parole in ogni script del testo sorgente, fai le moltiplicazioni e dovresti avere una stima approssimativa.

La mia (seppur minuscola) esperienza sembra indicare che, indipendentemente dalla lingua, i blocchi di testo occupano la stessa quantità di spazio stampato per trasmettere informazioni equivalenti. Quindi, per un blocco di testo di grandi dimensioni, potresti assegnare un conteggio della larghezza a ciascun carattere in inglese (prendilo da un carattere comune come Times New Roman) e allo stesso modo usa un carattere giapponese comune con la stessa dimensione in punti per calcolare il numero di caratteri che sarebbero richiesti.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top