Алгоритм оценки количества английских слов перевода из японского источника

StackOverflow https://stackoverflow.com/questions/145190

Вопрос

Я пытаюсь придумать способ оценить количество английских слов, в которые превратится перевод с японского.В японском языке есть три основных сценария: Кандзи, Хирагана, и Катакана — и у каждого из них разное среднее соотношение символов к словам (кандзи — самое низкое, катакана — самое высокое).

Примеры:

  • компьютер:コンピュータ (Катакана - 6 персонажей);計算機 (Кандзи:3 символа)
  • кит:くじら (Хирагана - 3 персонажа);鯨 (Кандзи:1 персонаж)

В качестве данных у меня есть большой словарь японских слов и их английских переводов, а также довольно большой корпус соответствующих японских исходных документов и их английских переводов.Я хочу придумать формулу, которая будет подсчитывать количество символов кандзи, хираганы и катаканы в исходном тексте и оценивать количество английских слов, в которые это может превратиться.

Это было полезно?

Решение

Я бы начал с линейной аппроксимации: approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3, с коэффициентами a1, a2, a3, подобранными из ваших данных с использованием линейного метода наименьших квадратов.

Если это не очень хорошо аппроксимируется, рассмотрите худшие случаи по причинам, по которым они не подходят (специализированные слова и т. д.).

Другие советы

Вот что думает компания Borland (теперь Embarcadero) о переводе с английского на неанглийский:

Длина английской строки (в символах)

Expected increase
1-5      100%
6-12      80%
13-20     60%
21-30     40%
31-50     20%
over 50   10%

Я думаю, вы можете применить это (с некоторыми изменениями) для японцев к неяпонцам.

Еще один элемент, который вы, возможно, захотите принять во внимание, — это тон языка.На английском языке инструкции сформулированы как императив, как в «Нажмите ОК». Но на японском языке императивы считаются грубыми, и вы должны формулировать инструкции в почетном (или Keigo), как в «OK ボタン 押し て ください。»

Остерегайтесь трехбуквенных комбинаций кандзи.Многие громкие слова переводятся в комбинации трех- или четырехбуквенных кандзи, например 国際化 (интернационализация:20 символов), 高可用性(высокая доступность:17 символов).

По моему опыту переводчика и специалиста по локализации, хорошее практическое правило — два японских символа на одно английское слово.

Как опытный переводчик между японским и английским языками, я могу сказать, что это чрезвычайно сложно оценить количественно, но, по моему опыту, обычно английский текст, переведенный с японского, содержит почти на 200% больше символов, чем исходный текст.В японском языке есть много культурно специфичных фраз и существительных, которые невозможно перевести буквально и их необходимо объяснять на английском языке.При переводе для меня нет ничего необычного в том, чтобы взять одно японское предложение и сделать из него один английский абзац, чтобы смысл был передан читателю.В верхней части моего примера приведен пример:

「懐かしい」

В буквальном смысле это означает ностальгия.Однако в японском языке его можно использовать как одну фразу в восклицании.Однако в английском языке, чтобы передать чувство ностальгии, нам требуется гораздо больше контекста.Например, вам может потребоваться превратить эту единственную фразу в предложение:

«Когда я проходил мимо своей старой начальной школы, меня переполняли воспоминания о прошлом».

Вот почему машинный перевод между японским и английским языками невозможен.

Ну, это немного сложнее, чем просто количество символов в существительном по сравнению с английским, например, японский язык также имеет другую грамматическую структуру по сравнению с английским, поэтому в некоторых предложениях на японском языке будет использоваться БОЛЬШЕ слов, а в других - МЕНЬШЕ слов. .Я на самом деле не знаю японского языка, поэтому, пожалуйста, простите меня за то, что я использую корейский в качестве примера.

В корейском языке предложение часто короче, чем в английском, главным образом потому, что оно сокращается за счет использования контекста для заполнения пропущенных слов.Например, фраза «Я люблю тебя» может быть как короткой, как 사랑해 («саранг хэ», просто глагол «любить»), так и полной фразой 저는 당신을 살앙해요 (я [тема] ты [объект ] люблю [глагол + модификатор вежливости].В тексте то, как оно написано, зависит от контекста, который обычно задается предыдущими предложениями абзаца.

В любом случае, иметь алгоритм, позволяющий ЗНАТЬ такие вещи, было бы очень сложно, поэтому вам, вероятно, будет гораздо лучше, просто используя статистику.Вам следует использовать случайные выборки, в которых известные японские и английские тексты имеют одинаковое значение.Чем больше выборка (и чем более случайна она), тем лучше...хотя, если они действительно случайны, не будет иметь большого значения, сколько из них вы превысите несколько сотен.

Другое дело, что это соотношение будет полностью меняться в зависимости от типа переводимого текста.Например, высокотехнологичный документ, скорее всего, будет иметь гораздо более высокое соотношение длины на японском и английском языках, чем сентиментальный роман.

Что касается простого использования словаря с дословным переводом - это, вероятно, не сработает (и, вероятно, неправильно).Одно и то же слово не переводится каждый раз как одно и то же слово на другом языке (хотя это гораздо чаще случается в технических дискуссиях).Например, слово красивый.В корейском языке я мог бы приписать его не только нескольким словам (т.выбор есть), но иногда я теряю этот выбор, как в предложении (что еда прекрасна), где я не имею в виду, что еда выглядит хорошо.Я имею в виду, что оно имеет приятный вкус, и мой вариант перевода этого слова меняется.И это ОЧЕНЬ распространенное обстоятельство.

Еще одна большая проблема — оптимальный перевод.Что-то, в чем люди действительно плохи, и что-то, в чем компьютеры намного хуже.Всякий раз, когда я корректирую документ, переведенный с другого текста на английский, я всегда вижу различные способы сократить его.

Таким образом, хотя с помощью статистики вы сможете определить довольно хорошее среднее соотношение длины между переводами, оно будет сильно отличаться от того, которое было бы, если бы все переводы были оптимальными.

Кажется, все достаточно просто – нужно лишь узнать соотношения.

Для каждого сценария подсчитайте количество символов письма и английских слов в вашем глоссарии и определите соотношение.

Это может быть дополнено японскими исходными документами. предполагая вы можете определить, в каком письме написано японское слово, и какова английская эквивалентная фраза в переводе.В противном случае вам придется угадывать соотношения или игнорировать их как исходные данные.

Затем, как вы говорите, подсчитайте количество слов в каждом сценарии исходного текста, умножьте и получите приблизительную оценку.

Мой (хотя и небольшой) опыт, похоже, показывает, что независимо от языка блоки текста занимают одинаковое количество печатного пространства для передачи эквивалентной информации.Таким образом, для большого блока текста вы можете назначить счетчик ширины каждому символу на английском языке (взять его из обычного шрифта, такого как Times New Roman), а также использовать общий японский шрифт того же размера для расчета ширины. необходимое количество символов.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top