Аннотация на русском языке: Статья посвящена алгоритму исправления несловарных ошибок в системе статистического машинного перевода. Несловарные ошибки – ошибки в слове, которое ввиду ошибки не является словом как таковым или такое слово не занесено в базу данных. В статье дан подробный разбор формул для вычисления вероятности того, что одно слово будет исправлено на другое, а также обзор четырех видов ошибок: вставка (insertion), замена (substitution), перестановка (transposition); удаление (deletion).
The summary in English: The article is devoted to the algorithm of correcting non-word errors in the system of statistical machine translation. Non-word errors are such errors that occur in a word which is no longer a word by itself because of this error or because of the fact that the database does not familiar with such a word. The article provides a detailed analysis of formulas for calculating the probability that one word will be substituted by another, as well as an overview of four types of errors: insertion, substitution, transposition, deletion.
Ключевые слова:
статистический машинный перевод, несловарные ошибки, вычисление вероятности, формула Байеса, N-граммы
Key words:
Statistical Machine Translation, non-word errors, probability calculation, Bayes' rule, N-grams