Технологии: Travatar, Moses, EDA, KyTea, Python
Длительность: 1 год
Целью проекта было создание переводчика рекламных текстов с японского на русский язык. Для этого мы выбрали статистическую модель перевода, основанную на сравнении большого массива параллельных текстов. Они были получены от службы вопросов и ответов (вопросы на русском переведенные на японский) и использовались в качестве клиентских текстов. Мы также использовали несколько статистических переводчиков, таких как Travatar и Moses. В дальнейшем был использован Travatar, так как он показал более качественный перевод, исходя из объективных метрик. Одной из ключевых проблем, с которыми мы столкнулись, было низкое качество перевода и отсутствие выравнивания на уровне предложений. Для его выравнивания был разработан статистический алгоритм, работающий с поиском ближайших высказываний на основе словаря n-грамм.