О проекте
В 2012–2014 годах Вильнюсский университет реализовал проект "Разработка англо-литовско-английской и французско-литовско-французской систем машинного перевода на основе статистических методов", который финансировался структурными фондами Европейского союза. Была создана система машинного перевода (МТ) ALPMAVIS, и статистический МТ-сервис (https://www.versti.eu/) стал доступен для широкого пользования, в частности через интегрированную информационную систему ресурсов литовского языка и письменности Raštija.lt (www.raštija.lt). Создание и развитие систем машинного перевода – это интеллектуальный вызов современности, представляющий интерес не только для академического сообщества, но и в целом для общества, которое пользуется передовыми информационными технологиями. В 2013 году для машинного перевода (МТ) стали использовать искусственные нейронные сети, а идея применения для их вычисления графических процессоров открыла возможности для решения реальных задач, в том числе и машинного перевода. В нейронной сети МТ работают миллионы искусственных нейронов; машинный перевод все больше ассоциируется с развитием искусственного интеллекта, а качество перевода все больше приближается к человеческому.
Эти новые возможности привели к усовершенствованию системы машинного перевода Вильнюсского университета. Проектная группа, возглавляемая доктором Арунасом Самуилисом, завершила новый проект "Усовершенствование и развитие систем машинного перевода и сервисов локализации" и создала новую открытую и свободную среду перевода. Были проделаны следующие работы:
-
Для повышения качества уже существовавших систем МТ были разработаны новые технологии и дополнительные лингвистические ресурсы.
- Новые разработанные решения интегрированы в инфраструктуру машинного перевода Вильнюсского университета, что позволило системе MT автоматически учиться на результатах перевода, отредактированного пользователями. Эта функция позволяет получать более точные результаты МТ при каждом редактировании перевода. Особенно важно, чтобы преимущества такого функционала сразу почувствовали пользователи, которые переводят и редактируют тексты (не будет необходимости в отдельных системных обучающих процессах, которые занимают очень много времени).
- Для повышения качества предыдущей системы МТ были разработаны, обработаны и пересмотрены дополнительные лингвистические ресурсы (тексты и словари, списки терминов, литовский тезаурус, инструменты предварительного редактирования, методы контролируемого языка и т.д.).
- В целях универсальности и более широкого применения системы перевода (в том числе и для профессиональной работы) формируемый перевод текста был дополнен функцией более точного словарного перевода отдельных слов и фраз.
- При сборе и обработке лингвистических ресурсов особое внимание уделялось текстам в области медицины, права и коммуникаций.
- Для офисных пакетов OpenOffice/LibreOffice разработан плагин MT, который умеет взаимодействовать с системой машинного перевода www.versti.eu и переводить тексты пользователей.
- Использованы технологии, основанные на нейронных сетях, и созданы возможности их использования для повышения качества существующих систем МТ.
- В нынешней инфраструктуре установлены следующие направления машинного перевода: литовско-английский-литовский, литовско-французский-литовский, литовско-польский-литовский, литовско-русский-литовский и литовско-немецкий-литовский. Такие языковые пары отобраны исходя из реальных потребностей общества.
- Инфраструктура МТ адаптирована для электронного правительства, поскольку решения и инструменты МТ должны быть не только общедоступны для пользователей, но и легко модифицируемы под сервисы электронного государства. Созданы программы, работающие на компьютере клиента и/или сервере, которые способны переводить и выдавать на выбранном языке информацию, предоставляемую учреждениями, оказывающими услуги электронного государства (например, epaslaugos.lt). Кроме того, были разработаны и интегрированы в сервис тематические системы МТ. Было подготовлено развертывание инфраструктуры для оказания электронных услуг МТ.
В платформу машинного перевода внедрены решения по распознаванию и синтезу речи, созданные в рамках проекта ВУ "Разработка литовских речевых управляемых сервисов – LIEPA 2". Это позволяет пользователям www.versti.eu надиктовать текст на литовском языке, откорректировать его, перевести на нужные языки, прослушать, исправить переведенный текст и передать по другим каналам связи (например, в текстовый редактор, по электронной почте, социальным сетям).