← Блог · 2026-06-23
Почему машинный перевод не справляется со сложными документами
Современный машинный перевод действительно хорош на уровне одного предложения. Сбои начинаются на масштабе всего документа. Именно там и живёт техническая, медицинская и юридическая работа. Ломаются три вещи, и ни одна из них не про грамматику.
1. Терминология «плывёт»
МП переводит предложение за предложением, не помня, что выбрал двумя абзацами выше. Один и тот же термин в разных местах документа выходит по-разному. Реальный пример — немецкий → английский, слово Leistung в двух соседних предложениях спецификации насоса: Google переводит его сначала как «output», потом как «performance» — два разных перевода одного термина от одного движка, причём второй неверен. HardTrans анализирует весь документ целиком и фиксирует: один термин = один перевод.
2. Неправильный регистр
В нормативных документах требования выражаются модальным «shall», а не «must». МП по умолчанию ставит «must» — буквальный модал, уместный в прозе и неверный в спецификации. На документе требований эта подстановка встречается сотни раз и тихо меняет юридический вес каждого пункта.
3. Обозначения не раскрываются
Марка материала вроде 1.4541 остаётся «как есть». Специалист (или глоссарий) приводит её как X6CrNiTi18-10 (AISI 321) — обозначение, которым реально пользуется читатель на языке перевода. У МП нет глоссария — поэтому он так не умеет.
Решение — не «модель получше для предложения»
А чтение всего документа целиком, единая терминология, глоссарий как инвариант и регистр предметной области. Это и делает HardTrans. Те же движки, что «сдаются» на сложном документе, с твитом справляются прекрасно — масштаб разный.
Пример выше — реальная выдача: Google Translate против HardTrans (Claude Sonnet 4.6 с клиентским глоссарием), июнь 2026.
Первый документ — бесплатно