Беларуская мова99

Нейросети все еще спотыкаются на белорусской речи. Белорусы хотят подарить искусственному интеллекту идеальный голос

Технологии синтеза речи стремительно захватывают мир, но синтезированный белорусский язык до сих пор звучит с ощутимыми дефектами. Даже самые продвинутые модели спотыкаются на наших ударениях и фонетике. Белорусы запустили проект Sonora по созданию первого студийного датасета, который должен навсегда изменить звучание цифрового белорусского языка.

Студия звукозаписи. Иллюстративный снимок. Фото: Freepik / DC Studio

Важный технологический прорыв в синтезе белорусской речи произошел еще весной 2025 года, благодаря внедрению корпорацией Google своей новой модели Gemini, которая научилась качественно распознавать белорусскую речь (STT — Speech-to-Text), благодаря чему, например, на ютубе наконец появились автоматические белорусскоязычные субтитры.

Этому во многом поспособствовали сами белорусы через волонтерский проект Donar.by, собрав тысячи часов живых голосов.

Благодаря этой гигантской базе данных, сегодня именно голос от Google является наиболее близким к правильному звучанию белорусского языка. Модель хорошо понимает контекст и имеет огромный словарный запас, оставляя далеко позади конкурентов из OpenAI или ElevenLabs, чьи попытки заговорить по-белорусски далеки от естественной речи.

Но распознать речь — это только половина дела. Когда же нейросети приходится самой озвучивать текст (TTS — Text-to-Speech), она систематически ошибается в редко используемых словах и не может справиться с омографами — словами, которые пишутся одинаково, но имеют разный смысл в зависимости от ударения.

Когда вместо правильного «спарыша́мі» искусственный интеллект уверенно выдает «спары́шамі», это сразу выдает его синтетическую природу для носителя языка. Сам носитель может и не знать значение слова, не знать где в нем ставится ударение, но языковая интуиция ему подсказывает, что что-то не то.

К тому же такие ошибки, пусть и редкие в моделях Google, оказывают медвежью услугу тем, кто только начинает осваивать белорусский язык, закрепляя искаженное произношение.

Добавьте сюда проблемы с передачей мягкости согласных, специфическим звучанием «ў», аффрикатами «дз» и «дж» — слушать и воспринимать длинные тексты в таком исполнении пока физически тяжело.

Голос из пробирки

Проблема не в том, что алгоритмы недостаточно умны — в случае с белорусским языком им просто не на чем учиться. Чтобы искусственный интеллект усвоил правильную интонацию, ритм и ударения, ему недостаточно аудио с ютуба или подкастов, где качество звука всегда разное, а дикция людей несовершенна.

Для создания естественного синтезированного голоса требуется специальный, кристально чистый студийный датасет. Это тысячи часов профессиональной начитки, где тексты специально сконструированы лингвистами таким образом, чтобы охватить все возможные фонетические сочетания и показать модели, как правильно ставить ударения в сложных контекстах. Сегодня в мире просто не существует такого открытого массива данных для белорусского языка.

Именно эту пустую нишу и собирается заполнить проект Sonora. Это волонтерская инициатива, которую продвигают проектный менеджер Анна Маклакова, инженер-лингвист Владислав, команда разработчиков TuteishyGPT и ряд специалистов, чьи имена не называются из соображений безопасности. Их цель — не создать закрытый коммерческий продукт, а сделать фундаментальную базу, которую смогут использовать все.

Как хотят сделать идеальный голос

Сейчас команда находится на этапе сбора средств, планируя собрать 13 000 евро на проект. Наибольшая часть бюджета пойдет на аренду профессиональной студии и оплату труда дикторов с идеальным произношением. Остальное — на услуги звукорежиссеров и кропотливую работу лингвистов, которые будут готовить и размечать текстовый корпус, и другие расходы.

Результатом этой работы станет полностью открытый датасет с публичной лицензией. На его основе авторы проекта планируют доработать уже существующую отечественную модель BexTTS, выведя ее на принципиально новый уровень.

Команда ищет прямые контакты с представителями Google, OpenAI, Meta и Speechify, чтобы предложить им готовый и качественный материал. В логике глобальных корпораций все просто: если им дают готовый инструмент для улучшения продукта на локальном рынке, они с радостью его интегрируют.

Если собрать всю сумму сразу не получится, авторы проекта обещают начать запись на те средства, которые уже будут на счетах, так как даже частичное пополнение базы — это практический шаг вперед.

От учебников до навигаторов

Присутствие белорусского языка в технологиях сегодня — это вопрос его выживания в принципе. Качественный синтез речи кардинально меняет правила игры в создании контента.

Это означает, что издание белорусских аудиокниг или озвучивание длинных статей больше не будет требовать огромных бюджетов и недель работы в студии. Это возможность для школьников и студентов слушать учебники, а для людей с нарушениями зрения или дислексией — получить полноценный доступ к белорусскоязычной информации.

Это база для создания отечественных голосовых помощников, чат-ботов и навигаторов, которые не будут разговаривать с нами поломанной гугловской речью. Наконец, это удобный инструмент для огромной белорусской диаспоры, которая хочет сохранить языковую среду для своих детей за границей.

«Наша Нiва» — бастион беларущины

ПОДДЕРЖАТЬ

Комментарии9

  • .
    19.04.2026
    1, гугл пакрысе адмяняе беларускую мову на карысць украінскай. Запыты па-беларуску ўсё часцей выдаюць украінскія спасылкі і прапановы зрабіць запыт па-украінску без памылак.
  • беларуская мадэль маўлення Bextts
    19.04.2026
    каб не пераскоквала на іншыя мовы, можна скарыстацца існуючай беларускай мадэллю

    https://huggingface.co/spaces/archivartaunik/Bextts
  • Скептык
    19.04.2026
    А нахалеру нам ідэальны штучны голас? Каб гэб'ё і ментаўё рабіла правакацыі на чысцюткай беларускай мове? Тэхнары такія тэхнары - ім абы нешта скрэацівіць, каб не адставаць ад сіліконавай даліны. а колькі шкоды гэтыя "інструменты" могуць потым нарабіць, пра гэта яны ня думаюць.

Сейчас читают

Коля так столкнулся с партнером по команде, что больше не смог выйти на лед26

Коля так столкнулся с партнером по команде, что больше не смог выйти на лед

Все новости →
Все новости

Карл III потроллил Трампа во время торжественного ужина в Белом доме4

Что рассказывают о бывшем политзаключенном Романе Романове, который умер в 43 года1

Бывшая политзаключенная: Губоповец спросил у меня: «А почему Академия управления такая мятежная?»5

Знаменитый актер Жан Рено выпустил шпионский роман, посвященный вывозу украинских детей в Россию3

В субботу уже будет до +23°С

В Мали заявили, что Россия им предала. События развиваются по сирийскому сценарию13

Кто продал квартиру в «Маяке Минска» пропавшей Мельниковой? Такого человека не существует32

Сегодня горит Пермь. Украина сделала ставку на удары по резервуарам, результаты которых видны миллионам30

Обрезал матери волосы и заставлял ее их съесть. Вынесен приговор1

больш чытаных навін
больш лайканых навін

Коля так столкнулся с партнером по команде, что больше не смог выйти на лед26

Коля так столкнулся с партнером по команде, что больше не смог выйти на лед

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць