Новости
Старший научный сотрудник ИЯЛИ КарНЦ РАН Александра Родионова и ректор Марийского государственного университета Михаил Швецов
28 апреля 2026
Лингвисты передали «Яндексу» более 50 тысяч предложений на карельском языке для подготовки онлайн-переводчика

Специалисты языковой платформы «ВепКар» продолжают работу по подготовке данных для создания онлайн-переводчиков карельского и вепсского языков на базе «Яндекса». Компании передано уже более половины из необходимых 100 тысяч предложений на ливвиковском наречии карельского языка – примеров текстов разных жанров. Об этом и других направлениях развития платформы рассказала старший научный сотрудник ИЯЛИ КарНЦ РАН Александра Родионова в ходе VII Международной конференции «Цифровизация языков народов России: Масштабирование опыта и перспективы» в Йошкар-Оле.
VII Международная научно-практическая конференция «Цифровизация языков народов России: Масштабирование опыта и перспективы» проходила в Марийском государственном университете 16–17 апреля. В ходе пленарного заседания выступила старший научный сотрудник Института языка, литературы и истории КарНЦ РАН Александра Родионова. Лингвист подвела итоги десятилетней работы открытого корпуса вепсского и карельского языков «ВепКар» и рассказала о новых направлениях и перспективах его развития.

«ВепКар» – это уникальная цифровая платформа, созданная языковедами и математиками Карельского научного центра РАН. Во-первых, это единственный в мире корпус вепсского и карельского языков. Корпус — это информационно-справочная система, основанная на собрании текстов различных жанров в электронной форме. «ВепКар» содержит более девяти тысяч текстов на 58 диалектах и почти три миллиона слов. Почти все они имеют разметку – лингвистическую или метатекстовую – что позволяет пользователям узнавать лексические, грамматические и другие характеристики элементов текста. Это бесценная информация для исследователей или изучающих язык. Во-вторых, за время своего развития «ВепКар» из коллекции текстов превратился во многофункциональную языковую платформу, на базе которой помимо основной библиотеки функционируют крупные ресурсы: Аудиокарта прибалтийско-финских языков Карелии, Мультимедийный словарь карельского языка LiPaS – Livvin paginan sanat и Людиковский диалектный лексикон.

Создатели и специалисты "ВепКара" (слева направо): Екатерина Захарова, Наталья Крижановская, Ирина Новак, Наталия Пеллинен, Александра Родионова, Анастасия Рунтова, Татьяна Бойко, Андрей Крижановский и Нина Шибанова
Создатели и специалисты "ВепКара" (слева направо): старший научный сотрудник сектора языкознания ИЯЛИ КарНЦ РАН Екатерина Захарова, ведущий инженер-исследователь лаборатории информационных компьютерных технологий ИПМИ КарНЦ РАН Наталья Крижановская, директор ИЯЛИ КарНЦ РАН Ирина Новак, научный сотрудник сектора языкознания ИЯЛИ КарНЦ РАН Наталия Пеллинен, старший научный сотрудник сектора языкознания ИЯЛИ КарНЦ РАН Александра Родионова, заведующая сектором Научной библиотеки Тверского государственного университета Анастасия Рунтова, научный сотрудник сектора языкознания ИЯЛИ КарНЦ РАН Татьяна Бойко, руководитель лаборатории информационных компьютерных технологий ИПМИ КарНЦ РАН Андрей Крижановский и главный специалист по информационным технологиям ИЯЛИ КарНЦ РАН Нина Шибанова. Фото: И. Георгиевский / КарНЦ РАН

– У истоков проекта стоит доктор филологических наук Нина Григорьевна Зайцева. Именно под её руководством в 2009 году стартовала работа по созданию «Корпуса вепсского языка» — предшественника современного «ВепКара». В 2016 году ресурс был существенно расширен: в его состав вошли тексты на карельском языке, – рассказала об истории создания платформы Александра Родионова. В этом году «ВепКар» отмечает свое десятилетие.

Параллельные, то есть с переводом на русский язык, тексты, которые накапливает «ВепКар», работают одновременно на две задачи – развитие корпуса как исследовательского ресурса и создание технологической базы для присутствия карельского и вепсского языков во Всемирной сети. В частности, «ВепКар» является площадкой для подготовки данных для создания онлайн-переводчиков карельского и вепсского языков, которое ведется в рамках сотрудничества с Федеральным агентством по делам национальностей России, Министерством национальной и региональной политики Республики Карелия и компанией «Яндекс».

– Для обучения переводчика нужна база из ста тысяч предложений с переводом на русский язык. В ходе её формирования в корпусе реализована новая функция проверки выравнивания параллельных текстов на уровне предложений. На сегодняшний день в «ВепКаре» представлено свыше 1500 текстов на ливвиковском наречии карельского языка с переводом на русский. Суммарно программистам «Яндекса» передано уже более 50 тысяч предложений. Параллельно идёт подготовка аналогичной базы по вепсскому языку, – рассказала Александра Родионова.

Старший научный сотрудник ИЯЛИ КарНЦ РАН Александра Родионова на пленарном заседании конференции
Старший научный сотрудник ИЯЛИ КарНЦ РАН Александра Родионова на пленарном заседании конференции

Что касается подкорпусов «ВепКара», то разработчики не только продолжают пополнять существующие, но и создают новые коллекции, повышая роль платформы как электронной библиотеки. Так, в рамках работы, приуроченной к 800-летию крещения карелов, был расширен подкорпус библейских текстов и открыты два новых: «Памятники письменности» и «Этнографические тексты». Последние позволяют проследить изменения в народных традициях и обрядах карелов, связанные с принятием христианства. На их основе стартовала разработка интерактивной карты «Праздничная культура Южной Карелии». Подкорпус «Памятники письменности» включает оцифрованные старописьменные и старопечатные тексты на карельском языке.

Также за последние годы серьезно расширились возможности «ВепКара» для лингвистических исследований. В первую очередь, это произошло в результате разработки программ-генераторов словоформ, созданных специалистами Института языка, литературы и истории и Института прикладных математических исследований КарНЦ РАН. Во-первых, она позволила довести долю автоматической разметки текстов в среднем по подкорпусам до 81,5%. Во-вторых, благодаря генераторам словоформ удалось выявить ряд лингвистических закономерностей, которые дополнили новые грамматики карельского и вепсского языков. Наконец, создание генераторов существенно ускорило работу редакторов и устранило ошибки ручного ввода.

Фрагмент главной страницы "ВепКара"
Фрагмент главной страницы "ВепКара"

– Это наглядный пример того, как инструментальная разработка стимулирует лингвистику. Морфологически размеченный корпус — необходимая база для создания морфологического анализатора, а в дальнейшем — систем проверки орфографии и машинного перевода с карельского и вепсского языков, – пояснила Александра Родионова.

Говоря перспективах развития, ученый рассказала о совершенствовании «предсказателя» — модуля, который подсказывает наиболее вероятный вариант привязки словоформы к словарному значению, создании эпистолярного подкорпуса, расширении возможностей для междисциплинарных исследований и разработке прикладных продуктов на базе корпусных данных: игр и учебных материалов.

– Опыт «ВепКара» показывает: корпус языка, находящегося под угрозой исчезновения, способен одновременно решать задачи сохранения языка, его научного изучения и цифрового развития. Для малых языков России это особенно важно — именно корпусная инфраструктура становится тем фундаментом, без которого невозможны ни полноценная лингвистика, ни современные языковые технологии, – подытожила ученый.

Фото: пресс-служба Марийского государственного университета

Смотрите также:

Гуси в Олонецких полях
7 мая 2026
Орнитологи создают технологию мониторинга и охраны болотных угодий – мест ночевок мигрирующих гусей

В апреле-мае группа орнитологов КарНЦ РАН ведет почти круглосуточное наблюдение за гусями в Олонецких полях. Десятки тысяч водоплавающих остановились в Южной Карелии восстановить силы по пути к местам гнездования в тундре. В центре внимания ученых – суточная динамика перемещения гусей: от дневных мест кормления в полях к ночевочным угодьям на болотах, где они зачастую становятся добычей охотников. Результаты исследования помогут скорректировать режим охоты так, чтобы снизить урон популяциям пернатых.
Старик в шубе. Олонец. 1943 г. Фото: SA-Kuva
6 мая 2026
Дорожная одежда карельских крестьян выполняла не только утилитарную функцию, но и служила оберегом

Головной убор, тулуп, пояс, рукавицы, обувь – все эти элементы одежды путника в XIX – начале XX века служили не только по основному назначению, но и играли важную символическую роль: защищали человека от враждебных сил, устанавливали границу между своим и чужим миром. Анализ знаково-символических функций дорожного костюма провела этнограф ИЯЛИ КарНЦ РАН Галина Рывкина в рамках исследования культуры путешествия карелов. Эта работа расширяет понимание народной картины мира и национальной специфики материальной традиции сквозь призму движения.
5 мая 2026
Карельские ученые посадили ель в честь выдающегося географа Константина Арсеньева

Сегодня карельские ученые посадили ель в честь выдающегося географа, одного из создателей российской системы статистики и одного из организаторов Русского географического общества Константина Арсеньева. Акция, организованная учеными нескольких институтов Карельского научного центра РАН, прошла в рамках выполнения гранта Русского географического общества «Создание передвижной выставки «К.И. Арсеньев – выдающийся географ, статистик, один из организаторов Русского императорского географического общества».
Ученые выясняют, насколько эффективно и безопасно использовать в качестве удобрений донные отложения рыбоводческих ферм. Фото: В. Швецова / Служба научных коммуникаций КарНЦ РАН
29 апреля 2026
Отходы аквакультуры могут быть применимы на сельскохозяйственных полях

Карельские ученые выясняют, насколько эффективно и безопасно использовать в качестве удобрений донные отложения рыбоводческих ферм, богатые органическим материалом и минеральными элементами. С одной стороны, это может помочь в поиске новых и альтернативных улучшителей свойств почвы, с другой стороны, решает экологическую задачу утилизации отходов аквакультуры. Результаты экспериментов, проведенных на посадках салата-латука и других культур показали: отложения садков не наносят вреда ни почве, ни растениям, а на отдельные параметры оказывают положительное влияние.
Начальник отдела комплексной безопасности КарНЦ РАН Екатерина Романова
28 апреля 2026
28 апреля – Всемирный день охраны труда

28 апреля отмечается Всемирный день охраны труда. Это ежегодный праздник, учрежденный Международной организацией труда в 2003 году, наряду с более чем сотней стран широко отмечается и в России. Интересно, что ежегодно этот праздник носит тематический характер, в этом году тема Всемирного дня охраны труда – «Благоприятная психосоциальная рабочая среда: путь к процветанию работников и сильной организации».