Учёные Новосибирского государственного университета разработали сервис, который с помощью нейросети автоматически превращает научные книги в аудиоверсии — в 16 раз быстрее, чем это сделал бы живой диктор, сообщили в пресс-службе НГУ. Первую сотню книг уже озвучили. Рассказываем, как устроена технология и сколько изданий планируется перевести в аудиоформат.
Сервис извлекает текст из PDF-файла, обрабатывает его и формирует звуковую версию. На обработку одной книги уходит около 30 минут процессорного времени — решение не требует больших вычислительных мощностей.
Проект создан на базе фреймворка «Каппа», разработанного в Исследовательском центре искусственного интеллекта НГУ. Фреймворк управляет наборами данных и моделями ИИ, тестирует их и проверяет корректность работы, снижая риск ошибок и так называемых «галлюцинаций» нейросети. В проекте озвучивания «Каппа» подготавливает обучающие данные и собирает отзывы о качестве результата.
Сейчас команда ожидает отзывов от библиотеки и пользователей. После завершения пилотного этапа технологию планируют предложить другим библиотекам.
«В перспективе мы планируем перевести в аудиоформат все книги, представленные в электронной библиотеке НГУ. Сейчас это около 7 тысяч изданий», — рассказал ведущий научный сотрудник Центра искусственного интеллекта НГУ Евгений Павловский.
Озвучивать планируют издания университетского издательства и материалы электронной библиотеки — с разрешения правообладателей. По оценке разработчиков, с технической точки зрения озвучить весь фонд можно за месяц, однако организационная подготовка и проверка качества могут занять до года. Сервис не заменяет традиционное чтение, а создаёт альтернативный способ доступа к научным текстам.