Студентка из Новосибирского государственного университета Алена Цанда создала мультимодальный датасет для краткого пересказа научных статей.
Об этом сообщила пресс-служба университета. Алена отмечает, что основной целью датасета является генерация кратких содержаний научных статей.
Девушка говорит, что добавление графической информации к тексту может значительно улучшить качество кратких аннотаций.
В ходе работы над проектом были протестированы различные языковые модели, такие как Gigachat, YandexGPT и GPT-3.5 Turbo. Алена также планирует расширить датасет, включив в него математику и физику.
Ранее Сиб.фм сообщал, что новосибирские ученые разработали способ очистки нефтяных скважин с помощью бактерий.