Многоезиков корпус с изображения разработват в Института за български език при БАН
EZ 14:58:01 11-02-2022
AK1452EZ.001
БАН - компютърна лингвистика - събитие
Многоезиков корпус с изображения
разработват в Института за български
език при БАН
София, 11 февруари (Ирина Симеонова, БТА)
Многоезиков корпус с изображения разработват специалисти от Секцията по компютърна лингвистика в Института за български език "Професор Любомир Андрейчин" при Българската академия на науките (БАН). Той беше представен от Светла Коева от института, представяйки проекта. Това стана по време на първото събитие в България за популяризиране на Европейската езикова мрежа, което се състоя днес онлайн.
Коева разказа, че досега са се занимавали основно с обработка на текстови данни, а някои от екипа са се занимавали известно време и с обработка на реч. Този проект, при който има комбинация от изображения, техните анотации и други кратки текстове, беше предизвикателство, каза Коева, добавяйки, че той все още не е завършен, но е към своя край.
Многоезиковият корпус с изображения събира внимателно подбрани изображения, които да са в тематично свързани области. Освен това изображенията трябва да могат да се преизползват свободно както за академични цели, така и за целите на бизнеса, обясни тя.
Коева отбеляза, че са разработили онтология от визуални обекти, която позволява да се опишат достатъчно пълно и точно обектите, които могат да бъдат наблюдавани в изображенията. Това е позволило да се направи анотация на обектите и да бъдат надградени с многоезиково описание на 25 езика, което показва многообразието на колекцията от гледна точка на различните формати и медии.
Колекцията от анотирани изображения може да бъде използвана за автоматично разпознаване на обекти в изображения, за автоматична класификация както на обекти, така и на целите изображения и за така наречената семантична сегментация (разпознаване на всеки един обект от един и същи клас в дадено изображение). Корпусът може да се използва за автоматична интерпретация на изображенията, за автоматично генериране на заглавия към изображението, както и за задаване на въпроси и получаване на подходящи отговори за изображения.
Характерно за колекцията от изображения е, че обектите в нея са класифицирани към множество класове -около 1500, което е сериозна стъпка напред, каза Коева. Тя отбеляза, че съществуват множество колекции от изображения, които се използват за обучения от модели за разпознаване както на изображения, така и на обектите в тях, но обикновено са съсредоточени върху малък брой класове.
Корпусът съдържа десетки хиляди изображения и стотици хиляди анотации на обектите в тях. Това е постигнато за по-малко от година от много малък екип от хора, посочи Коева.
Многоезиковият корпус ще бъде достъпен за изтегляне от платформата на Европейската езикова мрежа в края на февруари.
Целта на семинара бе да представи най-бързо развиващата се в момента платформа за споделяне и разпространение на езикови ресурси, програми за обработка на езика и услуги в областта на езиковите технологии. Езиковите технологии, особено многоезиковите, могат да помогнат за преодоляването на езиковите бариери и да внесат значителни подобрения в областта на търговията, администрацията, политиката, комуникацията и междукултурното разбирателство. Европейската езикова мрежа разработва и внедрява облачна платформа, осигуряваща лесен за интегриране достъп до стотици комерсиални и свободни езикови технологии за всички европейски езици, включително работещи инструменти и услуги, както и колекции от езикови данни и ресурси.
/АКМ/