Tekstowa reprezentacja obrazu

Naukowcy z Kalifornijskiego Uniwersytetu w Los Angeles (UCLA) wspólnie z amerykańską firmą specjalizującą się w rozpoznawaniu obrazu ObjectVideo stworzyli system kamer, który tworzy tekstową reprezentację obrazów wychwyconych przez obiektyw kamery.

Celem projektu jest uproszczenie nawigacji w nagraniach z monitoringu, tak aby użytkownik mógł za pomocą kilku kliknięć znaleźć interesujące go miejsca - informuje magazyn "Technology Review" w wydaniu online.

- Już teraz na wideoportalu YouTube i innych platformach z ruchomym obrazem możemy się przekonać, że przeszukiwanie materiałów wideo stanowi trudne wyzwanie - powiedział szef zespołu badawczego Song-Chun Zhu, profesor statystyki i informatyki, który zrealizował projekt wspólnie z kolegami Benjaminem Yao i Haifengiem Gongiem.

Obecnie wyszukiwanie nagrań odbywa się za pośrednictwem opisujących je tekstów, które są wpisywane ręcznie. Zhu i jego zespół stworzyli więc system Image to Text (I2T), który ma to zmienić. Ostatecznym rezultatem analizy każdego nagrania jest dokument, który można przeszukiwać za pośrednictwem słów kluczowych.

Reklama

Dla I2T naukowcy zaprojektowali system parsowania obrazu, który rozkłada obraz na czynniki pierwsze - tło zostaje usunięte, aby wyizolować takie obiekty jak pojazdy, drzewa czy postacie. Proces ten można usprawnić, np. przez odseparowanie kół w samochodach albo kończyn u człowieka. Następnie dochodzi do porównania znalezionych obiektów z tworzoną pod kontrolą człowieka bazą danych, w której zapisano obrazy.

HeiseOnline
Reklama
Reklama
Reklama
Reklama
Reklama
Strona główna INTERIA.PL
Polecamy