Większość wyszukiwarek produktów w internetowych sklepach odzieżowych opiera się na wyszukiwaniu wpisanych przez użytkowników fraz w nazwach i opisach produktów. Nazwy i opisy produktów rzadko kiedy zawierają treściwe informacje odnośnie określonego produktu. Nazwy są zazwyczaj krótkie i opisują tylko kategorię ubrania. Opisy natomiast są zazwyczaj dostarczane przez producentów – są duplikowane dla wielu podobnych produktów i zawierają głównie przekaz marketingowy. Specyfikacje produktów w branży fashion praktycznie nie istnieją. Mało który sprzedawca decyduje się na tworzenie własnych opisów, a tym bardziej ręczne definiowanie tagów opisujących ubrania. Tworzone tagi są zwykle mocno powtarzalne, schematyczne i zawierają dużo błędów powodowanych kopiowaniem.

Wyzwaniem technologicznym jest stworzenie automatycznej metody, która na podstawie zestawu zdjęć pojedynczego produktu, będzie w stanie wygenerować zestaw tagów ułatwiających wyszukiwanie. Kluczowym aspektem wyzwania jest duża różnorodność tagów, które mają opisywać nie tylko elementy ubrania (np. długi rękaw) ale również styl (np. klasyczny), wzór tkaniny (np. w kratę) czy kolekcję (np. Versace).

Kluczowym procesem jest ekstrakcja odpowiednich cech wizualnych. W pracach naukowych często używane są takie metody jak Scale Invariant Feature Transform (SIFT) czy Histogram of Gradients (HoG). W naszym projekcie używamy do tego celu głębokich konwolucyjnych sieci neuronowych (Deep CNN). Do ekstrakcji wektorów cech używa się takich architektur jak VGG-16, Googlenet czy VGG-19. Kolejnym zadaniem po uzyskaniu wektorów cech jest przypisanie relewantnych tagów do każdego z obrazów. Jest to zagadnienie z dziedziny klasyfikacji wieloklasowej. Używamy do tego celu takich technik jak ważona metoda k najbliższych sąsiadów która dobrze skaluje się przy dużej liczbie kategorii (tagów).