Yhtenä tietokonenäön tärkeimmistä sovelluksista esineiden havaitsemisesta tulee yhä tärkeämpää tilanteissa, jotka vaativat suurta tarkkuutta, mutta joilla on rajalliset laskentaresurssit, kuten robotiikka ja kuljettajaton auto. Valitettavasti monet modernit tarkat ilmaisimet eivät täytä näitä rajoituksia. Vielä tärkeämpää on, että reaalimaailman objektien tunnistussovellukset toimivat eri alustoilla, jotka vaativat usein erilaisia resursseja.
Joten luonnollinen kysymys on, kuinka suunnitella tarkkoja ja tehokkaita kohteiden ilmaisimia, jotka voivat myös sopeutua monenlaisiin resurssirajoitteisiin?
CVPR 2020: ssa hyväksytty EfficientDet: Skaalautuva ja tehokas objektitunnistus esittelee uuden skaalautuvien ja tehokkaiden kohteiden ilmaisimien perheen. Perustuen aikaisempaan hermoverkkojen skaalaamiseen (EfficientNet) ja uuden kaksisuuntaisen toiminnallisen verkon (BiFPN) ja uusien skaalaussääntöjen sisällyttämiseen, EfficientDet saavuttaa modernin tarkkuuden, kun taas yhdeksän kertaa pienempi ja käyttää huomattavasti vähemmän laskennallista kuin tunnetut modernit ilmaisimet. Seuraava kuva esittää mallien yleisen verkkoarkkitehtuurin.
Malliarkkitehtuurin optimointi
EfficientDet-idea perustuu pyrkimykseen löytää ratkaisuja laskennallisen tehokkuuden parantamiseksi tutkimalla järjestelmällisesti aiempia huipputekniikan tunnistusmalleja. Kohdetunnistimilla on yleensä kolme pääkomponenttia: runko, joka poimii ominaisuudet tietystä kuvasta; esineiden verkko, joka ottaa useita toimintotasoja rungosta tulona ja tuottaa luettelon yhdistetyistä toiminnoista, jotka edustavat kuvan tunnusomaisia ominaisuuksia; ja lopullisen luokan / laatikkoverkon, joka käyttää yhdistettyjä toimintoja kunkin objektin luokan ja sijainnin ennustamiseen.
Tarkastettuamme näiden komponenttien suunnitteluvaihtoehdot, tunnistimme useita keskeisiä optimointeja suorituskyvyn ja tehokkuuden parantamiseksi. Aikaisemmissa ilmaisimissa käytetään enimmäkseen runkoina ResNets-, ResNeXt- tai AmoebaNet-verkkoa, jotka ovat joko vähemmän tehokkaita tai tehokkaampia kuin EfficientNets. Kun EfficientNet-runko on alun perin otettu käyttöön, voidaan saavuttaa paljon enemmän tehokkuutta. Esimerkiksi aloitettaessa RetinaNet-perusviivasta, joka käyttää ResNet-50-runkoa, ablaatiotutkimuksemme osoittaa, että pelkkä ResNet-50: n korvaaminen EfficientNet-B3: lla voi parantaa tarkkuutta 3% ja vähentää laskentaa 20%. Toinen optimointi on parantaa toimivien verkkojen tehokkuutta. Vaikka suurin osa aikaisemmista ilmaisimista käyttää yksinkertaisesti Downlink Pyramid Network -verkkoa (FPN), havaitsemme, että alavirran FPN on luonnostaan rajoitettu yksisuuntaiseen tietovirtaan. Vaihtoehtoiset FPN: t, kuten PANet, lisäävät ylävirtaa ylimääräisen laskennan kustannuksella.
Viimeaikaiset yritykset käyttää Neural Architecture Searchia (NAS) ovat löytäneet monimutkaisemman NAS-FPN-arkkitehtuurin. Vaikka tämä verkkorakenne on tehokas, se on myös epäsäännöllinen ja erittäin optimoitu tiettyyn tehtävään, mikä vaikeuttaa sopeutumista muihin tehtäviin. Näiden ongelmien ratkaisemiseksi ehdotamme uutta kaksisuuntaisten toimintojen verkkoa BiFPN, joka toteuttaa ajatuksen FPN / PANet / NAS-FPN: n monikerroksisten toimintojen yhdistämisestä, mikä mahdollistaa tiedon siirtämisen sekä ylhäältä alas että alhaalta ylös. käyttämällä säännöllisiä ja tehokkaita yhteyksiä.
Tehokkuuden parantamiseksi ehdotamme uutta nopeasti normalisoitua synteesitekniikkaa. Perinteiset lähestymistavat kohtelevat yleensä kaikkia FPN-syötteitä samalla tavalla, jopa eri resoluutioilla. Havaitsemme kuitenkin, että erilaisilla tarkkuuksilla varustetut tulo-ominaisuudet vaikuttavat usein epätasaisesti lähtötoimintoihin. Siksi lisätään kuhunkin syöttötoimintoon ylimääräistä painoa ja annamme verkon oppia kunkin tärkeyden. Korvataan myös kaikki tavalliset kääntymät halvemmilla, syvälle erotettavissa olevilla. Tämän optimoinnin avulla BiFPN parantaa tarkkuutta edelleen 4% ja vähentää laskennallisia kustannuksia 50%.
Kolmas optimointi edellyttää parhaan kompromissin saavuttamista tarkkuuden ja tehokkuuden välillä erilaisissa resurssirajoituksissa. Aikaisempi työmme on osoittanut, että verkon syvyyden, leveyden ja tarkkuuden skaalaaminen voi merkittävästi parantaa kuvan tunnistustehoa. Tämän idean innoittamana ehdotamme uutta yhdistettyä skaalausmenetelmää kohteiden ilmaisimille, jotka yhdessä lisäävät tarkkuutta / syvyyttä / leveyttä. Jokaisella verkkokomponentilla, eli runko-, objekti- ja lohko- / luokan ennakointiverkolla, on yksi monimutkainen skaalauskerroin, joka ohjaa kaikkia skaalausulottuvuuksia heurististen sääntöjen avulla. Tämän lähestymistavan avulla on helppo määrittää, kuinka malli skaalataan laskemalla asteikkokerroin tietylle kohderesurssirajoitukselle.
Yhdistämällä uusi runko ja BiFPN suunnittelemme ensin pienen EfficientDet-D0-perustason ja sitten yhdistelmämittakaavan saadaksemme EfficientDet-D1: n D7: ksi. Jokaisella sarjamallilla on korkeammat laskennalliset kustannukset, ja se kattaa laajan valikoiman resurssirajoituksia 3 miljardista FLOP: sta 300 miljardiin FLOPS: iin ja tarjoaa paremman tarkkuuden.
Suorituskyky malli
EfficientDetin arviointi COCO-tietojoukossa, joka on laajasti käytetty viitetietojoukko kohteiden havaitsemiseen. EfficientDet-D7 saavuttaa keskimääräisen keskimääräisen tarkkuuden (mAP) 52,2, joka on 1,5 pistettä korkeampi kuin edellinen nykyaikainen malli, käyttäen 4 kertaa vähemmän parametreja ja 9,4 kertaa vähemmän laskelmia
Verrattiin myös parametrien kokoa ja suorittimen / grafiikkasuorittimen viivettä EfficientDetin ja aiempien mallien välillä. Samankaltaisilla tarkkuusrajoituksilla EfficientDet-mallit toimivat 2–4 kertaa nopeammin GPU: lla ja 5–11 kertaa nopeammin prosessorilla kuin muut ilmaisimet. Vaikka EfficientDet-mallit on tarkoitettu ensisijaisesti kohteiden havaitsemiseen, testaamme niiden tehokkuutta myös muissa tehtävissä, kuten semanttisessa segmentoinnissa. Segmentointitehtävien suorittamiseksi muokkaamme hieman EfficientDet-D4: ää korvaamalla ilmaisupään ja pään menetykset ja häviöt säilyttäen samalla mitoitetun rungon ja BiFPN: n. Vertaamme tätä mallia aiempiin moderneihin segmentointimalleihin Pascal VOC 2012: lle, joka on laajalti käytetty segmentointitestaustietojoukko.
Ottaen huomioon niiden erinomaisen suorituskyvyn, EfficientDet: n odotetaan toimivan uudena perustana tulevalle kohteen havaitsemistutkimukselle ja tekevän erittäin tarkoista kohteiden havaitsemismalleista hyödyllisiä monissa reaalimaailman sovelluksissa. Joten avasivat kaikki koodin ja esivalmistetun mallin katkaisupisteet Github.com-sivustolla.