在這篇文章中, 作者提出了一種基於互補搜索技術的新一代 MobileNet 架構, 稱為 MobileNetV3.為了優化 MobileNetV3 在手機 CPU 上的運行效能, 作者結合了硬件感知網絡架構搜索 (NAS) und NetAdapt 算法,進行了改進和調整.
文章中介紹了兩個新的 MobileNet-Modelle: MobileNetV3-Massive und MobileNetV3-Small經過調整後應用於對象檢測和語義分割任務.
LR-ASPP (Lite Diminished Atrous Spatial Pyramid Pooling).備上實現了最新的分類, 檢測和分割技術.
MobileNetV3-Massive und ImageNet betragen 3,2 %, MobileNetV2 beträgt 20 % -Small 6,6 %
此外,MobileNetV3-Massive 在COCO 檢測任務上的速度比MobileNetV2 快了25% 以上,而準確度大致相同。在城市景觀分割任務中,MobileNetV3-Massive LR-ASPP Model 34 von MobileNetV2 R-ASPP %。
MobileNetV1
MobileNetV2
MnasNet
SENet
與 MobileNetV2 ist die neueste Model von MobileNetV3 SENet 擠壓和激勵(SE)模塊
SE 模塊中使用 Hart-Sigmoid 代替 Sigmoid 以實現高效計算
網絡搜索是一種強大的方法, 用於發現和優化網絡架構, 並已經在許多研究中得到驗證.對於 MobileNetV3模型, 我們採用了平台感知的神經架構搜索 (NAS)方法, 通過優化每個網絡塊來搜索全局網絡結構.
Plattformfähiges NAS für blockweise Suche
我們採用了類似於平台感知 NAS 方法,其中使用基於循環神經網絡(RNN)的控制器和因式分解分層搜索空間.這使我們能夠在大型移動模型中達到目標延遲約為 80 毫秒的類似結果。因此,我們首先使用相同的 MnasNet-A1 作為初始大型移動模型, 然後應用 NetAdapt 和其他優化方法進一步改進.
NetAdapt für die schichtweise Suche
第二種技術, NetAdapt, 是一種對平台感知的NAS方法, 它允許按順序對每個層進行微調, 而不是嘗試推斷全局架構.以下是該技術的過程概述:
- 從種子網絡架構(在這種情況下,是平台感知NAS)開始.
- 對於每個步驟:
(a) 生成一組新的提案,每個提案代表對架構的修改,使延遲至少減少δ.
(b) 對於每個提案,使用預訓練模型從前一步中獲取並填充新的架構,適當地截斷並隨機初始化缺失的權重.對於每個提案,進行T步微調,以獲得準確度的粗略估計.
(c) 根據某些指標選擇最佳提案.
3.迭代上述步驟,直到達到目標延遲。
總結而言,NetAdapt 是一種迭代的方法, 根據目標延遲, 生成並微調一系列架構提案, 選擇具有最佳準確度和延遲改善的提案.通過這種方式,可以有效地優化網絡架構以滿足特定的硬件平台需求.
- 在原始網絡中,1×1卷積作為最後一層, 以便320 維擴展到更高維的特徵空間 (1280維)。為了擁有豐富的預測特徵,這一層至關重要。然而,這是增加額外的延遲作為代價.
- 第一個修改是將這一層移至最終平均池化 (Avg-Pool) 之後.這最終的特徵集現在以 1×1 空間分辨率而不是 7×7 空間分辨率計算.
- 一旦降低了該特徵生成層的成本,就不再需要之前的瓶頸投影層來減少計算.
- 高效的最終減少了延遲Mehr als 7 Monate, mehr als 11 % und 3000 Minuten. MAdds zusätzliche Kosten且幾乎沒有損失準確性.
- 在最初的網路層,通過32->16,,同時使用 ReLU非線性激活函數保持了模型的精度.這樣的優化Mehr als 2 Monate und 1000 Minuten。
swish
儘管 Swish
h-swish (harte Model von swish).
這種非線性的改變帶來了許多優勢, 例如在保持精度的同時, 它能夠在各種軟體和硬體框架上實現,並且在量化模式下避免了數值精度損失.此外,這種非線性的引入還可以提高模型的運行速度.然而,這種改變也導致了15percent的增加延遲.為了彌補這一開銷,可以通過將非線性與之前的層進行融合,從而消除多餘的計算成本.
我們對“擠壓“ (quetschen) und „激勵“ (erregen)瓶頸的設計進行了改進.傳統上,這些瓶頸的大小與卷積瓶頸的大小有關。然而,我們1/4。通過這種改變,我們發現可以提高模型的準確性,適度增加參數數量,同時並沒有明顯的延遲成Nein.
SE: 表示是否存使用 Squeeze-And-Excite
NL:表示所使用的非線性類型
HS:表示使用 h-swish
RE:表示使用 ReLU
NBN:表示沒有批量歸一化
s:表示步幅
Einstufung
Gleitkommaleistung auf der Pixel-Telefonfamilie (Pn bezeichnet ein Pixel-n-Telefon)
ImageNet ist eine High-1-Web site.
Ablationsstudie
Quantisierte Leistung
所有延遲均以毫秒為單位. 推理延遲是使用相應 Pixel 1/2/3 設備上的單個大核心來測量的。
Leistung von MobileNetV3 als Funktion verschiedener Multiplikatoren und Auflösungen
MobileNetV3 的性能作為不同的函數乘數 (Multiplikatoren) und 和分辨率 (Auflösungen)
Werte (Multiplikatoren): 0,35, 0,5, 0,75, 1,0 und 1,25
固定分辨率 (feste Auflösung): 224
Auflösungen: 96, 128, 160, 192, 224 und 256
其中固定深度 (fester Tiefenmultiplikator) von 1,0
Auswirkung von Nichtlinearitäten auf MobileNetV3-Massive
h-wish @N中, N表示通道數, 在第一層使用了 h-swish. 第三列顯示沒有優化 h-swish 的運行時間.延遲時間以毫秒為單位.
Einfluss von h-swish vs. ReLU auf die Latenz für optimiertes und nicht optimiertes h-swish
曲線顯示了使用深度的前沿乘數(Grenze der Verwendung von Tiefe
Multiplikator).提供最佳權衡.
Einfluss einzelner Komponenten auf die Entwicklung von
MobileNetV3
進度是通過向上和向左移動來衡量的.
Erkennung
BBasierend auf MobileNetV3 liefert der vorgeschlagene Segmentierungskopf Lite R-ASPP schnelle semantische Segmentierungsergebnisse und mischt dabei Funktionen aus mehreren Auflösungen
作者提出的網路架構
Objekterkennungsergebnisse von SSDLite mit unterschiedlichen Backbones im COCO-Testsatz
†:C4 und C5 sind 2 Meter lang.
MobileNetV3 wird von MobileNetV2 und MnasNet um 35 % reduziert.同時沒有mAP 損失.這表明在Imagenet分類和COCO對象檢測任務中,不同的特徵提取器形狀可能更適合.
Semantische Segmentierung
Ergebnisse der semantischen Segmentierung für den Cityscapes-Wertesatz
- RF2 ist eine neue Model von RF2 Durchschnittlich 0,5 bis 0,35.
- SH代表分段頭,其中×表示採用R-ASPP,而X表示採用建議的LR-ASPP。
- F表示分段頭中使用的濾波器數量.
- CPU(f) für Pixel 3.
- CPU(h) ist eine CPU-Model mit 512 x 1024 Pixeln的結果.
Ergebnisse der semantischen Segmentierung im Cityscapes-Testsatz
Die ESPNet- und CCC2-Technologie ist für die Bereitstellung von Ressourcen zuständig.
Sie können zwischen MobileNetV3 Massive und MobileNetV3 Small wählen種網絡架構搜索算法和網絡設計改進的努力,提供了下一代移動模型的解決方案.我們還展示瞭如何在移動模型領域中引入非線性激活函數(如swish)和壓縮激勵的量化友好和高效應用.
文中還介紹了一種新型的輕量級分段解碼器 LR-ASPP.雖然如何最好地自動混合仍然是一個待解決的問題,並將繼續完善這些方法作為未來的工作方向.