(ML) Suche nach MobileNetV3. Weitere Informationen finden Sie unter MobileNet… | von YEN HUNG CHENG | Juli 2023

0
28


Foto von Marten Björk An Unsplash

在這篇文章中, 作者提出了一種基於互補搜索技術的新一代 MobileNet 架構, 稱為 MobileNetV3.為了優化 MobileNetV3 在手機 CPU 上的運行效能, 作者結合了硬件感知網絡架構搜索 (NAS) und NetAdapt 算法,進行了改進和調整.

文章中介紹了兩個新的 MobileNet-Modelle: MobileNetV3-Massive und MobileNetV3-Small經過調整後應用於對象檢測和語義分割任務.

LR-ASPP (Lite Diminished Atrous Spatial Pyramid Pooling).備上實現了最新的分類, 檢測和分割技術.

MobileNetV3-Massive und ImageNet betragen 3,2 %, MobileNetV2 beträgt 20 % -Small 6,6 %

此外,MobileNetV3-Massive 在COCO 檢測任務上的速度比MobileNetV2 快了25% 以上,而準確度大致相同。在城市景觀分割任務中,MobileNetV3-Massive LR-ASPP Model 34 von MobileNetV2 R-ASPP %。

MobileNetV1

MobileNetV2

MnasNet

SENet

與 MobileNetV2 ist die neueste Model von MobileNetV3 SENet 擠壓和激勵(SE)模塊

SE 模塊中使用 Hart-Sigmoid 代替 Sigmoid 以實現高效計算

網絡搜索是一種強大的方法, 用於發現和優化網絡架構, 並已經在許多研究中得到驗證.對於 MobileNetV3模型, 我們採用了平台感知的神經架構搜索 (NAS)方法, 通過優化每個網絡塊來搜索全局網絡結構.

Plattformfähiges NAS für blockweise Suche

我們採用了類似於平台感知 NAS 方法,其中使用基於循環神經網絡(RNN)的控制器和因式分解分層搜索空間.這使我們能夠在大型移動模型中達到目標延遲約為 80 毫秒的類似結果。因此,我們首先使用相同的 MnasNet-A1 作為初始大型移動模型, 然後應用 NetAdapt 和其他優化方法進一步改進.

NetAdapt für die schichtweise Suche

第二種技術, NetAdapt, 是一種對平台感知的NAS方法, 它允許按順序對每個層進行微調, 而不是嘗試推斷全局架構.以下是該技術的過程概述:

  1. 從種子網絡架構(在這種情況下,是平台感知NAS)開始.
  2. 對於每個步驟:

(a) 生成一組新的提案,每個提案代表對架構的修改,使延遲至少減少δ.

(b) 對於每個提案,使用預訓練模型從前一步中獲取並填充新的架構,適當地截斷並隨機初始化缺失的權重.對於每個提案,進行T步微調,以獲得準確度的粗略估計.

(c) 根據某些指標選擇最佳提案.

3.迭代上述步驟,直到達到目標延遲。

總結而言,NetAdapt 是一種迭代的方法, 根據目標延遲, 生成並微調一系列架構提案, 選擇具有最佳準確度和延遲改善的提案.通過這種方式,可以有效地優化網絡架構以滿足特定的硬件平台需求.

Vergleich der ursprünglichen letzten Stufe und der effizienten letzten Stufe
  • 在原始網絡中,1×1卷積作為最後一層, 以便320 維擴展到更高維的特徵空間 (1280維)。為了擁有豐富的預測特徵,這一層至關重要。然而,這是增加額外的延遲作為代價.
  • 第一個修改是將這一層移至最終平均池化 (Avg-Pool) 之後.這最終的特徵集現在以 1×1 空間分辨率而不是 7×7 空間分辨率計算.
  • 一旦降低了該特徵生成層的成本,就不再需要之前的瓶頸投影層來減少計算.
  • 高效的最終減少了延遲Mehr als 7 Monate, mehr als 11 % und 3000 Minuten. MAdds zusätzliche Kosten且幾乎沒有損失準確性.
  • 在最初的網路層,通過32->16,,同時使用 ReLU非線性激活函數保持了模型的精度.這樣的優化Mehr als 2 Monate und 1000 Minuten

swish

儘管 Swish

h-swish (harte Model von swish).

這種非線性的改變帶來了許多優勢, 例如在保持精度的同時, 它能夠在各種軟體和硬體框架上實現,並且在量化模式下避免了數值精度損失.此外,這種非線性的引入還可以提高模型的運行速度.然而,這種改變也導致了15percent的增加延遲.為了彌補這一開銷,可以通過將非線性與之前的層進行融合,從而消除多餘的計算成本.

Sigmoid- und Swish-Nichtlinearitäten und ihre „harten“ Gegenstücke.

我們對“擠壓“ (quetschen) und „激勵“ (erregen)瓶頸的設計進行了改進.傳統上,這些瓶頸的大小與卷積瓶頸的大小有關。然而,我們1/4。通過這種改變,我們發現可以提高模型的準確性,適度增加參數數量,同時並沒有明顯的延遲成Nein.

MobileNetV3-Groß
MobileNetV3-Klein

SE: 表示是否存使用 Squeeze-And-Excite

NL:表示所使用的非線性類型

HS:表示使用 h-swish

RE:表示使用 ReLU

NBN:表示沒有批量歸一化

s:表示步幅

Einstufung

Gleitkommaleistung auf der Pixel-Telefonfamilie (Pn bezeichnet ein Pixel-n-Telefon)

ImageNet ist eine High-1-Web site.

Ablationsstudie

Quantisierte Leistung

所有延遲均以毫秒為單位. 推理延遲是使用相應 Pixel 1/2/3 設備上的單個大核心來測量的。

Leistung von MobileNetV3 als Funktion verschiedener Multiplikatoren und Auflösungen

MobileNetV3 的性能作為不同的函數乘數 (Multiplikatoren) und 和分辨率 (Auflösungen)

Werte (Multiplikatoren): 0,35, 0,5, 0,75, 1,0 und 1,25

固定分辨率 (feste Auflösung): 224

Auflösungen: 96, 128, 160, 192, 224 und 256

其中固定深度 (fester Tiefenmultiplikator) von 1,0

Auswirkung von Nichtlinearitäten auf MobileNetV3-Massive

h-wish @N中, N表示通道數, 在第一層使用了 h-swish. 第三列顯示沒有優化 h-swish 的運行時間.延遲時間以毫秒為單位.

Einfluss von h-swish vs. ReLU auf die Latenz für optimiertes und nicht optimiertes h-swish

曲線顯示了使用深度的前沿乘數(Grenze der Verwendung von Tiefe
Multiplikator).提供最佳權衡.

Einfluss einzelner Komponenten auf die Entwicklung von
MobileNetV3

進度是通過向上和向左移動來衡量的.

Erkennung

BBasierend auf MobileNetV3 liefert der vorgeschlagene Segmentierungskopf Lite R-ASPP schnelle semantische Segmentierungsergebnisse und mischt dabei Funktionen aus mehreren Auflösungen

作者提出的網路架構

Objekterkennungsergebnisse von SSDLite mit unterschiedlichen Backbones im COCO-Testsatz

†:C4 und C5 sind 2 Meter lang.

MobileNetV3 wird von MobileNetV2 und MnasNet um 35 % reduziert.同時沒有mAP 損失.這表明在Imagenet分類和COCO對象檢測任務中,不同的特徵提取器形狀可能更適合.

Semantische Segmentierung

Ergebnisse der semantischen Segmentierung für den Cityscapes-Wertesatz

  • RF2 ist eine neue Model von RF2 Durchschnittlich 0,5 bis 0,35.
  • SH代表分段頭,其中×表示採用R-ASPP,而X表示採用建議的LR-ASPP。
  • F表示分段頭中使用的濾波器數量.
  • CPU(f) für Pixel 3.
  • CPU(h) ist eine CPU-Model mit 512 x 1024 Pixeln的結果.

Ergebnisse der semantischen Segmentierung im Cityscapes-Testsatz

Die ESPNet- und CCC2-Technologie ist für die Bereitstellung von Ressourcen zuständig.

Sie können zwischen MobileNetV3 Massive und MobileNetV3 Small wählen種網絡架構搜索算法和網絡設計改進的努力,提供了下一代移動模型的解決方案.我們還展示瞭如何在移動模型領域中引入非線性激活函數(如swish)和壓縮激勵的量化友好和高效應用.

文中還介紹了一種新型的輕量級分段解碼器 LR-ASPP.雖然如何最好地自動混合仍然是一個待解決的問題,並將繼續完善這些方法作為未來的工作方向.





Source link

HINTERLASSEN SIE EINE ANTWORT

Please enter your comment!
Please enter your name here