學習．思考安卓新聞智慧新世代智慧生活超級G器人大戰 2017 年 06 月 16 日

[Mobile] 手機不只會聽，更會「看」！Google推出「MobileNets」行動AI視覺模型讓手機更精準辨識影像！

圖：三星的Galaxy S8與S8+將「Bixby Vision」影像辨識功能加入到手機之中，方便我們透過相機拍攝或截圖來識別影像內容。

在手機上，人工智慧的應用已經落實在「語音助理」多年，除了蘋果的 Siri之外，Google的Google Assistant、三星的Bixby，甚至連即時通訊軟體LINE也在前兩天公佈自家的語音助理「Clova」，搶佔行動AI的市場。

不過除了讓手機能「聽」得懂我們說的話，並進一步理解我們想要做什麼、需要什麼資訊，並用自然語音的方式回應我們之外，開發者們思考的下一步將會是讓手機能夠有「看」的能力－其實說穿了不稀奇，智慧型手機中本來就內建有相機，也因此只要搭配「影像識別」的功能，就能讓手機透過影像的辨識來為我們找到對應的資訊，像是今年三星推出Galaxy S8與S8+時，就將影像識別功能「Bixby Vision」列入Bixby助理的標準配備。

圖：MobileNets 影像辨識功能運作的方式。

為了讓開發者能夠更便利地提供手機上的影像辨識技術，Google 去年就推出以雲端為基礎的「Cloud Vision API」作為相關設備的影像識別功能，像是地標、標誌與文本…等內容的識別。不過由於Cloud Vision API 在運作時需要有網際網路的連結，這對於部份非連網或是嵌入式程式帶來了一些限制，也因此Google在前幾天也公佈了「MobileNets」這個小型、低延遲、低功耗的影像辨識模型，可以滿足資源有限的設備，提供開發者在設備上增加已經有一定「訓練」過的圖像識別模型功能，而不再需要透過雲端運算來提供影像辨識的結果。

圖：MobileNets 在各個版本的精準度比較。

而目前Google已經以開源碼的方式公開 MobileNets，因此任何開發人員都能使用它的功能，取得物體檢測、臉部屬性識別、細粒度分類（像是小狗品種的識別）與地標辨識…等功能，而這項技術也是Google 深度學習模組「TensorFlow」的一部份。

目前Google提供了MobileNets的16個預建置訓練模型，可以用在各種不同類型的行動應用項目，而準確度也達到了70.7%至89.5%之間，相較於以雲端運算為基礎的技術並不會相差太多。透過這樣的技術，未來圖像辨識技術應該可以更普及於各類型的行動裝置中，而且在使用的反應更快，所會耗用的網路數據也將更少，甚至可以透過硬體裝置來整合（像是嵌入至相機甚至是處理晶片中），也將帶來更大的便利性！

歷史上的這一天，我還寫了…

阿祥

阿祥，本名秦庭祥（Axiang Chin），是一個專注於3C領域、尤其是行動通訊領域的部落客，自2004年10月開始經營部落格超過20年之久，長期關注3C產品資訊與應用－尤其聚焦於智慧型行動裝置、雲端服務應用、App評析與行銷、以及遊戲評測與產業趨勢…等議題。阿祥同時也是3C布政司共同創辦人，提供社群行銷、教學與體驗活動規劃…等服務，並曾擔任元智大學資訊傳播學系兼任講師、國立空中大學管理與資訊學系學科委員，並於三星學園長期擔任手機課程講師，也受邀前往多間大學、政府機關擔任講師，分享雲端與行動工具應用心得。 Google