[Mobile] 手機不只會聽,更會「看」!Google推出「MobileNets」行動AI視覺模型讓手機更精準辨識影像!

文章分類: 學習.思考, 安卓新聞, 智慧新世代, 智慧生活, 超級G器人大戰


圖:三星的Galaxy S8S8+將「Bixby Vision」影像辨識功能加入到手機之中,方便我們透過相機拍攝或截圖來識別影像內容。

 

在手機上,人工智慧的應用已經落實在「語音助理」多年,除了蘋果的 Siri之外,Google的Google Assistant、三星的Bixby,甚至連即時通訊軟體LINE也在前兩天公佈自家的語音助理「Clova」,搶佔行動AI的市場。

 

 

不過除了讓手機能「聽」得懂我們說的話,並進一步理解我們想要做什麼、需要什麼資訊,並用自然語音的方式回應我們之外,開發者們思考的下一步將會是讓手機能夠有「看」的能力-其實說穿了不稀奇,智慧型手機中本來就內建有相機,也因此只要搭配「影像識別」的功能,就能讓手機透過影像的辨識來為我們找到對應的資訊,像是今年三星推出Galaxy S8S8+時,就將影像識別功能「Bixby Vision」列入Bixby助理的標準配備。

 

 


圖:MobileNets 影像辨識功能運作的方式。

 

 

為了讓開發者能夠更便利地提供手機上的影像辨識技術,Google 去年就推出以雲端為基礎的「Cloud Vision API」作為相關設備的影像識別功能,像是地標、標誌與文本…等內容的識別。不過由於Cloud Vision API 在運作時需要有網際網路的連結,這對於部份非連網或是嵌入式程式帶來了一些限制,也因此Google在前幾天也公佈了「MobileNets」這個小型、低延遲、低功耗的影像辨識模型,可以滿足資源有限的設備,提供開發者在設備上增加已經有一定「訓練」過的圖像識別模型功能,而不再需要透過雲端運算來提供影像辨識的結果。

 

 


圖:MobileNets 在各個版本的精準度比較。

 

 

而目前Google已經以開源碼的方式 公開 MobileNets,因此任何開發人員都能使用它的功能,取得物體檢測、臉部屬性識別、細粒度分類(像是小狗品種的識別)與地標辨識…等功能,而這項技術也是Google 深度學習模組「TensorFlow」的一部份。

目前Google提供了MobileNets的16個預建置訓練模型,可以用在各種不同類型的行動應用項目,而準確度也達到了70.7%至89.5%之間,相較於以雲端運算為基礎的技術並不會相差太多。透過這樣的技術,未來圖像辨識技術應該可以更普及於各類型的行動裝置中,而且在使用的反應更快,所會耗用的網路數據也將更少,甚至可以透過硬體裝置來整合(像是嵌入至相機甚至是處理晶片中),也將帶來更大的便利性!

 

 

相關連結:

Research Blog: MobileNets: Open-Source Models for Efficient On-Device Vision

 

 

歷史上的這一天,我還寫了…

About 阿祥

阿祥,本名秦庭祥(Axiang Chin),是一個專注於3C領域、尤其是行動通訊領域的部落客,自2004年10月開始經營部落格超過11年之久,長期關注3C產品資訊與應用-尤其聚焦於智慧型行動裝置、雲端服務應用、App評析與行銷、以及遊戲評測與產業趨勢…等議題。阿祥同時也是3C布政司共同創辦人,提供社群行銷、教學與體驗活動規劃…等服務,並曾擔任元智大學資訊傳播學系兼任講師、國立空中大學管理與資訊學系學科委員,並於三星學園長期擔任手機課程講師,也受邀前往多間大學、政府機關擔任講師,分享雲端與行動工具應用心得。 Google

Faccebook 留言載入中...

發表留言