通訊、感知與行動是現代人工智能的三個關鍵能力,在這里我們將根據這些能力/應用對這三個技術領域進行介紹:
·計算機視覺(CV)
·自然語言處理(NLP)
·在 NLP 領域中,將覆蓋文本挖掘/分類、機器翻譯和語音識別。
·機器人
計算機視覺(CV)是指機器感知環境的能力。這一技術類別中的經典任務有圖像形成、圖像處理、圖像提取和圖像的三維推理。物體檢測和人臉識別是其比較成功的研究領域。
當前階段:
計算機視覺現已有很多應用,這表明了這類技術的成就,也讓我們將其歸入到應用階段。隨著深度學習的發展,機器甚至能在特定的案例中實現超越人類的表現。但是,這項技術離社會影響階段還有一定距離,那要等到機器能在所有場景中都達到人類的同等水平才行(感知其環境的所有相關方面)。
發展歷史:
語音識別是指識別語音(說出的語言)并將其轉換成對應文本的技術。相反的任務(文本轉語音/TTS)也是這一領域內一個類似的研究主題。
當前階段:
語音識別已經處于應用階段很長時間了。最近幾年,隨著大數據和深度學習技術的發展,語音識別進展頗豐,現在已經非常接近社會影響階段了。
語音識別領域仍然面臨著聲紋識別和「雞尾酒會效應」等一些特殊情況的難題。
現代語音識別系統嚴重依賴于云,在離線時可能就無法取得理想的工作效果。
發展歷史:
百度語音識別:
距離小于1米,中文字準率97%+
支持耳語、長語音、中英文混合及方言
這里的文本挖掘主要是指文本分類,該技術可用于理解、組織和分類結構化或非結構化文本文檔。其涵蓋的主要任務有句法分析、情緒分析和垃圾信息檢測。
當前階段:
我們將這項技術歸類到應用階段,因為現在有很多應用都已經集成了基于文本挖掘的情緒分析或垃圾信息檢測技術。文本挖掘技術也在智能投顧的開發中有所應用,并且提升了用戶體驗。
文本挖掘和分類領域的一個瓶頸出現在歧義和有偏差的數據上。
發展歷史:
機器翻譯(MT)是利用機器的力量自動將一種自然語言(源語言)的文本翻譯成另一種語言(目標語言)。
當前階段:
機器翻譯是一個見證了大量發展歷程的應用領域。該領域最近由于神經機器翻譯而取得了非常顯著的進展,但仍然沒有全面達到專業譯者的水平;但是,我們相信在大數據、云計算和深度學習技術的幫助下,機器翻譯很快就將進入社會影響階段。
在某些情況下,俚語和行話等內容的翻譯會比較困難(受限詞表問題)。
專業領域的機器翻譯(比如醫療領域)表現通常不好。
發展歷史:
機器人學(Robotics)研究的是機器人的設計、制造、運作和應用,以及控制它們的計算機系統、傳感反饋和信息處理。
機器人可以分成兩大類:固定機器人和移動機器人。固定機器人通常被用于工業生產(比如用于裝配線)。常見的移動機器人應用有貨運機器人、空中機器人和自動載具。機器人需要不同部件和系統的協作才能實現最優的作業。其中在硬件上包含傳感器、反應器和控制器;另外還有能夠實現感知能力的軟件,比如定位、地圖測繪和目標識別。
當前階段:
自上世紀「Robot」一詞誕生以來,人們已經為工業制造業設計了很多機器人。工業機器人是增長最快的應用領域,它們在 20 世紀 80 年代將這一領域帶入了應用階段。在安川電機、Fanuc、ABB、庫卡等公司的努力下,我們認為進入 21 世紀之后,機器人領域就已經進入了社會影響階段,此時各種工業機器人已經主宰了裝配生產線。此外,軟體機器人在很多領域也有廣泛的應用,比如在醫療行業協助手術或在金融行業自動執行承銷過程。
但是,法律法規和「機器人威脅論」可能會妨礙機器人領域的發展。還有設計和制造機器人需要相對較高的投資。
發展歷史:
總的來說,人工智能領域的研究前沿正逐漸從搜索、知識和推理領域轉向機器學習、深度學習、計算機視覺和機器人領域。
大多數早期技術至少已經處于應用階段了,而且其中一些已經顯現出了社會影響力。一些新開發的技術可能仍處于工程甚至研究階段,但是我們可以看到不同階段之間轉移的速度變得越來越快。