當前位置:首頁 > 活動 > 重要會議 > 雙周財經論壇 > 文章詳情

徐君:從Alpha Go 到智能搜索:淺談人工智能的任務和方法

發表于

   

  2018年5月22日,中國社科院財經戰略研究院2018年度第8期“雙周財經論壇”在財經院九層第二會議室召開。本期論壇特邀中國科學院計算技術研究所徐君研究員作題為“從Alpha Go 到智能搜索:淺談人工智能的任務和方法”的學術報告。財經院副院長夏杰長研究員主持了本次學術報告會。

  徐君研究員主要從人工智能任務和方法上介紹Alpha Go的技術創新以及其對當前智能搜索技術發展的重要貢獻。整個學術報告包括“人工智能”、“Alpha Go 和Alpha Zero”、“人工智能在智能搜索中的應用”和“結語”四個部分。

  首先,徐君研究員對“人工智能”的概念進行了闡釋,認為盡管人工智能成為最熱門的領域,其科學概念有諸多討論但到底什么是人工智能并沒有形成共識,很大原因在于人類對自身智能的理解非常有限,對構成人的智能的必要元素也了解有限。在這種情況下,當前對人工智能判斷的主要方法之一是依據外在表現判定是否具有“智能”,即“圖靈測試”。圖靈測試避免了從哲學意義上對機器是否能夠擁有智能上的爭論,但是也存在很多不足。

  在對人工智能概念和圖靈測試進行分析后,徐君研究員介紹了人類的棋類游戲成為人工智能測試任務的發展歷程。IBM的超級電腦深藍戰勝國際象棋世界冠軍卡斯帕羅夫是Alpha Go之前,人工智能在棋類游戲測試上的成功案例,計算機通過近似窮舉的方式戰勝人類代表了高性能計算機技術取得了突破性進展,但窮舉搜索并不意味著“深藍”實現了“智能”。圍棋是人工智能棋類測試任務中最為復雜的棋類游戲,由于圍棋的落子可能性很多而且棋局很長,也就是搜索的寬度很寬,深度很深,現有計算機技術無法進行窮舉搜索。Deep Mind研發的Alpha Go、Alpha Zero能夠戰勝人類頂尖棋手,一方面是有其強大的計算機系統支撐,但主要的技術突破在于搜索算法的突破,實現了機器的深度強化學習和自學習。

  徐君研究員認為Alpha Go的深度學習實現了以過程為中心的傳統精確算法向以優化為中心的模糊算法轉變。圍棋是一種完全信息下交替選擇的馬爾科夫博弈游戲(Fully observed state alternating Markov game)。Alpha Go通過智能體-環境交互建模決策序列進行深度強化學習,其馬爾科夫決策過程(MDP)包括了狀態,動作,短期獎勵,策略和長期回報五個過程;通過深度強化學習,Alpha Go建立了其策略網絡(估算每一個落子位置的概率)和價值網絡(估算當前棋局的勝率)。Alpha Go以及完全通過自學習形成的Alpha Zero的出現和取得的成功代表了計算機在深度強化學習能力上的巨大突破,計算機可以在極少的專業領域知識,無人類積累的數據和指引下完成學習任務,并可以在能力上超越人類。但徐君研究員并不認為Alpha Go的人工智能擺脫了對人類知識的依賴。

  最后,徐君研究員分析了Alpha Go的技術突破對智能搜索發展的貢獻。他認為利用深度強化學習技術建模的智能搜索技術可以更好更快地為用戶提供所需要的搜索結果,大大提高了用戶的便利度。當前領先的互聯網公司都在利用計算機進行深度強化學習,提高信息流處理效率,為用戶提供更好的使用體驗。

  30余名所內外研究人員、在校研究生參加了此次“雙周財經論壇”。會后,多位與會研究人員與徐君研究員進行了交流。與會者對本次學術報告給予了高度評價,認為獲益良多。

  (執筆:趙京橋)