技術(shù)
導(dǎo)讀:深度強(qiáng)化學(xué)習(xí)( DRL ) 是人工智能研究的一個(gè)令人興奮的領(lǐng)域,這個(gè)領(lǐng)域在許多問(wèn)題上都具有潛在的適用性。有些人認(rèn)為DRL是通往通用人工智能(AGI)的一條道路,因?yàn)樗峭ㄟ^(guò)探索和接收環(huán)境的反饋來(lái)反映人類學(xué)習(xí)的。
深度強(qiáng)化學(xué)習(xí)( DRL ) 是人工智能研究的一個(gè)令人興奮的領(lǐng)域,這個(gè)領(lǐng)域在許多問(wèn)題上都具有潛在的適用性。有些人認(rèn)為DRL是通往通用人工智能(AGI)的一條道路,因?yàn)樗峭ㄟ^(guò)探索和接收環(huán)境的反饋來(lái)反映人類學(xué)習(xí)的。
最近,DRL成功擊敗人類視頻游戲玩家,以及雙足智能體學(xué)習(xí)在模擬環(huán)境中行走,這些進(jìn)展都提高了人們對(duì)該領(lǐng)域的熱情。
與基于已知標(biāo)簽訓(xùn)練模型的監(jiān)督學(xué)習(xí)不同,在強(qiáng)化學(xué)習(xí)中,研究人員通過(guò)讓智能體與環(huán)境交互來(lái)訓(xùn)練模型。當(dāng)智能體的行為產(chǎn)生期望的結(jié)果時(shí),例如智能體獲得獎(jiǎng)勵(lì)得分或贏得一場(chǎng)比賽,它會(huì)得到積極的反饋。簡(jiǎn)單地說(shuō),研究人員加強(qiáng)了智能體的良好行為。
將 DRL 應(yīng)用于實(shí)際問(wèn)題的關(guān)鍵挑戰(zhàn)之一是構(gòu)造一個(gè)激勵(lì)函數(shù),該函數(shù)鼓勵(lì)期望的行為而不存在副作用。
也許值得注意的是,盡管深度強(qiáng)化學(xué)習(xí)(“深層”指的是底層模型是一個(gè)深層神經(jīng)網(wǎng)絡(luò))仍然是一個(gè)相對(duì)較新的領(lǐng)域,但強(qiáng)化學(xué)習(xí)自上世紀(jì)70年代或更早就出現(xiàn)了。
圖丨Andrej Karpathy
正如計(jì)算機(jī)視覺(jué)領(lǐng)域大牛之一、李飛飛高徒、曾在OpenAI任研究科學(xué)家、現(xiàn)任特斯拉AI總監(jiān)的 Andrej Karpathy 在他2016的博文中所指出的那樣,像AlphaGo和Atari Deep Q-Learning這樣關(guān)鍵的 DRL 研究都是基于已經(jīng)存在了一段時(shí)間的算法,但是深度學(xué)習(xí)取代了其他近似函數(shù)的方法。當(dāng)然,他們能夠使用深度學(xué)習(xí)歸功于過(guò)去20多年中廉價(jià)計(jì)算能力的爆炸式增長(zhǎng)。
DRL帶給人們的信心,再加上谷歌在2014年以5億美元收購(gòu)DeepMind的行為,使得許多初創(chuàng)公司希望利用這項(xiàng)技術(shù)。由于人們對(duì) DRL 越來(lái)越感興趣,我們也看到了新的開(kāi)源工具包和 DRL 智能體的訓(xùn)練環(huán)境。這些框架中的大多數(shù)本質(zhì)上都是專用的仿真工具或接口,以下是幾個(gè)值得關(guān)注的工具包:
OpenAI Gym
OpenAI Gym是一個(gè)流行的工具包,用于開(kāi)發(fā)和比較強(qiáng)化學(xué)習(xí)模型。它的模擬器界面支持多種環(huán)境,包括經(jīng)典的Atari游戲,以及機(jī)器人和物理模擬器,如MuJoCo和DARPA資助的Gazebo。和其他DRL工具包一樣,它提供API來(lái)反饋觀察結(jié)果和獎(jiǎng)勵(lì)給智能體。
DeepMind Lab
DeepMind Lab是一個(gè)基于Quake III第一人稱射擊游戲的3D學(xué)習(xí)環(huán)境,為智能體訓(xùn)練提供導(dǎo)航和學(xué)習(xí)任務(wù)。DeepMind最近增加了DMLab-30智能體訓(xùn)練套裝,并引入了新的Impala分布式智能體訓(xùn)練體系結(jié)構(gòu)。
Psychlab
另一個(gè)DeepMind工具包Psychlab今年早些時(shí)候開(kāi)源了,它擴(kuò)展了DeepMind Lab,以支持認(rèn)知心理學(xué)實(shí)驗(yàn),比如搜索一組特定目標(biāo)或檢測(cè)一組物體的變化。然后,研究人員可以比較人類和智能體在這些任務(wù)上的表現(xiàn)。
House3D
在加州大學(xué)伯克利分校和Facebook人工智能研究人員的合作下,House 3D提供了45,000多個(gè)模擬室內(nèi)場(chǎng)景,包括真實(shí)的房間和家具布局。介紹House 3D的論文中提到的主要任務(wù)是“概念驅(qū)動(dòng)導(dǎo)航”,比如訓(xùn)練一個(gè)智能體,在只給出像“餐廳”這樣的高級(jí)描述符的情況下,導(dǎo)航到房子中的一個(gè)房間。
Unity Machine Learning Agents
在Danny Lange (VP of AI and ML) 的指導(dǎo)下,游戲引擎開(kāi)發(fā)者Unity公司正在努力將先進(jìn)的人工智能技術(shù)納入其平臺(tái)。Unity Machine Learning Agents于2017年9月發(fā)布,這是一個(gè)開(kāi)源的Unity 插件,它可以讓運(yùn)行在該平臺(tái)上的游戲和仿真環(huán)境作為訓(xùn)練智能體的環(huán)境。
Ray
這里列出的其他工具主要關(guān)注DRL培訓(xùn)環(huán)境,Ray則更多地介紹了DRL的基礎(chǔ)架構(gòu)。Ray是由Ion Stoica和他在Berkeley RISELab的團(tuán)隊(duì)開(kāi)發(fā)的,它是一個(gè)在集群和大型多核機(jī)器上高效運(yùn)行Python代碼的框架,其目標(biāo)是為強(qiáng)化學(xué)習(xí)提供一個(gè)低延遲的分布式執(zhí)行框架。
所有這些工具和平臺(tái)的出現(xiàn)將使 DRL 更便于開(kāi)發(fā)人員和研究人員使用。但是,他們需要得到所有的能得到的幫助,因?yàn)樯疃葟?qiáng)化學(xué)習(xí)技術(shù)很難付諸實(shí)踐。谷歌工程師 Alex Irpan 最近發(fā)表了一篇題為“深度強(qiáng)化學(xué)習(xí)還不成熟”的文章,對(duì)原因進(jìn)行了解釋。Irpan 列舉了 DRL 所需的大量數(shù)據(jù)、大多數(shù) DRL 方法沒(méi)有利用關(guān)于所涉及的系統(tǒng)和環(huán)境的先驗(yàn)知識(shí)、以及前面提到的提出有效的激勵(lì)函數(shù)方面的困難等問(wèn)題。
從研究和應(yīng)用的角度來(lái)看,深度強(qiáng)化學(xué)習(xí)能繼續(xù)成為人工智能領(lǐng)域的一個(gè)熱門(mén)話題。它在處理復(fù)雜、多方面和決策問(wèn)題方面顯示出巨大的潛力,這使得它不僅對(duì)工業(yè)系統(tǒng)和游戲有用,而且在營(yíng)銷、廣告、金融、教育,甚至數(shù)據(jù)科學(xué)本身等領(lǐng)域都很有用。