1. <legend id="omqbf"></legend><samp id="omqbf"><sup id="omqbf"><del id="omqbf"></del></sup></samp>
      2. <ol id="omqbf"><menu id="omqbf"></menu></ol>
          <input id="omqbf"></input>
        1. <samp id="omqbf"></samp>
        2. 還未設置個性簽名
          成為VIP會員 享9項特權: 開通會員

          完善資料讓更多小伙伴認識你,還能領取20積分哦, 立即完善>

          3天內不再提示

          利用深度強化學習設計算術電路

          星星科技指導員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-10-10 11:38 ? 次閱讀

          隨著摩爾定律的放緩,開發其他技術來提高同一技術過程節點上芯片的性能變得越來越重要。我們的方法使用人工智能設計更小、更快、更高效的電路,以在每一代芯片中提供更高的性能。

          大量的算術電路陣列為 NVIDIA GPU 提供了動力,使其在人工智能、高性能計算和計算機圖形學方面實現了前所未有的加速。因此,改進這些算術電路的設計對于提高 GPU 的性能和效率至關重要。

          如果人工智能能夠學會設計這些電路呢?在 PrefixRL :使用深度強化學習優化并行前綴電路 中,我們證明了人工智能不僅可以從頭開始學習設計這些電路,而且人工智能設計的電路也比最先進的電子設計自動化( EDA )工具設計的電路更小更快。最新 NVIDIA Hopper GPU 結構 擁有近 13000 個人工智能設計電路實例。

          pYYBAGNDk7WAcHfiAARRyA6NlPU448.png

          圖 1 。由 PrefixRL AI (左)設計的 64b 加法器電路比由最先進的 EDA 工具(右)設計的電路小 25% ,同時速度快,功能等效

          在圖 1 中,電路對應于圖 5 中 PrefixRL 曲線中的( 31.4 μ m 2, 0.186ns )點。

          電路設計游戲

          計算機芯片中的算術電路是使用邏輯門(如 NAND 、 NOR 和 XOR )和導線組成的網絡構建的。理想電路應具有以下特性:

          Small: 一個較低的區域,以便在一個芯片上可以容納更多的電路。

          Fast: 降低延遲以提高芯片性能。

          耗電更少: 芯片功耗更低。

          在本文中,我們重點研究了電路面積和延遲。我們發現功耗與感興趣電路的面積密切相關。電路面積和延遲通常是相互競爭的屬性,因此我們希望找到有效權衡這些屬性的設計的帕累托前沿。簡單地說,我們希望在每個延遲時都有最小面積電路。

          在 PrefixRL 中,我們關注一類流行的算術電路,稱為(并行)前綴電路。 GPU 中的各種重要電路,如加法器、增量器和編碼器,都是前綴電路,可以在更高級別上定義為前綴圖。

          在這項工作中,我們特別提出了一個問題:人工智能代理能否設計出良好的前綴圖?所有前綴圖的狀態空間都很大O(2^n^n),無法使用蠻力方法進行探索。

          poYBAGNDk7eAMDM3AAF_z3mGfeE606.png

          圖 2:PrefixRL 的一次迭代與 4b 電路示例

          使用電路生成器將前綴圖轉換為具有導線和邏輯門的電路。然后,使用物理合成優化(如柵極尺寸、復制和緩沖器插入)通過物理合成工具進一步優化這些生成的電路。

          由于這些物理合成優化,最終電路特性(延遲、面積和功率)不會直接從原始前綴圖特性(如電平和節點數)轉換。這就是為什么人工智能代理學習設計前綴圖,但優化由前綴圖生成的最終電路的屬性。

          我們將算術電路設計作為強化學習( RL )任務,在該任務中,我們訓練代理優化算術電路的面積和延遲特性。對于前綴電路,我們設計了一個環境,在該環境中, RL 代理可以在前綴圖中添加或刪除節點,然后執行以下步驟:

          前綴圖合法化,以始終保持正確的前綴和計算。

          從合法化的前綴圖生成電路。

          使用物理合成工具對電路進行物理合成優化。

          測量了電路的面積和延遲特性。

          在一集中, RL 代理通過添加或刪除節點逐步建立前綴圖。在每個步驟中,代理都會收到相應電路區域的改進和延遲作為獎勵。

          狀態和動作表示與深度強化學習模型

          我們使用 Q 學習算法來訓練電路設計代理。我們對前綴圖使用網格表示,其中網格中的每個元素唯一地映射到前綴節點。這種網格表示法用于 Q 網絡的輸入和輸出。輸入網格中的每個元素表示節點是否存在。輸出網格中的每個元素表示用于添加或刪除節點的 Q 值。

          我們使用完全卷積神經網絡架構作為智能體的輸入和輸出, Q 學習智能體是網格表示。該代理單獨預測面積和延遲屬性的 Q 值,因為面積和延遲的回報在訓練期間是可以單獨觀察到的。

          pYYBAGNDk7mAXfGzAAIlmbhbfeE310.png

          圖 3 。某些 4b 前綴圖(左)和全卷積 Q 學習代理架構(右)的表示

          Raptor 分布式訓練

          PrefixRL 是一項計算要求很高的任務:物理模擬每個 GPU 需要 256 CPU ,訓練 64b 案例需要 32000 GPU 小時。

          我們開發了 Raptor ,這是一個內部分布式強化學習平臺,它利用了 NVIDIA 硬件的特殊優勢來進行這種工業強化學習(圖 4 )。

          Raptor 具有一些增強可擴展性和訓練速度的功能,例如作業調度、自定義網絡和 GPU 感知的數據結構。在 PrefixRL 的上下文中, Raptor 使工作分布在 CPU 、 GPU 和 Spot 實例的混合中成為可能。

          此強化學習應用程序中的網絡具有多樣性,并從以下方面受益。

          Raptor 在 NCCL 之間切換的能力,用于點到點傳輸,以將模型參數直接從學習者 GPU 傳輸到推理 GPU 。

          Redis 用于異步和較小的消息,如獎勵或統計信息。

          JIT 編譯的 RPC ,用于處理高容量和低延遲請求,例如上載體驗數據。

          最后, Raptor 提供了支持 GPU 的數據結構,例如重播緩沖區,該緩沖區具有多線程服務器,用于接收來自多個工作人員的經驗,并并行地批處理數據并將其預取到 GPU 上。

          圖 4 顯示,我們的框架支持并行訓練和數據收集,并利用 NCCL 有效地向參與者發送最新參數。

          poYBAGNDk7qAQJ48AAA-DstUw6E972.png

          圖 4 。我們使用 Raptor 進行解耦并行訓練和獎勵計算,以克服電路合成延遲

          獎勵計算

          我們使用[0 , 1]中的折衷權重 w 來組合面積和延遲目標。我們訓練具有不同權重的各種代理,以獲得平衡面積和延遲之間權衡的帕累托前沿設計。

          RL 環境中的物理合成優化可以生成各種解決方案,以在面積和延遲之間進行權衡。我們應該使用與訓練特定代理相同的權衡權重來驅動物理合成工具。

          在循環中執行物理合成優化以進行獎勵計算有幾個優點。

          RL 代理學習直接優化目標技術節點和庫的最終電路屬性。

          通過在物理合成過程中包含周圍邏輯, RL 代理可以聯合優化目標算術電路及其周圍邏輯的屬性。

          然而,執行物理合成是一個緩慢的過程( 64b 加法器約 35 秒),這會大大減緩 RL 訓練和探索。

          我們將獎勵計算與狀態更新解耦,因為代理只需要當前前綴圖狀態來采取行動,而不需要電路合成或之前的獎勵。多虧了 Raptor ,我們可以將冗長的獎勵計算轉移到 CPU 工作人員池中,并行執行物理合成,而演員代理無需等待即可在環境中穿行。

          當 CPU 工作者返回獎勵時,可以將轉換插入重播緩沖區。緩存合成獎勵,以避免在狀態重新計數時進行冗余計算。

          后果

          RL 代理純粹通過從合成電路屬性反饋的學習來學習設計電路。圖 5 顯示了使用 PrefixRL 設計的 64b 加法器電路的最新結果*, Pareto 主導的加法器電路來自最先進的 EDA 工具,在面積和延遲方面。

          在相同延遲下,最好的 PrefixRL 加法器的面積比 EDA 工具加法器低 25% 。這些經過物理綜合優化后映射到帕累托最優加法器電路的前綴圖具有不規則結構。

          pYYBAGNDlAiASDNRAAERuuakI4A382.png

          圖 5 。 PrefixRL 設計的算術電路比最先進的 EDA 工具設計的電路更小更快。(左)電路架構;(右)對應的 64b 加法器電路特性圖

          結論

          據我們所知,這是第一種使用深度強化學習代理設計算術電路的方法。我們希望該方法可以成為將人工智能應用于現實電路設計問題的藍圖:構建動作空間、狀態表示、 RL 代理模型、針對多個競爭目標進行優化,以及克服物理合成等緩慢的獎勵計算過程。

          關于作者

          Rajarshi Roy 是 NVIDIA 應用深度學習研究小組的高級研究科學家。他研究了使用深度學習、機器學習和強化學習改進芯片設計、架構和系統的新方法。在研究之前, Rajarshi 作為 NVIDIA GPU ASIC 團隊的硬件工程師,對幾種 GPU 架構的設計和驗證做出了貢獻。拉賈希在斯坦福大學獲得電氣工程碩士學位。

          Jonathan Raiman 是 NVIDIA 應用深度學習研究小組的高級研究科學家,致力于大規模分布式強化學習和系統人工智能。此前,他是 OpenAI 的研究科學家,在那里他共同創建了 OpenAI Five ,一個超人深度強化學習 Dota 2 機器人。在百度 SVAIL ,他共同創建了幾個神經文本語音轉換系統(深度語音 1 、 2 和 3 ),并致力于語音識別(深度語音 2 )和問答(全球標準化閱讀器)。他也是 DeepType 1 和 DeepType 2 (一種超人實體鏈接系統)的創建者。他正在巴黎薩克萊完成博士學位,此前在麻省理工學院獲得碩士學位。

          Saad Godil 是 NVIDIA 應用深度學習研究的主管,他領導的團隊正在探索在我們的芯片設計和硬件項目中使用人工智能的新方法。在此之前,他是 NVIDIA 的 GPU 驗證主管,在半導體行業有十多年的經驗。

          審核編輯:郭婷

          • NVIDIA
            +關注

            關注

            14

            文章

            2910

            瀏覽量

            96082
          • gpu
            gpu
            +關注

            關注

            27

            文章

            3010

            瀏覽量

            117593
          • 計算機
            +關注

            關注

            16

            文章

            4959

            瀏覽量

            79402
          • eda
            eda
            +關注

            關注

            66

            文章

            1804

            瀏覽量

            163939
          • 深度強化學習

            關注

            0

            文章

            7

            瀏覽量

            1909
          收藏 人收藏

            評論

            相關推薦

            深度學習技術的開發與應用

            降落任務1.DQN/Double DQN/Dueling DQN2.PER高頻問題:1.深度強化學習網絡訓練穩定性 2.探索與利用關鍵點:1.經驗回放技術的實現2.目標網絡更新實操解析與訓練四實驗
            發表于 04-21 14:57 ? 次 閱讀

            GTC2022大會黃仁勛:NVIDIA NVCell強化學習模型正在執行芯片布局

            GTC2022大會黃仁勛:NVIDIA NVCell強化學習模型正在執行芯片布局,具備語言監督的多模態學習計算機視覺開拓了新維度。
            的頭像 發表于 03-23 15:23 ? 次 閱讀
            GTC2022大會黃仁勛:NVIDIA NVCell<b>強化學習</b>模型正在執行芯片布局

            Oneflow 實現強化學習玩 Flappy Bird 小游戲

            本文主要內容是如何用Oenflow去復現強化學習玩 Flappy Bird 小游戲這篇論文的算法關鍵部分,還有記錄復現過程中一些踩過的坑。
            發表于 01-26 18:19 ? 次 閱讀
            Oneflow 實現<b>強化學習</b>玩 Flappy Bird 小游戲

            《自動化學報》—多Agent深度強化學習綜述

            多Agent 深度強化學習綜述 來源:《自動化學報》,作者梁星星等 摘 要?近年來,深度強化學習(Deep reinforcement learning,DRL) 在諸多復雜序貫決策問題中取得巨大
            發表于 01-18 10:08 ? 次 閱讀
            《自動<b>化學</b>報》—多Agent<b>深度</b><b>強化學習</b>綜述

            《上海交通大學學報》—基于深度強化學習的區域化視覺導航方法

            基于深度強化學習的區域化視覺導航方法 人工智能技術與咨詢? 本文來自《 上海交通大學學報 》,作者李鵬等 關注微信公眾號:人工智能技術與咨詢。了解更多咨詢! ? 在環境中高效導航是智能
            發表于 11-19 11:03 ? 次 閱讀
            《上海交通大學學報》—基于<b>深度</b><b>強化學習</b>的區域化視覺導航方法

            《中國艦船研究》—基于深度強化學習的智能船舶航跡跟蹤控制

            基于深度強化學習的智能船舶航跡跟蹤控制 人工智能技術與咨詢 昨天 本文來自《中國艦船研究》?,作者??旱?關注微信公眾號:人工智能技術與咨詢。了解更多咨詢! 0.?? 引 言 目前,國內外對運載工具
            發表于 11-18 11:07 ? 次 閱讀

            計算機視覺應用深度學習

            怎樣從傳統機器學習方法過渡到深度學習?
            發表于 10-14 06:51 ? 次 閱讀

            使用Matlab進行強化學習電子版資源下載

            使用Matlab進行強化學習電子版資源下載
            發表于 07-16 11:17 ? 次 閱讀

            深度學習及無線通信熱點問題介紹

            利用ML構建無線環境地圖及其在無線通信中的應用?使用深度學習的收發機設計和信道解碼基于ML的混合學習方法,用于信道估計、建模、預測和壓縮 使用自動編碼器等ML技術的端到端通信?無線電資源管理深度強化學習
            發表于 07-01 10:49 ? 次 閱讀

            基于強化學習的虛擬場景角色乒乓球訓練

            基于強化學習的虛擬場景角色乒乓球訓練
            發表于 06-27 11:34 ? 次 閱讀

            基于深度強化學習的無人機控制律設計方法

            基于深度強化學習的無人機控制律設計方法
            發表于 06-23 14:59 ? 次 閱讀

            一種新型的多智能體深度強化學習算法

            一種新型的多智能體深度強化學習算法
            發表于 06-23 10:42 ? 次 閱讀

            基于深度強化學習仿真集成的壓邊力控制模型

            壓邊力控制策略的學習優化?;?b>深度強化學習的壓邊力優化算法,利用深度神經網絡處理巨大的狀態空間,避免了系統動力學的擬合,并且使用一種新的網絡結構來構建策略網絡,將壓邊力策略劃分為全局與局部兩部分,提高了壓邊
            發表于 05-27 10:32 ? 次 閱讀

            基于強化學習的壯語詞標注方法

            符號構建標注詞典,通過依存句法分析融合語義特征,并以長短期記憶網絡為策略網絡,利用循環記憶完善部分觀測信息。在此基礎上,引入強化學習框架,將目標詞性作為環境反饋,通過特征學習不斷逼近目標真實值。實驗結果表明
            發表于 05-14 11:29 ? 次 閱讀

            虛擬乒乓球手的強化學習模仿訓練方法

            沉浸感是虛擬現實應用的重要特征之一,而虛擬場景中角色行為的智能性與真實性對虛擬現實應用的沉浸感有著顯著影響。利用強化學習方法對球拍的擊球策略進行訓練,根據乒乓球游戲規則設計了一系列獎勵函數,使之能
            發表于 05-12 14:55 ? 次 閱讀

            基于強化學習的車聯網邊云協同卸載方案

            車聯網邊緣計算是實現車聯網系統低時延和高可靠性的關鍵技術,但現有方法普遍存在場景趨同和系統建模局限的問題,同時包含復雜的訓練過程并面臨維災風險。通過結合云計算技術,提出一種基于多智能體強化學習的邊云
            發表于 04-29 11:21 ? 次 閱讀
            基于<b>強化學習</b>的車聯網邊云協同卸載方案

            基于深度強化學習的路口單交叉信號控制

            利用深度強化學習技術實現路口信號控制是智能交通領域的硏究熱點?,F有硏究大多利用強化學習來全面刻畫交通狀態以及設計有效強化學習算法以解決信號配時問題,但這些研究往往忽略了信號燈狀態對動作選擇的影響以及
            發表于 04-23 15:30 ? 次 閱讀
            基于<b>深度</b><b>強化學習</b>的路口單交叉信號控制

            強化學習的雙權重最小二乘Sarsa算法

            強化學習是人工智能領域中的一個研究熱點。在求解強化學習問題時,傳統的最小二乘法作為一類特殊的函數逼近學習方法,具有收斂速度快、充分利用樣本數據的優勢。通過對最小二乘時序差分算法
            發表于 04-23 15:03 ? 次 閱讀
            <b>強化學習</b>的雙權重最小二乘Sarsa算法

            當機器人遇見強化學習,會碰出怎樣的火花?

            當機器人遇見強化學習,會碰出怎樣的火花? 一名叫 Cassie 的機器人,給出了生動演繹。 最近,24 歲的中國南昌小伙李鐘毓和其所在團隊,用強化學習教 Cassie 走路 ,目前它已學會蹲伏走路和
            的頭像 發表于 04-13 09:35 ? 次 閱讀
            當機器人遇見<b>強化學習</b>,會碰出怎樣的火花?

            模型化深度強化學習應用研究綜述

            深度強化學習(DRL)作為機器學習的重要分攴,在 Alphago擊敗人類后受到了廣泛關注。DRL以種試錯機制與環境進行交互,并通過最大化累積獎賞最終得到最優策略。強化學習可分為無模型強化學習和模型化
            發表于 04-12 11:01 ? 次 閱讀
            模型化<b>深度</b><b>強化學習</b>應用研究綜述

            機器學習中的無模型強化學習算法及研究綜述

            強化學習( Reinforcement learning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與環境進行交互來學習,最終將累積收益最大化。常用的強化學習算法分為
            發表于 04-08 11:41 ? 次 閱讀
            機器<b>學習</b>中的無模型<b>強化學習</b>算法及研究綜述

            深度強化學習實戰

            一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
            發表于 01-10 13:42 ? 次 閱讀

            深度學習DeepLearning實戰

            一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
            發表于 01-09 17:01 ? 次 閱讀

            強化學習在智能對話上的應用介紹

            本文主要介紹深度強化學習在任務型對話上的應用,兩者的結合點主要是將深度強化學習應用于任務型對話的策略學習上來源:騰訊技術工程微信號
            的頭像 發表于 12-10 19:02 ? 次 閱讀

            DeepMind發布強化學習庫RLax

            RLax(發音為“ relax”)是建立在JAX之上的庫,它公開了用于實施強化學習智能體的有用構建塊。。報道:深度強化學習實驗室作者:DeepRL ...
            的頭像 發表于 12-10 18:43 ? 次 閱讀

            83篇文獻、萬字總結強化學習之路

            深度強化學習深度學習強化學習相結合的產物,它集成了深度學習在視覺等感知問題上強大的理解能力,以及強化學習的決策能力,實現了...
            的頭像 發表于 12-10 18:32 ? 次 閱讀

            人工智能AI-深度學習C#&LabVIEW視覺控制演示效果

            不斷變化的,因此深度學習是人工智能AI的重要組成部分??梢哉f人腦視覺系統和神經網絡。2、目標檢測、目標跟蹤、圖像增強、強化學習、模型壓縮、視頻理解、人臉技術、三維視覺、SLAM、GAN、GNN等。
            發表于 11-27 11:54 ? 次 閱讀

            一文詳談機器學習強化學習

            強化學習屬于機器學習中的一個子集,它使代理能夠理解在特定環境中執行特定操作的相應結果。目前,相當一部分機器人就在使用強化學習掌握種種新能力。
            發表于 11-06 15:33 ? 次 閱讀

            什么是深度強化學習?

            不過,深度神經網絡系統往往需要大量的訓練數據,以及已知答案的帶標簽樣本,才能正常地工作。并且,它們目前尚無法完全模仿人類學習和運用智慧的方式。
            的頭像 發表于 08-28 14:21 ? 次 閱讀
            什么是<b>深度</b><b>強化學習</b>?

            AI能在單臺計算機訓練 深度強化學習對處理尤為苛刻

            訓練最新 AI 系統需要驚人的計算資源,這意味著囊中羞澀的學術界實驗室很難趕上富有的科技公司。但一種新的方法可以讓科學家在單臺計算機上訓練先機的 AI。2018 年 OpenAI 報告每 3.4 個月訓練最強大 AI 所需的處理能力會翻一番,其中深度強化學習對處理尤為苛刻。
            發表于 07-29 09:45 ? 次 閱讀

            基于PPO強化學習算法的AI應用案例

            Viet Nguyen就是其中一個。這位來自德國的程序員表示自己只玩到了第9個關卡。因此,他決定利用強化學習AI算法來幫他完成未通關的遺憾。
            發表于 07-29 09:30 ? 次 閱讀

            復雜應用中運用人工智能核心 強化學習

            近期,有不少報道強化學習算法在 GO、Dota 2 和 Starcraft 2 等一系列游戲中打敗了專業玩家的新聞。強化學習是一種機器學習類型,能夠在電子游戲、機器人、自動駕駛等復雜應用中運用人工智能。
            發表于 07-27 08:50 ? 次 閱讀

            人工智能深度學習是如何成為智能行業的新高地

            深度學習強化學習的結合是一個技術上的發展,延續的深度學習在自然語言處理和計算機視覺中的應用突破。值得關注的是之前的深度學習的應用停留在預測上,比如說對圖像的識別、機器翻譯。對于深度學習來說,真正需要的大數據,就目前而言
            的頭像 發表于 06-19 09:29 ? 次 閱讀

            深度強化學習到底是什么?它的工作原理是怎么樣的

            深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經得到廣泛的研究和應用。強化學習RL是通過對未知環境一邊探索一邊建立環境模型以及學習得到一個最優策略。強化學習是機器學習中一種
            的頭像 發表于 06-13 11:39 ? 次 閱讀

            深度強化學習的概念和工作原理的詳細資料說明

            深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經得到廣泛的研究和應用。強化學習RL是通過對未知環境一邊探索一邊建立環境模型以及學習得到一個最優策略。強化學習是機器學習中一種
            的頭像 發表于 05-16 09:20 ? 次 閱讀

            人工智能的強化學習要點

            強化學習(RL)是現代人工智能領域中最熱門的研究主題之一,其普及度還在不斷增長。 讓我們看一下開始學習RL需要了解的5件事。
            的頭像 發表于 05-04 18:14 ? 次 閱讀
            人工智能的<b>強化學習</b>要點

            深度強化學習的筆記資料免費下載

            本文檔的主要內容詳細介紹的是深度強化學習的筆記資料免費下載。
            發表于 03-10 08:00 ? 次 閱讀
            <b>深度</b><b>強化學習</b>的筆記資料免費下載

            關于深度強化學習的概念以及它的工作原理

            深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經得到廣泛的研究和應用。
            發表于 01-30 09:53 ? 次 閱讀
            關于<b>深度</b><b>強化學習</b>的概念以及它的工作原理

            人工智能之深度強化學習DRL的解析

            深度學習DL是機器學習中一種基于對數據進行表征學習的方法。深度學習DL有監督和非監督之分,都已經得到廣泛的研究和應用。
            發表于 01-24 10:46 ? 次 閱讀

            懶惰強化學習算法在發電調控REG框架的應用

            惰性是人類的天性,然而惰性能讓人類無需過于復雜的練習就能學習某項技能,對于人工智能而言,是否可有基于惰性的快速學習的方法?本文提出一種懶惰強化學習(Lazy reinforcement learning, LRL) 算法。
            發表于 01-16 17:40 ? 次 閱讀

            深度強化學習你知道是什么嗎

            強化學習非常適合實現自主決策,相比之下監督學習與無監督學習技術則無法獨立完成此項工作。
            發表于 12-10 14:34 ? 次 閱讀

            Facebook推出ReAgent AI強化學習工具包

            Facebook近日推出ReAgent強化學習(reinforcement learning)工具包,首次通過收集離線反饋(offline feedback)來實現策略評估(policy evaluation)。
            發表于 10-19 09:38 ? 次 閱讀

            使用Python實踐強化學習PDF電子書免費下載

            本書面向對人工智能感興趣并想從零開始學習強化學習的機器學習開發者和深度學習愛好者。閱讀這本書,通過在工作中或項目中實施實際例子,成為強化學習專家。掌握一些線性代數、微積分和Python編程語言的知識將幫助您理解本書的流程。
            發表于 09-03 08:00 ? 次 閱讀

            強化學習應用中對話系統的用戶模擬器

            近幾年來,強化學習在任務導向型對話系統中得到了廣泛的應用,對話系統通常被統計建模成為一個 馬爾科夫決策過程(Markov Decision Process)模型,通過隨機優化的方法來學習對話策略。
            發表于 08-06 14:16 ? 次 閱讀

            深度強化學習給推薦系統以及CTR預估工業界帶來的最新進展

            所以,Google這兩篇強化學習應用于YouTube推薦論文的出現給大家帶來了比較振奮人心的希望。首先,論文中宣稱效果對比使用的Baseline就是YouTube推薦線上最新的深度學習模型;
            的頭像 發表于 07-18 11:11 ? 次 閱讀
            <b>深度</b><b>強化學習</b>給推薦系統以及CTR預估工業界帶來的最新進展

            深度學習的起源與先行者

            深度學習也增強了強化學習這一已存在的領域。
            發表于 07-11 16:06 ? 次 閱讀

            基于深度強化學習的飛機大戰游戲

            如何訓練AI玩飛機大戰游戲(創號版)
            發表于 07-01 12:27 ? 次 閱讀

            谷歌發布非政策強化學習算法OPC的最新研究機器學習即將開辟新篇章?

            在谷歌最新的論文中,研究人員提出了“非政策強化學習”算法OPC,它是強化學習的一種變體,它能夠評估哪種機器學習模型將產生最好的結果。數據顯示,OPC比基線機器學習算法有著顯著的提高,更加穩健可靠。
            的頭像 發表于 06-22 11:17 ? 次 閱讀

            DeepMind 綜述深度強化學習:智能體和人類相似度竟然如此高!

            近年來,深度強化學習(Deep reinforcement learning)方法在人工智能方面取得了矚目的成就
            的頭像 發表于 06-03 14:36 ? 次 閱讀

            DeepMind 綜述深度強化學習 智能體和人類相似度竟然如此高

            近年來,深度強化學習(Deep reinforcement learning)方法在人工智能方面取得了矚目的成就,從 Atari 游戲、到圍棋、再到無限制撲克等領域,AI 的表現都大大超越了專業選手,這一進展引起了眾多認知科學家的關注。
            的頭像 發表于 05-30 17:29 ? 次 閱讀
            DeepMind 綜述<b>深度</b><b>強化學習</b> 智能體和人類相似度竟然如此高

            深度強化學習是否已經到達盡頭?

            近日,Reddit一位網友根據近期OpenAI Five、AlphaStar的表現,提出“深度強化學習是否已經到達盡頭”的問題。
            的頭像 發表于 05-10 16:34 ? 次 閱讀

            深度強化學習已經達到了盡頭?

            不可否認,深度學習的熱度已經大大下降,贊美深度學習作為AI終極算法的推文少得多了,而且論文正在變得不那么“革命”,現在大家換了個詞,叫:進化。
            的頭像 發表于 04-29 08:56 ? 次 閱讀

            反向強化學習的思路

            強化學習的另一種策略(二)
            發表于 04-03 12:10 ? 次 閱讀

            深度學習加持,四足機器人ANYMAL 橫空出世

            ANYMAL與被植入了硬性程序的機器人不同,在深度強化學習的加持下,ANYMAL具有自我學習、自我升級的能力,因而能適應更多場景。
            的頭像 發表于 03-21 10:07 ? 次 閱讀

            利用強化學習來更好地進行商品搜索的項目

            強化學習 (IRL) 方法從數據中學習一個獎勵函數,然后根據這個獎勵函數訓練一個策略。IRL 放松了數據的 i.i.d. 假設,但仍然假設環境是靜態的。當環境 (即淘寶平臺) 發生變化時,學習策略可能會失敗。上述問題使得這些方法在構建虛擬淘寶時不太實用。
            的頭像 發表于 03-05 09:06 ? 次 閱讀
            <b>利用</b><b>強化學習</b>來更好地進行商品搜索的項目

            多智體深度強化學習研究中首次將概率遞歸推理引入AI的學習過程

            在傳統的多智體學習過程當中,有研究者在對其他智能體建模 (也即“對手建?!? opponent modeling) 時使用了遞歸推理,但由于算法復雜和計算力所限,目前還尚未有人在多智體深度強化學習 (Multi-Agent Deep Reinforcement Learning) 的對手建模中使用遞歸推
            的頭像 發表于 03-05 08:52 ? 次 閱讀

            NLP中的深度學習技術概述

            該項目是對基于深度學習的自然語言處理(NLP)的概述,包括用來解決不同 NLP 任務和應用的深度學習模型(如循環神經網絡、卷積神經網絡和強化學習)的理論介紹和實現細節,以及對 NLP 任務(機器翻譯、問答和對話系統)當前最優結果的總結。
            的頭像 發表于 03-01 09:13 ? 次 閱讀
            NLP中的<b>深度</b><b>學習</b>技術概述

            谷歌、DeepMind重磅推出PlaNet 強化學習新突破

            Google AI 與 DeepMind 合作推出深度規劃網絡 (PlaNet),這是一個純粹基于模型的智能體,能從圖像輸入中學習世界模型,完成多項規劃任務,數據效率平均提升50倍,強化學習又一突破。
            的頭像 發表于 02-17 09:30 ? 次 閱讀
            谷歌、DeepMind重磅推出PlaNet <b>強化學習</b>新突破

            對NAS任務中強化學習的效率進行深入思考

            在一些情況下,我們會用策略函數(policy, 總得分,也就是搭建的網絡在測試集上的精度(accuracy),通過強化學習(Reinforcement Learning)這種通用黑盒算法來優化。然而,因為強化學習本身具有數據利用率低的特點,這個優化的過程往往需要大量的計算資源。
            的頭像 發表于 01-28 09:54 ? 次 閱讀

            使用加權密集連接卷積網絡的深度強化學習方法說明

            針對深度強化學習中卷積神經網絡(CNN)層數過深導致的梯度消失問題,提出一種將密集連接卷積網絡應用于強化學習的方法。首先,利用密集連接卷積網絡中的跨層連接結構進行圖像特征的有效提??;然后,在密集連接
            發表于 01-23 10:41 ? 次 閱讀
            使用加權密集連接卷積網絡的<b>深度</b><b>強化學習</b>方法說明

            深度強化學習能讓機器人擁有人一樣的意識

            一種人工智能系統,即通過深度強化學習學習走路,簡單來說,就是教“一個四足機器人來穿越熟悉和不熟悉的地形”。
            發表于 01-03 09:50 ? 次 閱讀

            量化深度強化學習算法的泛化能力

            OpenAI 近期發布了一個新的訓練環境 CoinRun,它提供了一個度量智能體將其學習經驗活學活用到新情況的能力指標,而且還可以解決一項長期存在于強化學習中的疑難問題——即使是廣受贊譽的強化算法在訓練過程中也總是沒有運用監督學習的技術。
            的頭像 發表于 01-01 09:22 ? 次 閱讀
            量化<b>深度</b><b>強化學習</b>算法的泛化能力

            利用ECS進行深度學習詳細攻略

            ECS:利用ECS進行深度學習詳細攻略
            發表于 12-24 11:47 ? 次 閱讀

            如何測試強化學習智能體適應性

            強化學習(RL)能通過獎勵或懲罰使智能體實現目標,并將它們學習到的經驗轉移到新環境中。
            的頭像 發表于 12-24 09:29 ? 次 閱讀

            如何使用深度強化學習進行機械臂視覺抓取控制的優化方法概述

            針對提高視覺圖像特征與優化控制之間契合度的問題,本文提出一種基于深度強化學習的機械臂視覺抓取控制優化方法,可以自主地從與環境交互產生的視覺圖像中不斷學習特征提取,直接地將提取的特征應用于機械臂抓取
            發表于 12-19 15:23 ? 次 閱讀
            如何使用<b>深度</b><b>強化學習</b>進行機械臂視覺抓取控制的優化方法概述

            如何構建強化學習模型來訓練無人車算法

            本文作者通過簡單的方式構建了強化學習模型來訓練無人車算法,可以為初學者提供快速入門的經驗。
            的頭像 發表于 11-12 14:47 ? 次 閱讀

            基于強化學習的MADDPG算法原理及實現

            之前接觸的強化學習算法都是單個智能體的強化學習算法,但是也有很多重要的應用場景牽涉到多個智能體之間的交互。
            的頭像 發表于 11-02 16:18 ? 次 閱讀

            基于目標圖像的視覺強化學習算法,讓機器人可以同時學習多個任務

            強化學習是一種訓練主體最大化獎勵的學習機制,對于目標條件下的強化學習來說可以將獎勵函數設為當前狀態與目標狀態之間距離的反比函數,那么最大化獎勵就對應著最小化與目標函數的距離。
            的頭像 發表于 09-24 10:11 ? 次 閱讀

            用PopArt進行多任務深度強化學習

            按照以往的做法,如果研究人員要用強化學習算法對獎勵進行剪枝,以此克服獎勵范圍各不相同的問題,他們首先會把大的獎勵設為+1,小的獎勵為-1,然后對預期獎勵做歸一化處理。雖然這種做法易于學習,但它也改變了智能體的目標。
            的頭像 發表于 09-16 09:32 ? 次 閱讀

            人工智能深度學習發展迅速,智能科技公司都已經涉足人工智能產品的研發!

            ,Deep Learning—遷移學習5,Deep Learning—深度強化學習6,深度學習的常用模型或者方法深度學習交流大群: 372526178 (資料共享,加群備注楊春嬌邀請)
            發表于 09-05 10:22 ? 次 閱讀

            深度強化學習將如何控制機械臂的靈活動作

            直接的強化學習方法很有吸引力,它無需過多假設,而且能自動掌握很多技能。由于這種方法除了建立函數無需其他信息,所以很容易在改進后的環境中重新學習技能,例如更換了目標物體或機械手。
            的頭像 發表于 09-05 08:54 ? 次 閱讀

            Google強化學習框架,要滿足哪三大特性

            強化學習是一種非常重要 AI 技術,它能使用獎勵(或懲罰)來驅動智能體(agents)朝著特定目標前進,比如它訓練的 AI 系統 AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度
            的頭像 發表于 09-03 14:06 ? 次 閱讀

            谷歌推出新的基于Tensorflow的強化學習框架,稱為Dopamine

            強化學習(RL)研究在過去幾年取得了許多重大進展。強化學習的進步使得 AI 智能體能夠在一些游戲上超過人類,值得關注的例子包括 DeepMind 攻破 Atari 游戲的 DQN,在圍棋中獲得矚目的 AlphaGo 和 AlphaGo Zero,以及在 Dota2 對戰人類職業玩家的Open AI Five。
            的頭像 發表于 08-31 09:20 ? 次 閱讀

            強化學習和監督式學習, 非監督式學習的區別

            而這時,強化學習會在沒有任何標簽的情況下,通過先嘗試做出一些行為得到一個結果,通過這個結果是對還是錯的反饋,調整之前的行為,就這樣不斷的調整,算法能夠學習到在什么樣的情況下選擇什么樣的行為可以得到最好的結果。
            的頭像 發表于 08-21 09:18 ? 次 閱讀
            <b>強化學習</b>和監督式<b>學習</b>, 非監督式<b>學習</b>的區別

            強化學習環境研究,智能體玩游戲為什么厲害

            強化學習作為一種常用的訓練智能體的方法,能夠完成很多復雜的任務。在強化學習中,智能體的策略是通過將獎勵函數最大化訓練的。獎勵在智能體之外,各個環境中的獎勵各不相同。深度學習的成功大多是有密集并且有效的獎勵函數,例如電子游戲中不斷增加的“分數”。
            的頭像 發表于 08-18 11:38 ? 次 閱讀

            探討深度學習在自動駕駛中的應用

            深度強化學習的理論、自動駕駛技術的現狀以及問題、深度強化學習在自動駕駛技術當中的應用及基于深度強化學習的禮讓自動駕駛研究。
            的頭像 發表于 08-18 10:19 ? 次 閱讀

            強化學習泡沫之后,人工智能的終極答案是什么?

            結合 DL 與 RL 的深度強化學習(Deep Reinforcement Learning, DRL)迅速成為人工智能界的焦點。
            的頭像 發表于 08-09 10:12 ? 次 閱讀

            OpenAI 把在模擬器中強化學習學到的方案遷移到機械手上

            這些具有一定難度的任務 OpenAI 自己也在研究,他們認為這是深度強化學習發展到新時代之后可以作為新標桿的算法測試任務,而且也歡迎其它機構與學校的研究人員一同研究這些任務,把深度強化學習的表現推上新的臺階。
            的頭像 發表于 08-03 14:27 ? 次 閱讀

            什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

            強化學習是人工智能基本的子領域之一,在強化學習的框架中,智能體通過與環境互動,來學習采取何種動作能使其在給定環境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來學習。
            的頭像 發表于 07-15 10:56 ? 次 閱讀
            什么是<b>強化學習</b>?純<b>強化學習</b>有意義嗎?<b>強化學習</b>有什么的致命缺陷?

            AlphaGo是如何戰勝圍棋高手的?深度學習告訴你

            AlphaGo(阿爾法狗)創新性地將深度強化學習DRL和蒙特卡羅樹搜索MCTS相結合, 通過價值網絡(value network)評估局面以減小搜索深度, 利用策略網絡(policy network)降低搜索寬度, 使搜索效率得到大幅提升, 勝率估算也更加精確。
            發表于 07-15 07:28 ? 次 閱讀
            AlphaGo是如何戰勝圍棋高手的?<b>深度</b><b>學習</b>告訴你

            強化學習的經典基礎性缺陷可能限制它解決很多復雜問題

            這些都是除了從零學習之外的強化學習方法。特別是元學習和零次學習體現了人在學習一種新技能時更有可能的做法,與純強化學習有差別。一個元學習智能體會利用先驗知識快速學習棋類游戲,盡管它不明白游戲規則
            的頭像 發表于 07-14 08:42 ? 次 閱讀

            深度強化學習是什么?有什么優點?

            與監督機器學習不同,在強化學習中,研究人員通過讓一個代理與環境交互來訓練模型。當代理的行為產生期望的結果時,它得到正反饋。例如,代理人獲得一個點數或贏得一場比賽的獎勵。簡單地說,研究人員加強了代理人的良好行為。
            發表于 07-13 09:33 ? 次 閱讀
            <b>深度</b><b>強化學習</b>是什么?有什么優點?

            AI核心領域——強化學習的缺陷

            前段時間,OpenAI的游戲機器人在Dota2的比賽中贏了人類的5人小組,取得了團隊勝利,是強化學習攻克的又一游戲里程碑。
            的頭像 發表于 07-13 08:56 ? 次 閱讀
            AI核心領域——<b>強化學習</b>的缺陷

            強化學習在自動駕駛的應用

            自動駕駛汽車首先是人工智能問題,而強化學習是機器學習的一個重要分支,是多學科多領域交叉的一個產物。今天人工智能頭條給大家介紹強化學習在自動駕駛的一個應用案例,無需3D地圖也無需規則,讓汽車從零開始在二十分鐘內學會自動駕駛。
            的頭像 發表于 07-10 09:00 ? 次 閱讀
            <b>強化學習</b>在自動駕駛的應用

            深度學習強化學習相結合的深度強化學習DRL

            深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深度強化學習DRL非常
            發表于 06-29 18:36 ? 次 閱讀

            一個使用傳統DAS和深度強化學習融合的自動駕駛框架

            本文提出了一個使用傳統DAS和深度強化學習融合的自動駕駛框架。該框架在DAS功能(例如車道變換,巡航控制和車道保持等)下,以最大限度地提高平均速度和最少車道變化為規則,來確定超車次數??尚旭偪臻g
            的頭像 發表于 06-14 09:41 ? 次 閱讀

            利用對抗性深度強化學習來衡量自動駕駛汽車的運動規劃和碰撞避免機制的可靠性

            and rule-based techniques),等等。最近,機器學習的進步使得基于諸如模仿學習深度強化學習(RL)等技術的全新數據驅動的碰撞避免方法成為可能。
            的頭像 發表于 06-08 09:54 ? 次 閱讀
            <b>利用</b>對抗性<b>深度</b><b>強化學習</b>來衡量自動駕駛汽車的運動規劃和碰撞避免機制的可靠性

            斯坦福提出基于目標的策略強化學習方法——SOORL

            為了達到人類學習的速率,斯坦福的研究人員們提出了一種基于目標的策略強化學習方法——SOORL,把重點放在對策略的探索和模型選擇上。
            的頭像 發表于 06-06 11:18 ? 次 閱讀
            斯坦福提出基于目標的策略<b>強化學習</b>方法——SOORL

            人工智能機器學習強化學習

            強化學習是智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習中的監督學習,主要表現在教師信號上,強化學習中由環境提供的強化信號是對產生動作的好壞作一種評價
            發表于 05-30 06:53 ? 次 閱讀

            利用強化學習探索多巴胺對學習的作用

            當我們使用虛擬的計算機屏幕和隨機選擇的圖像來模擬一個非常相似的測試時,我們發現,我們的“元強化學習智能體”(meta-RL agent)似乎是以類似于Harlow實驗中的動物的方式在學習,甚至在被顯示以前從未見過的全新圖像時也是如此。
            的頭像 發表于 05-16 09:03 ? 次 閱讀
            <b>利用</b><b>強化學習</b>探索多巴胺對<b>學習</b>的作用

            簡單隨機搜索:無模型強化學習的高效途徑

            讓我們在強化學習社區感興趣的問題上應用隨機搜索。深度強化學習領域一直把大量時間和精力用于由OpenAI維護的、基于MuJoCo模擬器的一套基準測試中。這里,最優控制問題指的是讓一個有腿機器人在一個
            的頭像 發表于 04-01 09:35 ? 次 閱讀
            簡單隨機搜索:無模型<b>強化學習</b>的高效途徑

            如何深度強化學習 人工智能和深度學習的進階

            傳統上,強化學習在人工智能領域占據著一個合適的地位。但強化學習在過去幾年已開始在很多人工智能計劃中發揮更大的作用。
            的頭像 發表于 03-03 14:16 ? 次 閱讀

            強化學習的風儲合作決策

            在風儲配置給定前提下,研究風電與儲能系統如何有機合作的問題。核心在于風電與儲能組成混合系統參與電力交易,通過合作提升其市場競爭的能力。針對現有研究的不足,在具有過程化樣本的前提下,引入強化學習算法
            發表于 01-27 10:20 ? 次 閱讀
            <b>強化學習</b>的風儲合作決策

            基于LCS和LS-SVM的多機器人強化學習

            本文提出了一種LCS和LS-SVM相結合的多機器人強化學習方法,LS-SVM獲得的最優學習策略作為LCS的初始規則集。LCS通過與環境的交互,能更快發現指導多機器人強化學習的規則,為強化學習系統
            發表于 01-09 14:43 ? 次 閱讀

            基于分層強化學習的多Agent路徑規劃

            策略可獲得的最大回報;其次,利用分層強化學習方法的無環境模型學習以及局部更新能力將策略更新過程限制在規模較小的局部空間或維度較低的高層空間上,提高學習算法的性能;最后,針對出租車問題在柵格環境中對所提算法進行了仿真實驗
            發表于 12-27 14:32 ? 次 閱讀
            基于分層<b>強化學習</b>的多Agent路徑規劃

            薩頓科普了強化學習、深度強化學習,并談到了這項技術的潛力和發展方向

            薩頓在專訪中(再次)科普了強化學習、深度強化學習,并談到了這項技術的潛力,以及接下來的發展方向:預測學習
            的頭像 發表于 12-27 09:07 ? 次 閱讀

            深度強化學習分析研究

            請訂閱2016年《程序員》 盡管監督式和非監督式學習深度模型已經廣泛被技術社區所采用,深度強化學習仍舊顯得有些神秘。這篇文章將試圖揭秘
            發表于 10-09 18:28 ? 次 閱讀
            <b>深度</b><b>強化學習</b>分析研究

            深度學習、強化學習和遷移學習有機結合的研究

            聲譽卓著。在此前接受CSDN采訪時,楊強介紹了他目前的主要工作致力于一個將深度學習、強化學習和遷移學習有機結合的Reinforcement Transfer Learning(RTL)體系的研究。那么,這個技術框架對工業界的實際應用有什么用的實際意義?在本文中,CSDN結合楊強的另外一個身份國內人工智能
            發表于 10-09 18:23 ? 次 閱讀

            強化學習在RoboCup帶球任務中的應用劉飛

            強化學習在RoboCup帶球任務中的應用_劉飛
            發表于 03-14 08:00 ? 次 閱讀

            基于強化學習的飛行自動駕駛儀設計

            針對強化學習在連續狀態連續動作空間中的維度災難問題,利用BP神經網絡算法作為值函數逼近策略,設計了自動駕駛儀。并引入動作池機制,有效避免飛行仿真中危險動作的發生。首先
            發表于 06-25 16:27 ? 次 閱讀
            基于<b>強化學習</b>的飛行自動駕駛儀設計

            下載硬聲App