• Description

任何強化學習設置的一個組成部分是為 RL 代理提供可靠的模擬環境。這最好通過使用功能強大的通用模擬軟體來實現,該軟體具有與 RL 演算法的快速、一致和簡化的連接。對於想要使用 AnyLogic 模型作為強化學習訓練環境的專家或研究人員,可以使用三種服務:AnyLogic Cloud 的互動式 API、用於自動化 RL 的協力廠商平臺和 ALPyne 工具庫。


案例 1:複雜動態系統的最優控制

任何強化學習設置的一個組成部分是為 AI 代理提供可靠的模擬環境。這最好使用功能強大的通用模擬軟體來實現,該軟體具有與 RL 演算法的快速、一致和簡化的連接。從訓練中學到的策略最終可以部署到構建模擬模型的真實系統中。


案例 2:驗證和驗證模擬模型

在其核心,強化學習訓練過程由一個人工探索器組成,該探索器檢查和審查模擬環境的各個角落。通過適當的獎勵模式,該機制可用於部分自動化驗證和驗證過程中一些常見的重複方面,從而對模擬模型的穩健性和保真度進行更徹底的測試。儘管這種方法仍處於起步階段,但它有可能成為所有類型模型驗證和驗證過程中不可或缺的一部分。


案例 3:比較不同 RL 演算法的功效和性能

有標準化 RL 環境的存儲庫供研究人員在可比的競爭環境中測試和比較他們的演算法。然而,這些廣泛使用的環境並沒有提供真實模擬系統中常見的多樣性和複雜性。通用模擬平臺可以提供能夠輕鬆定制的複雜培訓環境,還可以提供不同級別的複雜性和複雜性,這對於每個行業和應用場景都是獨一無二的。


案例 4:作為比較指標來評估人為設計政策的有效性

分析師可以選擇、設計或策劃各種基於規則、演算法或啟發式的解決方案。以 RL 策略的形式訪問基線解決方案對於闡明策劃和手動塑造的解決方案的功效非常有價值 - 特別是當這些解決方案用於無法實現絕對最優的場景時。


工作流程和工具

對於想要使用 AnyLogic 模型作為強化學習訓練環境的專家或研究人員,可以使用三種服務:AnyLogic Cloud 的互動式 API、用於自動化 RL 的協力廠商平臺和 ALPyne 工具庫。

所有這三個選項都使用 RLExperiment 作為它們與模擬模型的主要連接,這意味著模型可以輕鬆移植到任何其他選項。這使您可以選擇從最方便或最相關的選項開始,以適合您的特定用例。隨著專案的發展,您可以輕鬆遷移到不同的、更合適的工作流程。


AnyLogic Cloud 及其互動式 API

將模擬模型上傳到 AnyLogic Cloud 並使用互動式雲 API 與用戶分配的 AI 框架進行通信。

此選項適用於希望使用 AnyLogic Cloud 上託管的模擬環境進行訓練的手動定義 RL 訓練代碼的專家。

AnyLogic 私有雲的所有者可以存取互動式 Python API,該 API 負責在可擴展的基於伺服器的平臺上運行模型。


自動化強化學習環境

將模擬模型上傳(或連接)到自動化 RL 訓練和開發環境。

AnyLogic 積極與自動化 RL 的先驅——Microsoft Project Bonsai & Pathmind——合作,以簡化在應用應用程式中建立和執行 RL 培訓的過程。這些自動化平臺允許最終使用者從尋找最佳 RL 演算法和訓練參數的繁瑣過程中抽像出來。這使得正在尋找實用和可擴展平臺的主題專家能夠從強化學習中受益,而無需計算器科學學位。


ALPyne 的連接

連接匯出的 AnyLogic 模型,並通過 ALPyne 與本地 Python 環境中的 AI 框架進行通信。

對於那些有興趣測試手動策劃的 RL 設置如何與本地機器上的 AnyLogic 模型一起工作的人,ALPyne 提供了一種方法。這個基於 Python 的包讓您與從 RL 實驗匯出的 AnyLogic 模型進行通信。ALPyne 遵循與 AnyLogic Cloud 的互動式 API 類似的 API,提供了以最少的重構遷移到更具可擴展性的設置的機會。