久久88香港三级台湾三级中文-久久91-久久91精品国产91久-久久91精品国产91久久-久久91精品国产91久久户

  • 頭條基于在線附加Q學習的伺服電機速度最優跟蹤控制方法
    2019-11-15 作者:鄒曉敏、肖曦 等  |  來源:《電工技術學報》  |  點擊率:
    分享到:
    導語清華大學電機工程與應用電子技術系、陜西航空電氣有限責任公司、圣彼得堡彼得大帝理工大學圣彼得堡的研究人員鄒曉敏、肖曦、何琪、Shkodyrev Vyacheslav,在2019年第5期《電工技術學報》上撰文,該文將在線Q學習方法與附加控制思想相結合,討論了其在伺服系統中電機速度最優跟蹤控制問題上的應用。 首先在線性二次型跟蹤器問題的框架下對待求解問題進行了定義;然后給出了在線附加Q學習迭代式地進行策略評價、策略改善的具體算法。仿真測試中,首先為電機速度跟蹤問題設計了傳統的PI控制器,然后將基于該文思路所設計的附加控制器與其并聯,組成新的速度控制器。 仿真結果表明,附加控制器顯著改善了電機速度跟蹤的動態響應特性,并且具備在被控系統參數發生改變時自動調優的自適應能力。非線性系統在特定條件下可進行局部線性化時,也可用該方法來得到更優的控制性能。

    在工業應用場景中,跟蹤控制問題無處不在,如化工生產中的溫度控制、濃度控制,伺服系統中的速度控制、位置控制等。提高跟蹤控制器的控制性能有利于工業系統朝著精密化、節能化的方向發展。為研究如何實現最優跟蹤控制,學界提出了線性二次型跟蹤器(Linear Quadratic Tracker, LQT)問題。

    該問題的目標是設計一個控制器,使得在該控制器作用下系統輸出在某個線性二次型指標下性能最優。傳統的LQT解法包含兩個步驟:首先求解代數黎卡提方程(Algebraic Riccati Equation, ARE)得到一個反饋項,然后求解一個非因果的微分方程得到一個前饋項[1]。該解法一般需要離線進行,且需要知道被控系統的動態模型。

    為了擴大LQT的應用范圍,使其在系統動態模型未知的情況下也能得到最優控制輸出,人們嘗試將自適應動態規劃(Adaptive Dynamic Programming,ADP)的思想(文獻[2]中也稱其為強化學習(Reinforcement Learning, RL))應用到LQT問題中。

    Q學習算法是ADP方法中較為流行的一種,已有大量研究將其用在了線性二次型調節器(Linear Quadratic Regulator, LQR)問題的求解上。該算法屬于一種策略迭代(Policy Iteration)式的算法,它的應用不需要知道被控系統的動態模型。

    然而,相比于LQR問題,LQT問題中前饋項的計算帶來了額外的復雜度,因此Q學習在LQT問題中還未能得到大量的應用。文獻中已有的應用案例也往往附帶了某些前提條件,如要求系統動態模型已知等[5]。文獻[4]提出了一種將Q學習應用于離散線性系統最優跟蹤控制的方法,并給出了理論上的收斂性證明。該算法可在線運行,并且將系統模型的辨識包含在了策略迭代的過程中,因此不需要知道系統的動態模型即可達到線性二次型指標下的最優控制。

    值得指出的是,目前基于ADP思想的控制方法具有對噪聲干擾敏感、收斂性差、運行工況受限、運算量大的缺點,這些都限制了它們在實際控制器中的應用。在實際應用中,一般被控系統都已經預先擁有可用的控制器,只是該控制器的控制性能需要得到改善。

    為充分發揮ADP控制方法的自適應性與原控制器的穩定性,賦予原控制器在線學習的能力,近年來有學者提出將基于ADP思想的控制器作為附加控制器與原控制器并聯使用,取得了一定的效果。

    在電力系統控制領域,文獻[6]將附加學習控制用于含大規模風電的電力系統中傳統火電機組的附加頻率控制,文獻[7]將附加學習控制用于雙饋風電場的暫態無功控制。在電力電子領域,文獻[8]將附加學習控制用于并聯型有源電力濾波器的控制,文獻[9,10]將附加學習控制用于虛擬同步機的控制。在以上文獻的仿真驗證中,附加學習控制均帶來了一定的控制性能提升。

    速度控制是交流電機伺服系統中的一個重要問題,傳統上多采用PID控制。在電機運行過程中,轉動慣量、轉矩環時間常數等參數均容易發生一定的變化,影響速度環的控制性能。因此在要求高精度的場合中,傳統的PID控制無法滿足需要,往往需要對速度控制器做自適應設計。

    常見的自適應設計方法有非線性PI控制、自適應控制、自抗擾控制、模糊系統、滑模控制等。其中非線性PI控制包括PI參數自整定、變結構PI控制等。部分PI參數自整定的研究用到了ADP思想,即通過某種逼近結構(如神經網絡)對系統進行建模,再根據某種代價函數動態地調整Kp、Ki,一般用于控制難以建模的電機(如開關磁阻電機)。雖然對于速度環的改進方向已經很豐富,然而目前將Q學習與附加學習相結合用于電機速度控制的研究還非常之少。

    本文在文獻[4]所提的用于跟蹤控制的Q學習方法的基礎上,結合附加控制的思想,提出了用于跟蹤控制的在線附加Q學習方法。首先在LQT問題的框架下對待求解問題進行了定義;然后針對性地給出了在線附加Q學習迭代式地進行策略評價、策略改善的具體算法。

    為驗證所提算法的有效性,選取伺服系統中電機速度跟蹤這一實際問題進行仿真。首先為被控系統設計了傳統的PI控制器,然后將本文所提出的附加控制器與其并聯組成新的控制器,最后通過仿真對不同參數設置下的控制效果進行了分析。

    基于在線附加Q學習的伺服電機速度最優跟蹤控制方法

    圖1 附加Q學習最優跟蹤控制器結構示意圖

    基于在線附加Q學習的伺服電機速度最優跟蹤控制方法

    圖2 附加控制下電機速度環結構框圖

    結論

    本文將在線Q學習最優跟蹤控制方法與附加控制思想相結合,討論了其在線性離散系統無模型化跟蹤控制問題上的應用。對于電機速度跟蹤這一實際問題,首先為其設計了傳統的PI控制器,然后設計了基于在線Q學習的附加控制器與原控制器并聯。仿真結果表明,這一做法顯著改善了電機速度跟蹤的動態響應特性,并且具備在被控系統參數發生改變時自動調優的自適應能力。

    雖然本文的研究基于線性系統,但實際生產中有大量的非線性系統在特定條件下可以進行局部線性化,此時即可用本文方法來處理。當檢測到系統進入不可線性化的區域時(如PI發生飽和時),可停止附加控制的輸入,此時可通過原控制器繼續維持系統在不可線性化區域的穩定運行。

主站蜘蛛池模板: 1024.1024亚洲 国产 图片| 久久激情免费视频| 国产成人综合久久亚洲精品| 久久久久草| 亚洲精品国产第一区二区多人| 一级做a爰片久久毛片16| 中文字幕国产在线观看| 色综合中文| 国内精品九一在线播放| 精品无码三级在线观看视频 | 免费一看一级毛片人| 国产高颜值露脸在线观看| 情趣色视频网站| 国产成人精品男人的天堂网站| 欧美69视频在线| a毛片免费| 久久免费视频在线观看30| 中文在线观看视频| 免费黄在线观看| 国产91香蕉| 国产成人一区二区三区在线视频| 美女一级毛片免费观看| 国产精品品福利视频| 久久精品视频免费在线观看| 欧美在线观看一区二区三| a级国产乱理片在线观看| 久久一级| 尤物视频在线观看免费| 在线观看视频一区二区| 玖玖精品在线视频| 国产一级一级| 国产成人亚洲欧美三区综合| 国产码一区二区三区| 国产精品果冻| 国产精品免费看久久久麻豆| 91人人爱| jpnesxxx日本| 91最新网站免费| 99久久国产综合精品女不卡| 成人国产在线不卡视频| 成人午夜免费视频|