最適制御問題: 連続時間システムの最適制御

0. はじめに

先日は,4章の内容をまとめた (最適制御問題: 変分法).今回は,5章の内容をまとめる.

1. 5章の概要

5章では,連続時間システムに対する最適制御問題を扱っている.最適制御問題の基本的な問題設定,変分法から導出した停留条件 (オイラー・ラグランジュ方程式),局所最適性の十分条件,最適解の摂動についてまとめられている.このブログではオイラー・ラグランジュ方程式までをまとめる (詳しい導出は省略).詳しい導出とそれ以降の内容は手書きの資料に載せている.

ここで扱う最適制御問題は連続時間システム

(5.1)x˙(t)=f(x(t),u(t),t)

(ただし,x(t)Rnは状態ベクトル,u(t)Rmは制御入力ベクトル) に対して,初期時刻t0,終端時刻tf,初期状態x(t0)=x0が与えられた下で評価関数

(5.2)J=φ(x(tf))+t0tfL(x(t),u(t),t)dt

が与えられ,それを最小化するような最適制御u(t)を求める,というような問題である.つまり,ここで考える最適制御問題は,関数x(t)u(t)の汎関数である評価関数Jを,等式制約である状態方程式の下で最小化する変分問題である.

等式制約

f(x,u,t)x˙=0

に対応するラグランジュ乗数のベクトルをλ(t)Rnとして,制約条件の下での停留条件を求めるための汎関数Jを構成すると,

(5.3)J=φ(x(tf))+t0tf{L(x,u,t+λT(fx˙)}dt

となる.ここで,スカラー値関数H

H(x,u,λ,t):=L(x,u,t)+λTf(x,u,t)

と定義する.Hは最適制御問題のハミルトン関数と呼ばれる.このHを用いると,汎関数Jは,以下のようにx˙の項とそれ以外の項に分けて書き直される.

J=φ(x(tf))+t0tf(H(x,u,λ,t)λTx˙)dt

上記の問題設定の下で,評価関数 (5.2) を最小にする最適制御 u(t) (t0ttf) が存在するとし,対応する最適軌道をx(t)とすると,n次元ベクトル値関数λ(t)が存在して以下のオイラー・ラグランジュ方程式が成り立つ.

(5.4)x˙=f(x,u,t), x(t0)=x0

(5.5)λ˙=(Hx)T(x,u,λ,t), λ(tf)=(φx)(x(tf))

(5.6)Hu(x,u,λ,t)=0

これは,x(t)u(t)の連立微分方程式とみなすことができるが,x(t)は初期状態x(t0)が与えられているのに対し,λ(t)は終端値λ(tf)に対する条件が与えられている.このような問題を2点境界値問題という.多くの場合,非線形の微分方程式の解析解は得られないので,初期状態を未知のパラメータとして終端条件が成り立つための条件を書き下すことは困難である.

以下に,各節の内容をまとめた手書きのメモを掲載する.

2. まとめ

ここまで読んで,最適制御問題は状態と入力の汎関数である評価関数を等式制約である状態方程式の下で最小化する変分問題であり,最適制御と最適軌道,ラグランジュ乗数に対してオイラー・ラグランジュ方程式が成り立つことは分かったが,その後どうするのかまだ分かっていない.連休中にやる気があれば6章と7章を読みたいと思っている.

Ai Tachibana (Kosuke Toda)
Ai Tachibana (Kosuke Toda)
master’s student

修士2年です.興味があることを少しだけ触ってます.飽きっぽいです.

関連項目