本日説明すること
儲かるデザインの佐藤です。
前回説明いたしました時系列分析について、本日はARMAモデルの続きから話していきます。
本日はタイトルにもあるARIMA、SARIMAを勉強していきましょう。
まず、その前に前回学んだことからおさらいします。
詳しくはこちらをご覧ください。
前編で線形回帰、自己回帰(AR)、移動平均(MA)、自己回帰移動平均(ARMA)について説明させていただきました。
1つめの線形回帰では売上(目的係数)と客単価(説明係数)の組み合わせをたくさん集めて、できるだけ誤差の少ない回帰係数(傾きを示す係数のこと)を求めることが大切であるということを学びました。
回帰係数(傾き)はどのように求めるのがベストかというと誤差を最小にする方法【最小二乗法】を使うのが良いということを勉強しましたね。
2つめの自己回帰(AR)とは今日までの売上から明日の売上を占うというモデルです。
線形回帰との違いは、例えば線形回帰が客単価から売上を求めるのに対して、自己回帰(AR)は先月までの売り上げから今月以降の売り上げを求めるパターンとなります。
ARモデルでは何か月前までのデータを見るか(pと言われる次数)のハイパーパラメータ設定が非常に重要だと説明しました。
何個前までのデータを参考にするのがベストかという指標にAIC(赤池情報基準)というものがあります。
AICは低いほどよく、AICの値が大きいと過学習と考えられます。
3つめの移動平均(MA)モデルは時系列のブレを平滑化するという特徴があると説明しました。
一般的にp は自己回帰部分の次数と呼ばれるのに対して、移動平均部分の次数qと表します。
4つめの自己回帰移動平均(ARMA)は名前の通り、ここまで勉強した自己回帰と移動平均をミックスしたモデルです。
実際の時系列データに適用する場合、誤差を最小化するパラメータを探るため、最小の p (ARの次数)および q(MAの次数) を見つけることでよりよい結果が得られることが知られています。
ここまでが前回の復習。詳しくはこちらをご覧ください。
ひとつめ、ARIMAからやっていきましょう。
ARIMA
ARIMAモデルはAR、MA モデルに加えて差分系列の考えを組み合わせた集大成のようなモデルです。
ARIMAのIは差分のことです。
差分とは何か?
差分とは「違い」という意味です。
次の項から直前の項を引いたものが差分です。
たとえば1,2,3という数字があって3の次の数字を予測するとしましょう。
ARMAモデルは「1,2,3の次は4だよね~」と予測するのに対して、
ARIMAはというと
「1と2の差は1。 2と3の差も1。
だから、次は3に1を足した4が来るよね~」と予測する考え方です。
まずは、差分系列を組み合わせたARIMAを知るにおいて欠かせない、定常、非定常という考え方があるので勉強していきましょう。
定常とは(時間的に)一定して変わらない状態を差します。
それに対し、非定常とは動きがある状態を差します。
非定常から、(さきほど説明した)差分を引くと定常になることがあります。
時間とともに1ずつ数値が増えていくデータがその例で、それぞれ差分を引いたら1となり、定常(動きのない状態)になりますよね。
長期的にトレンドが「右肩上がり」の売上グラフがあったとしたら、差分をかけて定常にしたうえで未来を予測してみましょうというのがARIMAです。
・・・。
ここで疑問が生まれます。
どんなデータも差分を引いたら定常になるのでしょうか?
非定常から差分を引いても定常にならないような難解なデータも存在します。
コロナショックやリーマンショックのような「ショック」があるとARIMAでは解析不可能となってしまいます。
ですので、ARIMAを実行する場合、非定常から差分を引くと定常になるかどうかの確認が必要となるのです。
非定常から差分を引くと定常になる非定常のデータを「単位根な時系列」と言います。
そして、非定常から差分を引くと定常になるかどうか調べることを「単位根検定」と言います。
単位根であるものには以下2点の特徴があります。
- 平均が一定・・・定常に直したらどんなときも(一定期間で区切っても)平均値が一緒である。
- 分散が一定・・・分散とは点のばらつき具合のこと。
例えば50を平均とする偏差値で、毎回45~55のばらつきがでる場合は、毎回5の分散(ばらつき)が出ているということ。
単位根検定で「定常になるかどうか」と「差分を何回かければ定常になるか」を調べましょう。
1回の差分で定常になるデータは少ないですが、(ショックがある解析不能データでなければ)2回、3回と差分をかけると定常になると言われています。
単位根検定で差分を取り除いたデータは、ここで晴れて高い予測結果が期待できるデータに変わるというのは言うまでもありません。
というよりも、これまでに説明したARやMA、ARMAを用いた分析は、最初から定常であることが前提だったのです!
なお、このモデルはARIMA(p,d,q)と表します。
pとqについてはARとMAの次数で、詳しくは前編で解説をしています。
真ん中のdはARIMAの次数(差分を何回かけるか)です。
次はSARIMAを紹介しましょう。
SARIMA
SARIMAのSは季節です。
要するにARIMAに長期的な季節変動を取り入れたモデルがSARIMAなのです。
今月が10月だとしましょう。
来月11月の結果を予測するのに過去の11月の結果を使いましょうというのがSARIMAです。
来年の11月を予測するために前年の11月、前々年の11月、3年前の11月、4年前の11月・・・のデータを参考にするのです。
ここまでの話をまとめると
- 今日までの売上から明日の売上を占う・・・(AR)自己回帰
2 時系列のブレを平滑化する・・・(MA)移動平均
3 トレンド要素から差分dを引く・・・(I)和分
4 季節周期的な要素を考慮する・・・(S)季節
これら1~4をあわせたのがSARIMA(季節自己回帰和分移動平均)モデルでした!
ということで、本日の話はここまでです。
ARモデル、MAモデル、ARMAモデル、ARIMAモデル、SARIMAモデルについて理解が深められましたか?
これらを用いた時系列解析は小売、流通業などの分野ではすでに応用されており、その利用はますます進むことでしょう。
もちろん、当社のコンサルティングサービスではこれまで説明した方法を用いて、お客様の売上予測や経営分析を行っております。
実際にはエクセルのデータファイルをpythonに読み込んだうえで、Pandas(データ解析を支援する機能を提供するライブラリ)やStatsModel(統計検定を実施するライブラリ)を用いて行います。
通常時ならプラスマイナス20%の予実差が目標ですが、2020年の売上予測はコロナの影響で大きく予測を外してしまいました。
今回は大きく外しましたが、将来同じようなショックが起こった時にはどのような結果がでるか、予測材料が増えたことには違いありません。
予実差を定期的にモニタリングし、モデル見直しやパラメータ調整により精度の高い分析を目指していきます。
前編の冒頭でも説明しましたが、(一般的にも)計画性の高い経営ほど、収益拡大へと結びつきやすいと考えられています。
計画性の高い経営をしたい(または店舗運営をしたい)という方はこれをきっかけに是非、時系列分析を勉強してみてはいかがでしょうか?
「当社(当店)のデータを予測してほしい」
「具体的な手法を聞きたい」
「話だけでも聞いてみたい」
という方はビデオサービスZOOMを使って20分の無料コンサルをすることができますので、是非ホームページのCONTACTページからお問い合わせください
(通常コンサルは30分5,000円です)。
小平市でホームページ制作 mocal design 佐藤大樹
小平市花小金井南町1-27-10