元障害対応系システムエンジニアが語る東証システム障害の問題点◆番外編◆【夢幻】



【お知らせ】
下記リンクのメルマガを中心に情報を更新していく予定です。
無料ですのでぜひご登録いただけるとありがたいです

西村剛の投資戦略メルマガ【無料】




夢幻です。

10月1日、日本の証券取引市場の中枢をなす東京証券取引所が
システム障害により終日売買停止となりました。

東証のシステムを間借りしている名証や札証など地方取引所も同様に売買停止となり、
別システムだった大阪証券取引所を除く、日本の取引市場の大半が停止に陥り、証券業界に激震が走りました。

翌日10月2日を迎えるまでに障害対応は無事完了し、
ほぼ正常に取引されたのは不幸中の幸いです。

過去に東証が売買停止となったことは過去2005年に一度あり、
ライブドア株に注文が殺到した事で、サーバの処理量を超え、
システム停止に追い込まれました。

しかし、その日は後場は13:30から取引可能となり、
終日取引停止は2000年以降では初めての出来事です。

そもそも2000年以前は今のようなネット環境を用いての注文はかなり少なかったでしょうから、事実上初めての東証システム上の終日取引停止といっても良いのではないかと思います。

驚いたのが、この恐ろしい事態を深刻にとらえている人が驚くほど少なかった事です。

なぜなら、1日取引出来ないだけでも決済等が出来なくなり、それに関わり損害が発生する可能性は多く、東証を運営するJPX(日本取引所グループ)は損害賠償を求められる可能性もあるような事態だからです。

そして、海外投資家はこのようなシステムトラブルを嫌う事が多く、
下手をすればそこに上場している上場銘柄の価値を損ねるような事態です。

楽観的な方が多かったのは、それだけ現在の市況が良いことと、経験の浅い投資家が多く、そういった背景を知らないのではないかと思います。

◎元障害対応系システムエンジニアが語る東証システム障害の問題点

前回、私の新卒の頃の投資話をしましたが、
その時の仕事がシステムエンジニアで5年ほどの経験があります。

私が居た部署ではネットワークやサーバを扱っており、大手キャリアの障害監視システムや大手のネット配信サービスの通信インフラの業務を行った経験もあります。

今回障害の対象となったような、障害を前提としたクラスタ構成(運用系と待機系のシステムを切り替えて運用する構成)のシステムもメインで扱っていたので、その経験をもとに今回の障害について解説してみたいと思います。

・どのような障害対応システムになっていたか、原因は何か?
・なぜ障害に対応したシステムなのにこのようなトラブルが起きるのか?

まず、今回の東証のシステムですが、原因は株価を配信する運用系サーバに障害が起きた事です。

具体的には配信サーバに接続されている共有ストレージに格納されているメモリ装置が故障した事が主原因です。

このように、運用系サーバにトラブルが起きた場合、待機系のサーバに切り替えて、システムを停止することなく稼働することが可能です。
(この切り替え動作の事をフェイルオーバーと呼びます。)

私たちが知らないところで、このようなクラスタ(冗長化)構成のシステムのお陰で大半のシステムは止まる事なくシステムを継続できています。

なお、共有ディスクも複数台のクラスタ構成になっていたようです。(ややこしい)

しかし、今回は共有ディスクのメモリが故障しても、正常にフェイルオーバーが行われずシステム障害となりました。

フェイルオーバー出来なかった理由はまだ不明ですが、おそらく何らかの理由で障害監視システムが、メモリ障害を検知出来なかった事が原因ではないかと思います。

何故私がこう考えるかというと、テストではメモリようなハードウエアの障害テストは

・障害を再現させにくい
・メモリ機器が非常に高価でクリティカルなテストがしづらい

という懸念があり、積極的に行われないからです。

私も障害テストの経験は多々あり、大規模なシステムになると数日がかりで数百、数千のテストを行います。

例えばハードウエアの故障テストでは、

ネットワークの線を引き抜いたり、
ハードディスクをひきぬいたり
サーバやディスク自体の電源を強制終了したり

という事はやりますが、メモリを引き抜いた事はありません(笑)

そもそも、専用設計のシステムなので、メモリ自体が引き抜けない設計になっているかもしれません。

また、テストの時間は限られていますし、障害の種類も無数に存在しますので、必ずイレギュラーなケースでこのような不測の事態は起こりえます。

当然、疑似的にメモリ障害のような事を起こしテストする場合もありますが、かなりイレギュラーな壊れ方をしたのではないかと想定されます。

もちろん、日本の証券の中枢システムなので、もっと複雑なテストを時間をかけて行っていると思いますが、それでもこのようなトラブルが起こる可能性を0には出来ません。

・今後予想される障害やリスク等

さて、1日夕刻に東証のシステム障害について会見が行われて、内容を聞いていたのですが、少し深刻な問題がある事がわかりました。

それは、障害が起きたディスクを切り離して待機系ディスクのみで運用出来たが、それを手動で行うには、システム全体の再起動が必要で、それを行った場合、証券会社から受け付けているデータの整合性(注文データなど)が確保出来ず、2次被害をもたらす可能性があるという事です。

つまり、東証のシステムがいくら回復できても、他の証券会社のシステムとの連携の部分で問題が起きてしまうとの事で、これにより、朝のほかの証券会社の注文を受け付ける時点で今回のようなトラブルが発生していると、同じように終日売買停止となるケースは考えられるとのお話でした。

その回答で、システム責任者は、”なのでこのようなシステム障害が起きたまま、注文受付時間を迎える事は(本来)あってはならない事”と話していました。

東証のように堅牢性の高いクラスタ構成を用いれば、東証のシステム自体としては稼働率を100%に高い水準まで保つことができますが、証券会社との連携して上手く動くかという観点からみると、かなり信頼性が下がってしまう事が明らかになりました。

実際に10月2日では取引こそ正常に出来たものの、株価データが正常に反映されない不具合が多々あったようです。

実際システム設計の現場では、自社の中ではいくらでもテスト出来ますが、取引所と証券会社とが連携してテストをやるというのは、あまり積極的に行われないかと思います。

それは、「東京証券取引所のシステムが絶対にシステムトラブルを起こさない」事が前提としてあるからです。

今回の障害時にも、各証券会社の運用者と連携を取り、状況をヒアリングして
終日稼働停止を決めた事からも、通常ではそういった密な連携が無い事が伺えました。

今回のトラブルが原因で、取引所主導で他の証券会社と連携してこういったトラブルに備えるという事もやりやすくなったのではないかと思います。

いずれにせよ、投資家・トレーダーとしては取引所が無ければ売買すら出来ないのですから更なるシステムの信頼性向上に努めてもらいたいですね。

今回は番外編として東証のシステム障害を取り上げてみましたがいかがだったでしょうか。
では次回は元の話題に戻ります。

お楽しみに!

 

ー夢幻

【無料】システムトレードの検証ができる株式投資ソフトのフリー版を無料プレゼントします。こちらをクリックください!


The following two tabs change content below.

夢幻

平均年利100%以上を叩き出し、今なお資産を増加し続ける現役の専業システムトレーダー。 会社員時代は投資教育会社の統括マネージャーとして、成果を挙げた個人投資家やプロトレーダー、ファンドマネージャーなどに数多く会い、様々な実践トレードの手法を学ぶ。 斉藤正章氏や西村とも古くから交流があり、「システムトレードの達人」を開発当初から愛用している。 退職後は、当時の資金500万円のうち100万円を設備投資に使い、資金400万円で専業トレーダーに転身。 トレードの利益から生活費を捻出するため、当初は、資産がなかなか増えていかない状況が続くも、「システムトレードの達人」を使い独自の投資手法を構築することで、本格的にトレードを開始した2013年以降は年利回りが50%下回ることがないという安定した実績を残している。