サイト信頼性エンジニア(SRE)は、ソフトウェアエンジニアリングと運用/インフラストラクチャの両方の側面を含む役割です。 また、サービス全体にわたる戦略と一連のプラクティスと原則を網羅し、DevOpsと運用と密接に結びついています。 サイト信頼性エンジニアリングという用語は、サイトの信頼性チームが設立された2003年にGoogleで初めて登場しました。 当時、チームはソフトウェアエンジニアで構成されていました。 それ以来、サイト信頼性エンジニアリングの概念は進化し、より広範なソフトウェア開発業界に進出し、現在は組織の中で独自の役割を果たしています。
サイトの信頼性エンジニアは、運用とソフトウェア開発者の間のギャップを埋めます。 サイトの信頼性エンジニアが組織から組織に対して行う作業に対して、すべてのアプローチに適合するサイズは 1 つではありませんが、サイトの信頼性エンジニアの責任は、システムの可用性、遅延、パフォーマンス、効率性、インシデント対応、組織のサービスのキャパシティ プランニングなどの広範な目標を含むことができます。 この役割と組織内での役割の機能について詳しく理解しましょう。
サイト信頼性エンジニアリングとは
別の方法として、サイトの信頼性エンジニアリングは、従来の IT の役割、つまりシステム管理の役割、および DevOps が満たされる場所です。 従来の IT 環境では、複雑なシステムを管理するシステム管理者チームが所属していた可能性があります。 ソフトウェアが適切に展開され、信頼性の高いサービスをエンド ユーザーに提供することに重点と責任を持ちます。 さらに、その役割には、ソフトウェアの展開後に発生する問題や発生した問題の管理が含まれます。
ただし、システム管理者は、実際のソフトウェア開発に焦点を当てていないため、開発とシステム管理者の役割が対立する可能性があります。 開発者は、ソフトウェアの開発とユーザーの手に渡ることに重点を置いていますが、ソフトウェアの展開の側面や効果を必ずしも気にする必要はありません。 このジャンクションで、サイトの信頼性エンジニアの役割が入ってきます。 サイトの信頼性のエンジニアは、スケーラブルで信頼性の高いソフトウェア システムの作成に重点を置いているため、開発作業が効率的で信頼性の高いものになるようにも行うので、完成品の生産準備が整ったときには驚きはありません。
サイトの信頼性エンジニアは何をしますか?
サイトの信頼性エンジニアリングでは、運用と開発の間で時間を分割します。 たとえば、サイトの信頼性エンジニアがヘルプ デスク チケット、オンコール インシデント、手動タスクなどに関与している場合があります。 また、サイトの信頼性エンジニアは、自動化、システムの信頼性の向上などのプロアクティブなプロジェクトに時間を費やして、手作業の量を減らし、ソフトウェアの導入を効率的に行うために必要なすべてのコンポーネント(インフラストラクチャ/ハードウェア、ミドルウェア、ソフトウェアなど)を確保します。
一般的な SRE の責任は何ですか?
実際の SRE の責任は会社によって異なりますが、ほとんどの場合、SRE または SRE チームはサービス提供のすべての側面に責任を負い、以下に示す 1 つ、すべて、または以下の責任を超える必要があります。
- キャパシティプランニング
- 可用性
- パフォーマンス
- モニタリング
- インシデント対応
- オンコールサポート
- 死後の分析
だから、ご覧のとおり、SREの役割はすべての取引のジャックになる傾向があります。 SRE が AWS でストレージをプロビジョニングする場合、次の分に SRE が顧客と話したり、新しいプロジェクト用の Python コードを記述したりする必要があります。 それは本当に日によって異なります。
SR はどのようなツールを使用しますか。
サイトの信頼性エンジニアが提供するツールやソフトウェア ソリューションは、組織によって大きく異なります。 主な理由の 1 つは、大規模な組織では、通常、SRE チーム内の人員が多く、各 SRE の責任と範囲がチーム間で分割され、より集中的な役割が生じるためです。 さらに、これにより、使用するツールやプラットフォームの範囲も縮小されます。 たとえば、大企業では、SRE は毎日、Jenkins で毎日動作する場合があります。
逆に、小規模な組織のサイト信頼性エンジニアリングチームや個人は、人員が制限される可能性があるため、構成管理プラットフォームや自動インシデント対応システムから監視ツールや分析ツールまで、ツールセットにすべてを含める必要があるため、より多くの帽子を着用する必要があります。 既に、ドッカー、テラフォーム、プロメテウス、キバナなど、SRE が使用するツールの一部に精通している場合があります。
読む: トップ 13 サイト信頼性エンジニア (SRE) ツールは、サイト信頼性のエンジニアが今日使用する最も一般的なツールの詳細を学びます。
サイト信頼性エンジニアリングの詳細はどこで知れますか?
「サイト信頼性エンジニア」という用語は、現在Googleのエンジニアリング担当副社長であるベン・トレイナー・スロスに起因しています。 彼は2003年に7人のエンジニアのチームを作成して管理するように頼まれ、最終的に新しい役割/タイトルを作成しました。 Ben と他のいくつかの Google エンジニアリング チーム メンバーによって書かれた いくつかの優れたオンライン リソース は、SRE の原則と原則、SRE の役割と責任、サイト信頼性エンジニアリングの役割の進化、そして今日の DevOps 環境におけるその場所まですべてをカバーしています。 そもそも役割を生み出した個人や組織よりも、サイトの信頼性エンジニアリングについてもっと学ぶ良い方法はありませんよね?
GitHub にある サイト信頼性エンジニアリングリソース の素晴らしいリストもあります。
結論:サイト信頼性エンジニア(SRE)とは何ですか?
これまでに説明したように、SRE は従来の操作やシステム管理者の役割以上の役割です。 SRE は、幅広い経験と知識を活用して、ソフトウェア・サービスと組織全体で効率を高め、自動化を支援します。 良いSREは、大体、優れた問題解決者である人です。 彼らは必ずしも彼らが行うすべての専門家である必要はありませんが、彼らは多くの異なる分野を把握し、問題が発生したときに実行する手順と技術を知っている必要があります。 また、組織内のさまざまな役割が連携して、タスクやプロジェクトを効果的に実行するためにどのように連携するかを理解する必要もあります。 それは常に大きな、複雑なパズルを一緒に置くようなものです。 それは時々非常にイライラし、要求が厳しく、作品が行方不明になることがありますが、それを終えると、多くの誇りと達成があります。
SREの責任の一部として、監視と観察性は、その任務の重要な要素です。 Dotcom-Monitor の 合成監視ソリューション により、SR と DevOps チームはシステムやサービスを通じてユーザーをシミュレートおよび監視できます。 Dotcom-Monitor プラットフォームにより、SR はカスタマイズされた監視アラートを設定し、PagerDuty、VictorOps、AlertOps などのインシデントおよびアラートプラットフォームと統合 できます。 さらに、SR は リアルタイムのダッシュボードの表示、レポートへのアクセス、分析のレビュー を行って、パフォーマンスの問題を迅速に特定できます。 SR およびチームは、アプリケーションとインフラストラクチャの正常性を継続的に監視し、インフラストラクチャの信頼性、アクセシビリティ、および全体的なパフォーマンスを把握することが不可欠です。
Dotcom-Monitorの詳細と、プラットフォームを使用して監視と監視性を深く理解し、アプリケーションとインフラストラクチャの詳細を把握する方法について説明します。