人工智慧營運(AIOps)能夠加速 IT 發現與排除問題的流程,但是它並不是萬靈丹。IT 營運人員仍必須預先準備好資料餵進機器學習系統,而且有些問題仍需要靠人工手動解決。
文/Robert Scheier‧譯/葉庭筠
人工智慧(artificial intelligence)和機器學習(machine learning)可減少困擾 IT 管理者的假警報、加速問題排除,並協助開發人員及架構師了解與管理變化快速的雲端 IT 環境。
但是資訊長們不應期望某些人口中神乎奇技的優異成果,像是自動預測和修復任何可察覺的 IT 問題、記錄所有日誌紀錄或事件流(event steam);或是不做任何資料清洗與資料正規化(normalization),就下去直接分析資料等。
人工智慧營運(AIOps)利用人工智慧使 IT 系統的管理、最佳化及維護工作,比一般人工更快、更有效率也更有效果。研究機構 Gartner 估計,AIOps 市場將從 2020 年的 9 億美元,成長到 2025 年的 15 億美元,年複合成長率達 15%。除了獨立的 AIOps 平臺,許多 IT 觀測、管理及監控工具也被整合進 AIOps 平臺,或是在其產品中加入 AI 能力。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球CIO同步獲取精華見解 ]
從企業用戶及分析師的角度來看,AIOps 最適合應用在從數百或數千個資料源中快速掃瞄資料、過濾出最重要的警告、找出深層趨勢,以及快速偵測新元件,如連結應用程式的 API 等。研究與教學領導機構 Wiley 資訊長暨資訊安全長 Sean Mack 指出,由於人類大腦已無法處理這些細緻工作,AIOps 很擅長為 IT 問題提供洞察。這是因為現今的企業系統及服務複雜度快速增加,裡頭的虛擬元素可能才剛出現,不久後又馬上消失。
但如果企業不了解 AI 的侷限性,AIOps 很快就會露出窘態。
AIOps 擅長的 3 大領域
一、模式辨識(Identifying patterns)
AIOps 最常見而成功的應用情境,是減少警示中重複出現、反應 IT 基礎架構常態性變更,且不影響關鍵業務流程的雜訊(noise)。
市場分析機構部門 IDC 副總裁 Stephen Elliot 指出,利用 AIOps 來了解什麼模式是正常現象,而那些是異常情況;像是早上或季報結算時,大量使用者登入會造成流量突然上升。好的 AIOps 也能找出反覆出的問題,像是伺服器過載等,以協助管理者在影響使用者之前就加以解決。此外,將多道警訊串聯成一個單一底層問題,也能減輕營運管理者作業負擔,加速根本原因分析(root cause)。
藥劑代理商 AmerisourceBergen 公司 IT 營運部門副總裁 Paul Stuart 指出,在採用 New Relic 觀測平臺之初,發現減少了三分之二不需要採取行動的警示,讓該公司工程師得以專注解決重要問題、優先處理重要事件、加速根本原因分析,及提升應用程式可用性。而 Wiley 公司 Mack 的團隊運用 Dynatrace 的 AIOps 方案減少超過 50% 的假警告。而真碰到問題時,Wiley 團隊解決的平均所需時間也縮短了 37%,Mack 認為這算是大幅改善。這也讓他的團隊得以將更多時間用來提升客戶體驗,推出創新服務。
二、監控與追蹤
AIOps 也讓 IT 營運部門更容易追蹤 IT 環境的變化、監控效能、以更少成本管理更大型環境。Stuart 指出,目前該公司正在忙一樁大型整併案,利用 AIops,使他們不用增加很多人手,就能接下更多監控工作。
機場停車場營運商 Park ‘N Fly 的 IT 總監 Ken Schirrmacher 則表示,該公司是利用 Dyantrace 的 AIOps 平臺,監控自家 IT 基礎架構與從合作夥伴接收資訊的 API;這些資訊能夠讓客戶追蹤接駁巴士位置,或在出國期間提供車輛維修的服務。Dynatrace 也能自動發現新元件,像是 Park ‘N Fly 代管在雲端的伺服器,進而分析伺服器行為,如存取資料、再把資料送到其他應用系統等等,藉此建立網路拓墣,追蹤 IT 基礎架構上元件是怎麼串聯起來的。
[ 推薦閱讀: CIO都在讀什麼?【Top 10】2022-5 文章閱讀排行 ]
Wiley 在這方面的應用方式之一,是管理事件日誌。該系統不只是進行觀測,也用於分析系統可用性及穩定性的背後原因。Mack 認為,監控的概念已經過時了,團隊需要的是「可觀測性」(observability),意謂能對系統詢問問題並找出答案。監控只能看到系統每秒延遲多少,但團隊更想知道的是「為什麼在某個角落的某個使用者,會出現問題?」
三、找出根本原因( root cause )
Elliot 表示,AIOps 也很擅長加速問題的根本原因分析、協助判斷問題出現在服務中哪一層,是瀏覽器、資料庫或程式碼、或其實是本地資料中心網路問題。Wiley 則將應用堆疊各層,包括資料庫和應用程式效能,以及使用者在應用與服務層的體驗等資料,加以關聯,同時結合 Dynatrace 和其他工具,可減少 40% 的平均問題解決時間。這大大改善了該公司對客戶的服務效能。
許多客戶警告,AIOps 需要調整組態設定,且通常短期內不會展現節省成本的效益。但 Schrimacher 指出,在導入期不會立即感覺到省下什麼成本。想看到導入效益,要等到在當企業 IT 環境愈來愈大,卻只需較少的人來管理、不再需要排班半夜更新軟體或解決停機問題,或在假日排定更新時,才會比較明顯。
AIOps 尚待加強的領域
一、處理資料問題
資料愈多且資料品質愈好時,機器學習演算法愈能理解和分析複雜 IT 基礎架構的工作。要是少了這些資料,或是資料有所欠缺,就會限制住 AIops 平臺的效用,因此適當的資料管理就成為 AIOps 的成功關鍵。
Danske 銀行服務穩定度與可觀測性主管 Vilius Ellikas 表示,該公司的 AIOps 專案在早期一波三折。原因就出在服務商無法如承諾接納該公司一團混亂的資料,再從這些資料辨識出 IT 基礎架構的異常和問題所在。Danske 銀行認為,StackStake 的觀測性平臺極具潛力,可自動集結、關聯和標註資料,使系統可掌握,在基礎架構上,那一些特定元件,能夠支援那一些應用程式和服務。有助於該公司先把地基打好,再發揮機器學習的魔力。
活動、公關及投資人關係通訊雲端服務業者 Notified,採用了雲端基礎架構,提供企業溝通訊和活動服務。該公司首度牛刀小試,採用 Splunk 和 New Relic 的 AIops 功能。Notified 技術長 Thomas Squeo 指出,雖然 AIOps 能加速根本原因分析及事件集結,但 Notified 仍然持續蒐集效能的歷史資料,以便預測投資人關係會議等大規模事件中所需的雲端資源。
[ 推薦下載: 2022年度CIO大調查報告PDF ]
對 AmerisourceBergen 來說,整合必要的基礎架構營運資料相當關鍵。Stuart 認為,該公司目前最大痛點,就是在互為獨立的環境下,以不同工具看顧各部門的負責區域,而未形成整體視野。現在改為將資料全部集中儲存,AIOps 引擎就能把不來自不同地方的警示建立關聯性,使 AmerisourceBergen 團隊成員可以很快處理核心問題。將所有資料置於單一處並建立關聯後,就能著手找出其中模式,以便在問題萌發之前就見微知著。
二、自動化矯正( automated remediation )
全自動化矯正安全、效能或其他問題,也是 AIOps 廠商目前說得到卻做不到的地方。Gartner 資深分析總監 Gregory Murry 表示,如果客戶是想要一個能立即且持續發現問題,接著會建議理想解決方案的「萬用工具箱」的話,那麼 AIOps 會令人大失所望。
Murry 認為,有某些風險,像是駭客攻擊未知資訊安全漏洞,要預測起來是相當困難甚至不可能的。Elliott 則表示,IT 基礎架構上會有各種變動,要穩定預測這些變動的影響,對任何 AI 系統來說也都是件不可能的任務。
有某些公司的 IT 部門,已開始導入自動矯正方案。有的案例是採用新服務或新基礎架構,來防止交易量或需求激增時效能下降;而其他案例,則是自動轉移到不同 AWS 區域或不同資源上運作。
Squeo 表示,基於風險調控理由,Notified 目前只在 20% 到 25% 的應用程式上執行自動矯正任務。
IT 團隊文化率先轉變
對某些公司而言,AIOps 並非單獨發展的管理領域,而只是敏捷 IT 及業務流程的工具之一。IDC 稱其為「IT 營運分析」。Notified 的 Squeo 表示,該公司並未採用 AIOps 這個詞,而是改用 DevSecOps 來替代。這是在具備良好監控、通知和事件流程前提下,偕同開發、營運和安全的整體考量來運用 AIOps。
在 Wiley,AIOps 是讓開發團隊承擔更多應用和服務品質責任的一環。Mack 說,Wiley 在穩定性及管理採取 DevOps 制。最後責任仍應落在開發系統團隊身上,實際運作效能和該團隊有著最大關連。
Stuart 預測,AIOps 最後將促成整個 IT 團隊文化的質變。意指發生問題時,自動化是運作主軸,而非由傳統的人員回應。一旦這種運作更成熟時,就該是從服務角度來審視 IT 環境;而這將需要整合應用程式、基礎架構元件與業務驅動要件才能完成。
(本文授權非營利轉載,請註明出處:CIO Taiwan)