想獲致最好的模型及最佳分析結果,你必須了解資料、清楚測試的對象,並且持續回頭檢視及修正你的模型。
文/CIO.com‧譯/葉庭筠
全球擁有超過25億筆消費者帳號的萬事達卡(Mastercard)幾乎串連了世界上每一家金融機構,每年產出將近750億筆交易。為此萬事達卡幾十年來打造出一座資料倉儲,儲存「世界上最優秀的商務資料集」,萬事達卡營運暨技術部門副總裁 Ed McLaughlin 說。
而萬事達卡也沒白白浪費這些資料。今天萬事達卡成長最迅速的業務是商務服務,McLaughlin 指出。
IDG內容開發與策略副總裁 Derek Hulitzky 與 McLaughlin 及萬事達卡共享元件暨安全解決方案部總裁 Mark Kwapiszeski 在一場座談會上探討萬事達卡如何將匿名與集結資料轉變成高價值的業務分析洞見,並給業界建議如何從機器學習模型獲取最佳分析結果。以下是這場座談會的節錄內容。
Derek Hulitzky:萬事達卡的決策管理平台贏得 IDG 百大CIO獎項,這個平台運用AI和資料做詐欺偵測。您可以談一下這個平台嗎?
Mark Kwapiszeski:我們用把它用在好幾個地方,主要是詐欺偵測產品,像是產出交易詐欺評分等等。但這個平台最令精彩的地方是它處理的資料量、規模及範疇。它架在大約900台商用伺服器上,每天處理大約12億筆交易量,每秒約6.5萬筆,每筆交易大約50毫秒處理完成。
該平台使用多種不同AI科技及技術,包括13種演算法、神經網路、案例推論(cased-based reasoning)及機器學習等。但這個系統不是一次用一種模型。我們其實採取多層設計,讓它可同時跑多種模型,因此它可以在同一筆交易中分析所有不同變項。
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球CIO同步獲取精華見解 ]
Derek Hulitzky:您曾提過貴公司的分析模型不是靜態的,以及您會不斷監控這些模型以了解交易變化和導致變化的原因。您可以對此進一步解釋嗎?
Mark Kwapiszeski:你眼前所見的每筆交易互動可能是一筆詐欺,也可能是一個媽媽為她的孩子買藥。考慮到這點你會知道每筆交易都很重要。因此我們不但想知道發生了什麼事,也要知道背後的原因。
雖然模型比較容易搏得新聞版面,但對我而言更有趣的是這些模型周遭的事,你不只要知道發生什麼事、為什麼發生、還要能觀察出長時間的樣態以便找出像是模型漂移(model drift)等趨勢。
找出是否有模型漂移最佳策略之一是納入對照模型,觀察一段時間。事實上我們過去曾測試過一年以上, 再將一個模型和另一個模型拿來比較,這樣才能獲得最佳模型以及最好的分析結果。
Derek Hulitzky: 既然您提到了模型漂移,那兩位是不是能談一下,若真的發生了該怎麼辦?怎麼解決?
Ed EdLaughlin:一般人談到AI及模型時幾乎用上了錯誤的比喻。他們把它比成程式碼開發,你在上面開發出模型、執行然後它就一動不動留在那,直到走完它的生命周期。但我們認為這些模型須要你經常回頭去審視和修正。
Mark Kwapiszeski:沒錯,這有兩個層面。你建了個分析環境產出推論,因此我們從系統獲得一批資料。之後你還必須拿系統產出的分析和實際交易結果來比對,通常得要好一段時間我們才能知道最初獲准的交易最後是不是一筆詐欺交易。
所以我們的資料科學家會拿詐欺交易資訊和我們蒐集到的訊號來比較DMP(決策管理平台)分析出來的詐欺評分,透過經常回頭去調整模型以便得出最適當的參數組合設定。
Ed McLaughlin:我最後要補充一點,若你想避免模型漂移,你必須要很清楚你的分析概念。大家應該記得,幾年前消費者申請信用卡經常被拒絕、又有一大堆不人性的規定,目的就是在防範詐欺。我們要強調的是,最好儘可能蒐集多方面資訊,你可以用來做很多事,同時用它來偵測詐欺行為。
(本文授權非營利轉載,請註明出處:CIO Taiwan)