Big Data / IoT 相關工作、薪酬、技能和認證
由數以百億計連網裝置產成的大量資料益使得 Big Data(大數據、巨量資料)和IoT(物聯網)工作成為現在乃至未來數十年炙手可熱的商品。以下是你需要知道如何利用它的相關資訊。
文/David Foote‧譯/酷魯
如同筆者在先前文章中提到的,這回新冠病毒疫情動搖了大多數雇主的技術勞動力,包括IT部門員工,以及在不同行業、企業部門和產品事業群工作的許多技術專業人員。儘管某些產業正在努力調整其產品和服務以適應一個被毒性特別強之病毒蹂躪過的世界,但也有其他產業卻在充份利用這樣的狀況以從中找到轉機。
[ 推薦閱讀: 物聯網資安標章出爐 ]
技術創新也是如此。儘管當前面臨了經濟面和社會面的動盪,但諸如進階資料分析(Advanced Data Analytics)和IoT(或更準確地說,就是IoE萬物互聯)之類的技術卻持續地建立發展的動能。
本文將為有志於從事進階資料分析(也就是Big Data)的人提供工作和職業機會。首先,我們先將焦點放在驅動因素上,然後是熱門工作,最後再探討技能和認證,這些技能和認證在我們的定量和定性技術勞動力基準測試研究中展現強勁數字,並可以在基礎上推薦他們成為贏家。
首先 你應該關注的因素
在2020年底,全球有310億個連網裝置,再就COVID疫情之前收集的資料指出,2025年全世界連網裝置將進一步達到750億個。此外,2020年全球IoT/IoE支出據估計達到1.29兆美元,到2026年全球IoT裝置市場將達到1.1兆美元規模。不僅如此,以下研究資料更令人大開眼界:2018年《富比士》(Forbes)雜誌一篇文章聲稱,網際網路上超過90%的資料是在過去兩年中產生的,到了2025年,這一數字預計將成長5倍以上。根據思科(Cisco)指出,這是基於每天5EB(Exabyte)的資料量換算的結果。
[ 推薦閱讀: 公有雲物聯網服務與啤酒廠導入案例 ]
感測器和裝置數量的爆炸性成長對 Big Data 分析的影響是顯而易見的:它已經從資料「湖泊」成長為「海洋」,現在更進一步擴大成為資料「銀河星系」。或許這些驅動因素以及它們個別所需的一些技能可能並不那麼明顯:
- 隨著公司加速大量資料集的貨幣化,諸如TensorFlow、Caffe、Keras、PyTorch和MXnet等深度學習框架開始流行開來。相關技能:神經網路演算法、特定應用積體電路(ASIC) / 張量處理單元(TPU) / 現場可程式化邏輯閘陣列(FPGA)。
- AI人工智慧和物聯網的合併(AIoT智慧物聯網)的結合,能在強大5G網路上形成智慧、無縫連接的裝置網路,有望很快改變我們與家庭、辦公室和城市之間的互動方式。
- AIoT主要市場區隔包括:可穿戴式裝置;智慧家庭、智慧城市和智慧產業。
- 從特設分析使用案例轉變為生產品質 Big Data 工作流的可操作化。
- 即時串流分析的興起,搭配的技術領域包括:NewSQL資料庫;記憶體內資料網格;專用串流分析平台融合,以支援超快串流分析處理;Kafka、Spark和Flink等支援SQL功能的開放原始碼串流框架。
- 商業智慧(BI) /分析、資料科學、資料工程團隊和技能集的融合。
- 對具有監督演算法和無監督學習經驗之工作人員的需求激增,可有效地識別異常行為並觸發縮減的或有限制的存取。
- 雲端式與容器化身分及存取管理服務的興起(未來6年的年複合成長率達到13%,市場規模達到240億美元之譜)。
讓你無往不利的熱門工作
在 Big Data / IoT 領域裡有許多炙手可熱的工作。以下茲列舉一些專案與熱門的原因。
Big Data 開發工程師
Big Data 在許多產業中都有很多應用,而且對有經驗老到 Big Data 開發工程師的需求也在成長之中。拜 Big Data 之賜,處理、分析資料並最終從中提取有價值的資訊變得愈來愈困難。不論技術深度或開發水準如何,未來對該職位的需求將持續成長。必備的硬技能:SQL、程式設計、探索性分析(Exploratory Analysis)技能、Hadoop /平行處理、機器學習和資料採礦。至於軟技能:建模、最佳化和模擬的能力在最近變得更受歡迎。Big Data 開發工程師應該樂意不斷提升自我技能並積累實戰經驗。
資料庫管理員
許多專案皆需資料庫的支援,這個職位涉及資料庫系統的管理、維護和安全。除了其他職責之外,他們還要負責資料庫的安裝、備份、更新和修補,並確保資料庫的可存取性、完整性和一致性。該職位扮演至關重要的角色,因為敏感資訊的遺失或外洩可能對公司和組織造成災難性的衝擊。這項工作所需的關鍵技能包括對SQL、UNIX,以及諸如Oracle、MySQL和PostgreSQL等資料庫嫻熟的技能以及相關證書。
資料分析師
該職位的職責包括開發資料、分析和策略開發框架;執行資料分析工具;從各種來源收集和分析資料集,以提供業務決策並做出準確的預測;追蹤和監控內部與外部資料;並提供使用者訓練。目前最好的資料分析師正在使用機器學習和預測模型來尋找分析資料的新方法。這項工作所需的關鍵技能包括SQL查詢;資料庫建構;強大統計能力;R或Python語言;分析大型資料集並過濾相關資料集的能力;具有解決問題能力的分析式心靈;具備資料建模和報表軟體的經驗;注意細節;以及具備以清晰語言編寫可執行報告的能力。
資料工程師
此一職位現任者建立了處理Big Data 的系統;設計、開發、構建、測試和維護體系結構,包括資料庫和大規模資料處理系統;尋找獲取和過濾資料的方法;開發用於資料應用的高效能演算法,例如預測建模和概念驗證(PoC);並建立和執行災難復原計畫。這項工作所需的關鍵技能包括:基於Hadoop之技術、基於SQL之技術、NoSQL技術、資料建模工具,以及各種編碼語言(包括Python、C / C ++或Java、Perl)的相關知識;統計分析和建模;預測建模;神經語言程式設計、機器學習和文字分析經驗。
資料科學家
這個職位的職責包括收集、清理、管理和探勘大量不同的資料,以便做出預測;建立資料模型和演算法;驗證假設;並傳達結果。他們會產生基於證據的洞見,可以藉由視覺化和講故事的方式進行交流,以協助企業做出決策。他們擅長對複雜問題進行建模,發現洞見並且識別出能將各種統計、探勘及可視化技術和通常在大規模分散資料系統之中的統計建模套裝軟體相混合的機會。最好的資料科學家極具求知慾、創造力、適應力和擇善固執特性,並且對演算法充滿熱情,對機率論、估計/分類法具備出色的基礎,並對機器學習/資料探勘概念有紮實的理解。他們需要對使用Hadoop、MapReduce、Hive、Spark的 Big Data 平台、框架和程式設計模型有紮實的理解,並嫻熟SQL、NoSQL、Pandas、Pig等。
熱門 Big Data / IoT 技能 2020-21
以下未經認證之 Big Data 和IoT相關技術技能,是我們長期執行之「IT技能與認證薪酬指數」( IT Skills and Certifications Pay Index)從美國和加拿大3,602名雇主身上所取得資料中薪酬最高的技能。其中有許多技能的市場價值仍在上升。對於想要提高自己薪酬和/或對潛在雇主吸引力的技術專業人士來說,這兩個因素肯定是應該優先考慮的。
Amazon Athena ─ 無伺服器互動式查詢服務
- 平均薪酬加給:相當於基本工資的18%。
- 市場價值增幅:12.5%(截至2020年7月1日之前的6個月裡)。
相關數據資料實在太過豐富,以至於企業有時需要從他們的數據中找到答案時並非那麼容易。而且分析和處理資料的工具並不總是那麼容易使用、方便存取,甚至不是那麼有效。問題點:資料必須常駐在某個地方,而大多數公司必須認真思考如何儲存資料、由誰存取、如何確保資料安全,而且最重要的是如何確保資料存取的可靠與快速。
[ 加入 CIO Taiwan 官方 LINE 與 FB ,與全球CIO同步獲取精華見解 ]
Amazon Athena是一項互動式查詢服務,其使用標準SQL而能簡便地分析 Amazon S3 中的數據資料。該服務採用無伺服器架構,所以你不需要管理基礎設施或使用資料庫軟體來管理它。此外,它的速度很快,因此SQL查詢可以在幾秒鐘內在大型資料集運行並得到預期的結果。
Athena訂閱即可享用與AWS Glue資料目錄相整合,允許用戶跨各種服務建立統一的Metadata詮釋資料儲存庫,抓取資料來源以發現結構描述(Schema),並透過新的和修改過的資料表和分割區定義來輸入你的目錄中,並維護結構描述的版本控制。
RStudio ─ R語言的跨平台整合開發環境
- 平均薪酬加給:相當於基本工資的17%。
- 市場價值增幅:21.4%(截至2020年7月1日之前的6個月裡)。
RStudio是R語言(用於統計運算和圖形的程式開發語言)以及Python的整合開發環境。它提供兩種版本格式:RStudio Desktop版以及在遠端伺服器上運行並可透過Web瀏覽器加以存取的RStudio Server版。RStudio部分使用C ++程式開發語言編寫,並使用Qt框架作為其圖形化使用者介面,然而其大部分程式碼是用Java和JavaScript編寫的。RStudio流行於以R語言進行資料分析應用的關鍵因素包括:
- R屬開放原始碼。它是免費的,所以相對於需付費的MATLAB或SAS授權而言,這是一個優勢。如果你在難以存取且軟體昂貴的領域裡與全球團隊合作的話,那麼這個優勢便顯得很重要。這也意味著R語言是由社區積極開發,並且定期更新
- R被廣泛使用。R語言用於許多學科領域(不僅僅用於生物資訊學),這使其更有可能在需要時能在線上尋找到幫助。
- R功能強大。R支援多種平台(Windows / MacOS / Linux)的運行。與Microsoft Excel之類流行的試算表程式相比,它可以處理更大的資料集,並且拜其腳本功能之賜,它具有更強的可再利用性。目前有數千種適用於科學的軟體套裝,包括基因體學(Genomics)和生命科學其他領域。
主資料管理(Master data management, MDM)
- 平均薪酬加給:相當於基本工資的17%。
- 市場價值增幅:6.3%(截至2020年7月1日之前的6個月裡)。
主資料管理(MDM)因企業需要提升關鍵資料資產(例如產品資料、資產資料、顧客資料,位置資料等)的一致性和品質而興起。當今許多企業,尤其是全球性跨國企業,多半擁有數以百計各自不同的應用程式和系統,這些程式系統中橫跨組織部門或部門的資料很容易變得零散、重複與過時。發生這種情況時,想要準確回答任何類型業務KPI效能指標之最基本但關鍵的問題都變得非常困難。這使得企業對精準、即時資訊的基本需求變得更加迫切,同時隨著資料來源的增加,想要始終一致地管理並使資料定義保持最新,以便業務的所有環節都能使用相同的資訊,這會是一個永無止境的挑戰。這些都無疑會持續帶動MDM技能在市場上的聲勢與價值。
Cloudera Impala
- 平均薪酬加給:相當於基本工資的16%。
- 市場價值增幅:14.3%(截至2020年7月1日之前的6個月裡)。
Cloudera Impala是一個開放原始碼大規模平行處理(Massively Parallel Processing, MPP)查詢引擎,它對以流行的 Apache Hadoop 文件格式加以儲存的資料提供高效能、低延遲的SQL查詢。對查詢的快速回應讓使用者得以對分析查詢進行互動式探勘和微調,而不是傳統上與 SQL-on-Hadoop 技術相關的冗長批次作業,這意味著可以使用各種解決方案來儲存、共享和存取資料,進而避免資料孤島並儘可能地將代價高昂的資料移動作業最小化。Impala通常在幾秒鐘或幾分鐘內回覆結果,而不像Hive查詢通常需要花費幾分鐘或幾小時才能完成這個動作。我們不能低估這對於進階資料分析平台和參與 Big Data 計畫相關作業之資料科學家與分析師的價值,也不能低估這對未來這些技能想要獲取市場需求所產生的影響性。
Apache Cassandra
- 平均薪酬加給:相當於基本工資的16%。
- 市場價值增幅:6.7%(截至2020年7月1日之前的6個月裡)。
Apache Cassandra 是一款免費、開放原始碼、分散式、寬列儲存(Wide Column Store)的NoSQL資料庫管理系統,專門設計用來處理橫跨許多商用伺服器上的大量資料,並支援無單點故障疑慮的高可用性。它為橫跨多個資料中心的叢集提供強大穩固的支援,透過異步主副本少的複製功能,為所有客戶端提供低延遲操作。 Cassandra透過Google Bigtable的資料模型提供Amazon Dynamo的分散式設計。它是專門適用於對可靠性、可擴充性和效能有最高要求之應用程式的資料庫。
資料科學
■ Scala
- 平均薪酬加給:相當於基本工資的16%。
- 市場價值增幅:6.7%(截至2020年7月1日之前的6個月裡)。
資料科學是一個涉及多學科的領域,使用科學方法、步驟、演算法和系統來從結構化和非結構化資料中擷取知識和洞見。資料科學與資料探勘、Big Data 具有相同的概念:使用最強大的硬體、最強大的程式設計系統和最高效率的演算法來解決問題。資料科學繼續發展成為高技能專業人員最有前途和需求最大的職涯發展途徑之一。如今,成功的資料專業人員已經意識到,他們必須超越分析大量資料、資料探勘和程式設計等傳統技能。為了發掘對組織有用的情報,資料科學家必須掌握資料科學生命週期的全部範圍,並擁有一定程度的彈性和理解力,以便在過程的每個階段實現收益最大化。
Scala(「Scalable」的縮寫)程式設計語言彌補了Java中的許多缺陷,可以與Java整合,同時可以最佳化程式碼以便共時同作(Concurrency)。它對已經投資Java並且不想在生產環境中支援任何新事物的企業來說最具吸引力。
資料分析(兩項並列)
■Google TensorFlow
■ 預測分析和建模
- 平均薪酬加給:相當於基本工資的16%。
- 市場價值增幅:6.7%(截至2020年7月1日之前的6個月裡)。
資料分析是一門分析原始資料以便對資訊做出結論的科學。資料分析的許多技術和過程已被自動化成為機械化步驟和演算法,這些步驟和演算法對原始資料進行處理以供人類使用。資料分析技術可以揭露趨勢和指標,否則這些趨勢和指標很容易在巨量資訊中消失無蹤。這些資訊接著可用來最佳化流程,以提高業務或系統的整體效率。
TensorFlow 是Google開發的一種流行開放原始碼深度學習函式庫,該函式庫在其所有產品中都使用了機器學習,以利用他們巨量的資料集並改善搜尋引擎、翻譯、影像標註(Image Captioning)和推薦。TensorFlow也適用於像是神經網路之類的機器學習應用。其彈性架構允許跨各種平台(CPU、GPU、TPU),並從桌面到伺服器叢集再到行動與邊緣裝置上輕鬆部署運算。TensorFlow為C++、Go、Java、JavaScript和Swift提供穩定的Python和C語言API,但不保證API的回溯相容性。第三方套裝適用於C#、Haskell、Julia、R、Scala、Rust、OCaml和Crystal。
Python一直是TensorFlow的重要選擇,因為該語言使用上非常簡單,並且擁有豐富的資料科學生態系統,其中包括諸如Numpy、Scikit-learn和Pandas之類的工具。
預測分析和建模是一個使用數據資料和統計來預測資料模型結果的過程。這些模型可用於預測從體育賽事結果和電視收視率到科技進展和公司收益的任何事物。預測建模通常也稱為:
◆ Predictive Analytics
◆ Predictive Analysis
◆ 機器學習。
儘管這些同義詞通常可以交換使用。但是,預測分析通常指的是預測建模的商業應用而言,至於預測建模的應用則更加普遍或適用在學術上。在這些術語中,預測建模更經常被用到。事實上,機器學習與預測建模不同,它被定義為一種可運用統計技術來讓電腦建構預測模型的應用技術。在實作中,機器學習和預測建模經常交換使用。不論如何,機器學習是AI的一個分支,它指的是機器所展現的智慧。
預測建模非常有用,因為它可以準確地洞察任何問題並允許使用者建立預測分析。為了保持競爭優勢,洞察挑戰關鍵假設的未來事件和結果是至關重要的。
分析專家經常使用以下來源的資料來提供預測模型:
◆交易資料。
◆CRM資料。
◆客戶服務資料。
◆調查或輪詢資料。
◆數位行銷和廣告資料。
◆經濟統計資料。
◆人口統計資料。
◆機器產生資料(例如,遙測資料或來自感測器的資料)。
◆地理資料。
◆網路流量資料。
熱門 Big Data / IoT 認證 2020-21
使用與上述未經認證技能相似的標準,哪些 Big Data 相關認證支付的現金薪資加給高於平均水準呢?多年來認證的整體價值一直在下降,但是這個類別中的某些認證的市場價值仍在提升,關於這點會在下文詳述。如果雇主在僱用、晉升和保留組成其 Big Data 勞動力之工作人員上達到十分重視認證的程度的話,那麼取得以下認證的人就會成為贏家。
1. 使用 SAS 9 的SAS認證先進分析專家
(SAS Certified Advanced Analytics Professional Using SAS 9)
- 平均薪酬加給:相當於基本工資的10%
- 市場價值增幅:無變化(截至2020年7月1日之前的6個月裡)
2. SAS認證資料科學家
(SAS Certified Data Scientist)
- 平均薪酬加給:相當於基本工資的10%
- 市場價值跌幅:-16.7%(截至2020年7月1日之前的6個月裡)
3. Oracle認證專家 – MySQL 5.1叢集資料庫管理員
(Oracle Certified Expert – MySQL 5.1 Cluster Database Administrator)
- 平均薪酬加給:相當於基本工資的9%
- 市場價值增幅:16.7%(截至2020年7月1日之前的6個月裡)
4. Teradata 14 認證大師
(Teradata 14 Certified Master)
- 平均薪酬加給:相當於基本工資的9%
- 市場價值增幅:無變化(截至2020年7月1日之前的6個月裡)
5. Cloudera認證Spark和Hadoop開發人員
(Cloudera Certified Associate Spark and Hadoop Developer)
- 平均薪酬加給:相當於基本工資的9%
- 市場價值跌幅:-10%(截至2020年7月1日之前的6個月裡)
6. Cloudera 認證資料分析師
(Cloudera Certified Associate Data Analyst)
- 平均薪酬加給:相當於值基本工資的9%
- 市場價值跌幅:-18.2%(截至2020年7月1日之前的6個月裡)
7. SAS 9 之SAS認證資料整合開發人員
(SAS Certified Data Integration Developer for SAS9)
- 平均薪酬加給:相當於基本工資的8%
- 市場價值增幅:14.3%(截至2020年7月1日之前的6個月裡)
8. 認證分析專家(七項並列)
(Certified Analytics Professional, CAP)
- 平均薪酬加給:相當於基本工資的8%
- 市場價值增幅:無變化(截至2020年7月1日之前的6個月裡)
■認證資料管理專家(Certified Data Management Professional, CDMP)
■IBM認證DB2資料庫管理員(IBM Certified Database Administrator – DB2)
■IBM認證DB2 SQL解決方案開發人員(IBM Certified Solution Developer – DB2 SQL)
■MongoDB認證DBA(MongoDB Certified DBA)
■Teradata 14認證資料庫管理員(Teradata 14 Certified Database Administrator)
■Teradata 14認證企業架構師(Teradata 14 Certified Enterprise Architect)
■Teradata 14認證解決方案開發商(Teradata 14 Certified Solutions Developer)
9. 使用 SAS 9 的SAS認證 Big Data 專家
(SAS Certified Big Data Professional Using SAS9)
- 平均薪酬加給:相當於基本工資的8%
- 市場價值跌幅:-11.1%(截至2020年7月1日之前的6個月裡)
10. EMC資料科學專家、進階分析
(EMC Data Science Specialist, Advanced Analytics)
- 平均薪酬加給:相當於基本工資的8%
- 市場價值跌幅:-20%(截至2020年7月1日之前的6個月裡)
( 本文授權非營利轉載,請註明出處:CIO Taiwan )