IBM：邁向智能化數據經緯的第一步 -- AI賦能，建立智能數據目錄

作者：王積杰，IBM數據與AI產品線大中華區(qū)信息架構產品總監(jiān)

IBM

2022-01-24 17:19 5131

北京2022年1月24日 /美通社/ -- 數據治理已經發(fā)展了20多年，從最早的元數據管理，到后來的數據質量管理，很多企業(yè)多年前都建設了名為數據治理的項目。但是，如果你去問這些企業(yè)，數據治理項目做得怎么樣？發(fā)揮了怎樣的業(yè)務價值和效益？你得到的答案往往不盡人意。很多企業(yè)建設好數據治理項目以后，就荒廢了沒有人使用。為什么會造成這樣的情況呢？究其原因是，其數據治就理項目只是面對IT人員的，并不是面對業(yè)務人員的。如果一個項目不是面對業(yè)務人員的，就難以發(fā)揮業(yè)務價值，業(yè)務人員無法使用，往往是不可能獲得成功的。因此，近年來，國外興起了建設數據目錄的熱潮，不只是談數據治理，而是為了解決面向業(yè)務人員并體現業(yè)務價值的問題。數據目錄就是為了幫助業(yè)務人員以及數據科學家，解決尋找數據、了解數據、優(yōu)化數據以及使用數據的難題。

什么是數據目錄？

圖1

很多人還不清楚什么是數據目錄，我來打個比方，我們用書來比喻數據。大家都知道圖書館的圖書目錄，我們過去進到圖書館借書，首先就要去查找圖書目錄。如果一個圖書館如圖1右下角那副照片那么亂的話，相信就連圖書管理員也無法找到想要的書吧？如果一個企業(yè)的數據庫管理得那么亂，那么就連數據庫管理員可能也無法找到數據了。如果一個圖書館如圖1右上角那樣的話，那說明這個圖書館的書，已經分門別類擺放整齊了，就像一個企業(yè)的數據，結構化的和非結構化的，都分別在數據庫里或大數據平臺上，放得整整齊齊了。但是，對于圖書館來說，其主要任務是為讀者服務的，書擺放得整齊，需要借書的讀者就能借到他要的書嗎？我們都知道，那是不夠的，因為缺少一個圖書目錄，就是圖1左邊的小抽屜。那個小抽屜里放的是一張一張的書卡，書卡上寫了一些什么呢？往往有書的名字、書的簡介、書的作者、書的出版年份，還有書的類別，比如是物理類的還是化學類的；書的屬性，比如是工具書類的還是文藝書類的；書適合的年級，比如一年級還是三年級；最重要的是書的具體位置，它是在圖書館的哪一排的哪一層的哪一格里。有了這張書卡，我們就可以輕松地找到這本書并借到這本書了。我曾經和一個大型企業(yè)的CIO聊天，這家企業(yè)20年前就建了數據倉庫，十年前又建了大數據平臺和數據湖，類似數據治理的項目都建設過好幾期了。我問CIO最近企業(yè)在IT方面開展什么項目呢？CIO回答，最近招進了好幾個數據科學家，打算開展AI項目的建設，但是遇到了困難。數據科學家們在工作中，要花70%以上的時間在尋找數據，而不是AI 建模。CIO問，為什么我們過去的數據治理項目，幫不了這些數據科學家呢？我就告訴這個CIO, 你們過去的數據治理項目，都是面向IT用戶的，不是面向業(yè)務人員的。如果你真的要幫助數據科學家方便快捷地找到他們要的數據，你就要建設真正的數據目錄。

建立數據目錄的業(yè)務準備

圖2

要建立真正的數據目錄，前期還是要做好一些業(yè)務方面的準備工作的，就像建一張書卡一樣，書卡上的內容，你先要準備好。數據目錄一般有這樣一系列的業(yè)務域的元素：

數據分類（Categories）：這是從業(yè)務角度，對業(yè)務數據的分類。就像圖書館里的書，按物理、化學、生物、醫(yī)學來分類一樣。企業(yè)里可以按分公司或部門來分類，也可以按業(yè)務類型來分類，如：銷售類、生產類、財務類等等。
業(yè)務術語（Terms）:業(yè)務術語就有點像書卡上的書名了，讀者根據書名來找書，那么數據科學家們往往也是根據業(yè)務術語來找他要的數據。比如：VIP客戶、日產量、月產量等。也可以是一些業(yè)務的指標和維度。
政策（Policies）: 大到國家小到企業(yè)，都有很多政策，會影響數據的性質和使用。比如：個人數據的隱私保護，歐盟有GDPR，中國也出臺了《個人信息保護法》，對個人信息我們需要打上隱私標簽，進行保護，不能隨意泄露。
規(guī)則（Rules）: 數據都有規(guī)則，有的是業(yè)務規(guī)則，有的是數據質量規(guī)則。比如：身份證號碼，它的規(guī)則是18位的數字，前6位代表地區(qū)，中間8位代表生日，后三位是序號，最后一位是校驗碼。有些物料的號碼，第一位是字母代表材質，后四位四數字代表序列等等。
參考數據（Reference Data）:有些數據是代碼，需要通過參考數據來知道真正的數值。
數據分級（Classification）: 就像書卡上會告訴你這本書是給一年級用的還是給四年級用的，數據也是需要分級的。比如：第一級的數據屬于公開數據大家都可以看，第二級的數據只有部門經理才能看，第三級的數據是給高層領導看的，第四級數據只有董事會的成員才能看等等。
數據類型（Data Class）: 我們可以對數據根據它的類型進行分類，比如：姓名、地址、電話、身份證號碼，或者是產品代碼、產品種類或是產量信息等等。我們需要對Data Class的類型進行定義，比如通過正則表達式。Watson Knowledge Catalog將可以通過AI的方式，根據Data Class的定義，自動的進行數據的分類和識別。

建立數據目錄的技術難點

數據目錄的實現其實并不容易，否則，為什么那么多年來，大多數的客戶還是在普通的數據治理層面，僅能夠面向技術人員，而不能面向業(yè)務人員呢？原因是：一個企業(yè)的業(yè)務域元素可能有幾萬個，而技術域的元數據可能有幾十萬個，幾萬個與幾十萬個的對應關系，可比圖書館的書卡制作要復雜得多了。幾千本書你可以通過書卡，用人工的方法一一對應。但幾萬個業(yè)務域元素和幾十萬個技術元數據的對應，全部要靠手工來實現，幾乎是不可能完成的任務。這也是這么多年來，數據目錄沒有很快發(fā)展起來的原因，直到最近AI技術和機器學習技術的引進，才幫助我們解決了這個問題 -- 針對這個難題，IBM推出了Watson Knowledge Catalog。Watson是IBM響當當的AI名片，所以Watson Knowledge Catalog里，采用了大量的IBM企業(yè)級AI和機器學習的技術，來幫助我們實現從業(yè)務到技術的關聯。

圖3

圖3展示了數據目錄各個元素之間的關系。其中，從業(yè)務術語到數據資產的那個紅色的箭頭，一直是數據目錄建設的難點。直到IBM采用了大量的AI和機器學習的方式，來幫助座自動的關聯，才解決了這個問題。如果業(yè)務元數據或者Data Class定義了清晰的數據規(guī)則，那么，Watson Knowledge Catalog 就可以應用AI的能力，進行自動關聯。如果并沒有定義清晰的規(guī)則，那么，我們可以用人工的方式，手工地進行關聯，同時Watson Knowledge Catalog會進行機器學習，自動建立規(guī)則。當你用手工多關聯幾次，自動建立的規(guī)則越來越完善以后，系統(tǒng)就能通過AI實現自動關聯了。

建立數據目錄的技術準備

建立數據目錄，我們要了解企業(yè)內部都有哪些數據？這些數據在哪里？數據質量狀況是如何的？這些都可以使用Watson Knowledge Catalog的數據自動發(fā)現功能去實現。Watson Knowledge Catalog 會自動地發(fā)現數據，自動地連接數據源，并導入元數據。它還可以自動地分析數據的質量狀況，進行數據質量的打分，并形成數據質量的圖表或儀表盤。數據質量的打分，可以利用已經定義的數據質量規(guī)則，也可以允許業(yè)務人員用拼圖的方式，自定義數據質量規(guī)則。這種定義方式有點像拼圖游戲，數據科學家可以用一些簡單的規(guī)則如大于、小于、等于、AND、OR、包含、不包含等，自己拼出數據質量規(guī)則, 并運行，幾分鐘就可以得到數據質量的報告。過去，數據科學家拿到一批數據，為了要了解其數據質量，往往要把需求提給IT部門，IT部門還要請軟件開發(fā)商來寫程序，從而分析這批數據的數據質量。從數據科學家提出需求，到拿到數據質量報告，有的時候要幾周時間。這與我們目前的高效快節(jié)奏的社會完全不匹配。而如果數據科學家用拼圖方式，化5分鐘定義數據質量規(guī)則，然后執(zhí)行它，15分鐘后，就能得到結果了。這種自助式的數據質量探索能力，往往是數據科學家最希望的。

圖4

另外，元數據管理和血緣分析，也是數據目錄不可或缺的功能，他可以幫助數據科學家了解每一個數據從哪里來，到哪里去，從而更好地理解業(yè)務。

數據目錄的使用

本文開頭就提到，數據目錄建設的目的，是為了解決業(yè)務人員和數據科學家們發(fā)現數據和使用數據的難題。那么，為數據科學家和業(yè)務人員提供一個友好的數據發(fā)現和使用的界面就尤為關鍵了。 Watson Knowledge Catalog 可以將數據目錄，展示成一個知識圖譜。業(yè)務人員可以既通過類似google的方式，通過搜索業(yè)務詞匯，找到他需要的數據，也可以通過基于知識圖譜的發(fā)現和探索，很方便地圖形化地找到他要的數據，并且可以自助地獲取這些數據。Watson Knowledge catalog自帶有數據隱私保護的功能。如果某個數據已經被打上了隱私保護的標簽，那么你就看不到這些數據，這些數據會被打上星號或者漂白后再展示。數據科學家獲得了他要的數據后，還可以自助地優(yōu)化這些數據或者利用Watson Knowledge Catalog自帶的數據可視化工具，進行數據圖形化展示，這些功能都極大地方便了數據科學家對數據的處理和分析。如果數據科學家需要進行下一步的AI數據建模，還可以直接將這些數據不落地的送到我們的自動化AI建模工具AutoAI進行建?；蛘連I 平臺Cognos進行報表展現，真正實現數據目錄為業(yè)務人員服務的功能。

圖5

后記

智能數據目錄的建設，可以使業(yè)務人員或者數據科學家，隨時找到他們需要的數據，并且可以通過自助的方式，獲取這些數據。這個功能，是實現Data Fabric的第一步。建設好了智能的數據目錄，就為今后Data Fabric的建設打下了堅實基礎。Data Fabric已經成為Gartner在2022年最熱的IT趨勢的第二名。企業(yè)實現Data Fabric的架構將是大勢所趨，讓我們先從建設智能的數據目錄開始吧。