從數據到知識——數據智能化的升級之路

發布時間: 2020-11-18 16:59:14   來源:中國電力網  作者:

 

——來自2020人工智能與電力大數據論壇的智慧共享

  11月11—12日,由中國電力發展促進會(以下簡稱“電促會”)和國家電網有限公司大數據中心聯合舉辦的“2020人工智能與電力大數據論壇”在京召開。

  11日上午,百度知識圖譜部的主任研發架構師宋勛超就《知識圖譜及其在電力業務中的應用》在論壇現場做了精彩的主題演講。


百度知識圖譜部的主任研發架構師宋勛

  演講實錄全文如下:

  各位專家,各位領導,各位電力行業的同仁,大家早上好。我是來自百度知識圖譜部的主任研發架構師宋勛超,很榮幸能夠在今天代表百度參加我們人工智能與電力大數據論壇。我今天匯報演講的題目是從數據到知識,數據智能化的升級之路。

  我們人類發展到現在,已經經歷了三次科技革命。第一次科技革命將人類帶入了機械化時代,第二次科技革命將我們帶入了電氣化時代,第三次科技革命是信息化時代的科學革命。

  目前,我們正處在第4次科技革命正在興起的時候,第4次科技革命其實就是人工智能的科技革命,人工智能的高速發展,已經為新一輪的產業變革提供了重要的驅動力量。人工智能技術包括以語音、圖像、視頻、ARVR等為核心組成的感知層技術,以及以語言和知識為核心的認知技術。語言和知識技術是人工智能的核心,它能夠像讓機器像人類一樣去掌握知識,理解語言,對于人工智能的發展至為重要,同時也是我們未來要實現通用人工智能所必須要具備的一個必要條件。

  為什么這么說呢?讓我們的讓我們來簡單的回顧一下人工智能的發展和歷程。在人工智能接近60年的發展歷程里,我們一共經歷了兩代的發展,目前正處在第三代的一個發展期。

  第一代的人工智能,我們稱之為符號主義的人工智能。我們知道人工智能的三駕馬車分別是數據、算力和算法,在這個階段,人工智能依賴的是專家的經驗和知識來去進行顯示的符號表示和邏輯推理,取出來模擬人類的一些智能行為,去解決一些推理規劃和決策類的問題。

  一個具有代表意義的系統是IBM的國際象棋程序深藍,那么這個國際象棋程序在1997年打敗了國際象棋大師卡斯帕羅夫,然后我們認為第一代人工智能存在著一些質的缺陷,例如專家知識稀缺昂貴,因為這一代人工智能系統,它系統里面所承載的各種各樣的知識往往是需要去用專家的能力去人工構建的。另外,這一代人工智能它所涵蓋的這個知識形態非常局限,如語言類的知識以及一些模糊類的知識,很難被這一代的人工智能系統所消化,因此它的應用范圍非常有限。

  第二代人工智能,也就是大家目前所廣泛接觸到的基于深度學習的人工智能,這一代人工智能的特點最主要的特點就是數據驅動。在這一代人工智能系統里,往往不需要具備大量的領域知識,只要我們標注了足夠多的樣本數據,人工智能就能夠被低成本的啟動,再加上目前我們的神經網絡的規模越來越大,上一級的參數都是非常常見的,以及我們GPU算力的極大增強,使得這一代的人工智能技術呢能夠非常輕易的處理大數據。

  但是,這一代人工智能技術依然有一些非常嚴重的局限性。首先基于神經網絡的人工智能,它往往具有一個不可解釋性的這樣的一個特點。另外,我們知道數據驅動往往需要一些非常大規模的樣本來去支撐我們的模型訓練。

  雖然現在有一些研究方向,比如說遷移學習、小樣本學習,能夠從一定程度上去解決這樣的行業大樣本,大量的標注樣本缺失的問題,但是他依然沒有能夠從本質上解決這一代人工智能的一些本質的缺陷,因此它依然是不易推廣的。

  從第一代人工智能和第二代人工智能的成就看,我們aI經濟進入了一個高速的發展期,我們現在稱之為第三代的人工智能,就是把第一代的知識驅動和第二代的數據驅動結合起來的新一代的人工智能。

  在這個階段,人工智能的三要素除了數據算法和算例,還必須具備更為重要的第4大要素,也就是知識。目前,知識增強驅動的人工智能技術在非常多的領域已經取得了一些比較好的成果,運用前景也非常廣泛,比如基于知識增強的多模態語音理解,基于知識增強的大規模預訓練語言模型等等。

  第三代人工智能的一個終極目標,就是去真正的模擬人類的行為,讓人工智能系統不僅能夠接受數學,還要能夠掌握知識,可解釋督辦,安全可信可靠可擴展,以及基于人工智能去實現真正的推力與決策,是這一代人工智能的最主要的特點。

  接下來,讓我們把目光從人工智能發展史聚焦到百度的人工智能技術。今年是百度搜索誕生的第20個年頭,百度發展人工智能技術也已經有10年了,在過去的十年中,百度搜索引擎一直是各類人工技術凈化與落地的主戰場,而百度人工智能技術的發展和基礎,就是中國規模最大的互聯網大數據。

  目前,百度已經擁有萬億互聯網的網頁內容,其中包括百億級的視頻、音頻圖像和定位數據,我們匯聚了海量用戶的互聯網行為數據,深度挖掘了30余個垂直行業,360度的去刻畫用戶的屬性,積累了10億級的用戶的精準畫像,讓我們每天響應數10億次的網民訴訟請求。

  在數據總量層面,整個百度擁有數十萬臺的服務器和一b加級的這個數據存儲,在我們服務于中國10億級網民的搜索引擎這個產品中,我們已經初步實現了數據到知識的轉化,以及基于大數據的智能化應用,基于這個規模最大的互聯網大數據,我們構建了世界上規模最大的中文知識圖譜,除了通用的實體圖譜,我們還針對不同的應用場景,以及不同的知識形態,構建了關注點圖,并且實現了多元的異構互聯。

  同時通過持續的獲取知識和積累知識,百度大腦的理解能力和智能化水平也在不斷的升級,從而更好的支撐不同的應用場景。那么我們是依靠什么技術來去驅動百度大數據的智能化升級呢?這里我想簡要的介紹一下百度知識中臺,百度指數中臺源于知識圖譜,這個曲線呢展示了知識圖譜,從2012年百度開始研究到現在的一個發展的歷程。那么截止到目前,我們百度的知識圖譜已經積累了50億的實體,5500億的事實,日均響應400億次的請求。

  那么行業客戶為什么需要知識中臺,或者說數據到知識的轉換,能夠給行業客戶帶來一些什么樣的價值。其實知識中臺的提出是基于一個各行各業,在大數據的智能化應用中普遍面臨的一個挑戰,就是要就是高如何高效的沉淀與利用知識。

  這些挑戰主要體現在以下4個層面,第一個層面是知識生產,行業大數據中往往蘊含著非常多的海量的隱性知識,這些隱性知識非結構化率非常高,從數據中去用人工梳理出這些知識成本高效率低。

  第二個層面是知識組織,行業大數據往往面臨著系統分制、碎片化和孤島化的一些現狀,數據的形態單一,難以直接的去表達業務的邏輯。

  第三個層面是知識獲取,我們直接的從數據出發,內容缺乏理解,信息的獲取效率往往是非常低下的。

  最后的層面是智能化應用,簡單的依賴傳統的大數據技術,已經在很多的智能化的應用方向遇到了一些瓶頸,它的本質原因其實是數據的深層表達能力的缺失,因此行業急需一套面向企業全生命周期的解決方案。

  百度知識中臺就是這樣一款覆蓋企業支持全生命周期的解決方案。所謂的知識全生命周期就是指知識生產、知識組織、知識獲取和知識應用,它涵蓋了企業內多種模態的數據,包括了用戶數據、內容數據和數值數據。這些類型的數據涵蓋了我們傳統大數據類型的各個方面,同時它提供多場景層次的知識應用能力,比如搜索能力,分析能力和更為高級的決策能力,最終助力企業去匯聚數據凝練知識復能業務,提升企業的核心競爭力。

  百度知識中臺從技術層面可以下接企業的數據中臺,能夠接入企業數據中臺中所蘊含的海量結構化、半結構化和無結構化數據。在基礎技術層面,能獲得百度在人工智能的多項核心積累,包括了知識圖譜技術,自然語言處理技術,語音技術、圖像技術,然后以及和傳統大數據息息相關的數據科學技術。在產品舉證層面,能夠直接向企業客戶提供三個標準化的產品,分別是企業搜索智能知識庫和知識圖譜決策引擎。

  這三個標準化產品可以由淺入深的滿足企業不同場景,不同層次的知識體系構建與智能化的應用需求。從2018年到2020年,,兩年來我們已經賦能了眾多的行業,比如說在金融行業,我們去做智能客服風控管理,在醫療行業,我們基于知識中臺去做醫療臨床輔助決策和病案指控,在媒體行業我們基于知識中臺去做輔助創作和內容生產,還有政務、教育、司法、辦公,其中自然包括最近一年我們重點投入的能源和電力行業。

  目前,能源和電力行業正處在一個大數據智能應用化的一個轉型的一個變革期。我們認為,相比于其他行業,能源和電力行業在沉淀知識這個層面面臨著更艱巨的挑戰。

  首先,是能源行業數據體驗,單系統Pb級的數據非常常見,以南方電網為例,就是Pb級的數據系統有10余個,在和百度共建的這個非結構化數據平臺中,我們已經目前承載了百Pb級的這個數據。

  其次,是數據種類非常多,能源行業的這個業務形態非常專業,而且知識形態會更加復雜,數據形態有各種邊緣設備所產生出的這個數據數據,還有各種業務文檔,長期積累的這個海量的文本數據,還有企業在用戶和管理經營的過程中所產生的運營數據,最后還有非常多的音頻圖片和視頻等多模態數據,而這些體量大種類多的數據利用率是非常低的,因為其本質原因就是行業尤其是能源電力行業,缺乏一套知識體系建設和智能化應用的解決方案。

  目前,我國大數據的整體利用率只有0.4%,大數據的價值急需被知識化的沉淀和利用。有電網專家分析稱,每當大數據的利用率提高10%,我們就能夠使電網的利潤率提高20%~50%。因此,數據知識化的潛在經濟效益是非常大的。

  能源電力行業的應用范圍業務范圍非常廣,我們覆蓋到了電力的發輸電配用這5大環節,因此對于知識應用的能力層級和覆蓋度也提出了更高的要求。我們認為,與能源電力行業相比,其他行業更需要在數據中臺之上去建立知識中臺,來助力企業實現大數據智能化應用的一個轉型,實現由淺入深三個層次的智慧化電力能源應用。

  基于智能知識庫,我們可以解決業務檢索咨詢、電力問答機器人、電力資產管理等類型的業務應用,以及基于更加高級的圖譜決策引擎,我們可以深入到電力業務的本質去解決故障,我們現在不在公司啊電力智能調度等等形態的這個業務應用。

  總結起來,能源電力知識中臺的業務價值主要體現在以下4個層面,提煉知識價值,打破數據孤島,降低維護成本和提升運營效率。

  下面,我和大家分享三個過去一年中我們在能源電力行業的一些實踐案例,這三個案例分別體現了知識中臺的三個標準化產品,在企業知識體系建設與智能化應用中發揮的重要價值。同時,它也印證了從數據到知識的轉化,能夠給我們企業所帶來的效益的三個非常經典的案例。

  第一個案例是依托企業搜索,打造南方電網的自搜。依托知識中臺的核心能力,我們助力南網集團公司實現了全業務全類型和是探全時態數據和信息的精準查詢便捷獲取,這已經在今年7月成功上線。

  在這個項目中,通過系統性的資源建設中,引入了包括業務數據、辦公信息、資產信息、材料協同、行業資訊、內容運營等6大數據源的數據,并且對這引入的6大數據源的數據進行了非常系統的知識生產,知識構建和知識應用,服務的人群滿足了全集團員工辦公和業務搜索的需求。截止到目前,全系統的知識化數據量已經達到4億家,然后集團內累計用戶搜索次數1616萬。

  第二個案例,是借助智能知識庫來去實現電力投資項目管理分析。智能知識庫體現了一個超越搜索的直接知識滿足能力。這背后依托的基礎就是這種知識平臺的技術,能夠在智能問答的層面給大家提供更加便利的搜索體驗。

  目前百度在搜索產品中,所謂的直接滿足率已經達到百分之五十七,在這個項目中,我們就是將這一系列技術,運用到了企業的電力投資項目管理分析的應用過程中。基于這個產品,我們將集團內發電、環保、金融等10余個核心的業務系統來去進行一個知識互聯化,打破數據的隔離壁壘,大幅度的提升了集團投資管理效率,降低了這個項目的系統性風險。

  具體而言,在這個項目中,基于支持中臺的電力管理投資知識庫呢對接集團的大數據平臺,融合了集團50%以上的這個業務系統,提供了投資風險分析、項目運營提報、電力客戶營銷和可視化關聯統計等等知識應用能力,全系統的知識問答覆蓋率達到80%以上,知識問答的準確率在98%以上。

  最后一個案例,是基于圖譜決策引擎來去實現核電設備的故障分析,這是基于知識直接去進行業務的輔助決策的一種形態。在這個項目中初步決策引擎,將數據運營中心中的多種數據,包括了結構化的數據和無結構化的數據,去進行一個系統化的知識圖譜的構建,形成了千萬級別的設備知識圖譜,能夠支持上百種的故障分析和診斷模式,為一線操作人員去秒級別的提供故障根因分析與操作步驟建立,從而達成沉淀與傳承一線操作人員的經驗知識,顯著的降低設備誤診率與處理時長,大幅提升現場運維處理效能的目標。

  最后,結合人工智能最新的發展趨勢,以及我們對行業需求的洞察,我們認為深度挖掘大數據的價值,將數據到知識的信息的轉化,進一步的沉淀為人工智能系統所能消費的知識,是普世性的支持各類人工智能應用目前所最需要攻克的一個難題。

  以上就是我今天分享的全部內容,未來百度知識中臺愿意攜手更多的能源電力客戶與伙伴,用知識來助力電力行業實現智能化的轉型,謝謝大家。

  (根據速記整理,未經嘉賓審核)

中國電力網官方微信

      關鍵詞: 電力大數據
評論
用戶名:匿名發表  
密碼:  
驗證碼:
最新評論0

主辦單位:中國電力發展促進會
網站運營:北京中電創智科技有限公司  國網信通億力科技有限責任公司
服務熱線:400-007-1585      在線投稿
《 中華人民共和國電信與信息服務業務經營許可證 》編號:京ICP證140522號 京ICP備14013100號

p62走势图 黑龙江福彩36选7走势图 麻将来了cdkey在哪领 江西快3走势图基本图 福彩3d走势图综合版的 好玩的手机棋牌游戏 香港内幕传真报 腾讯棋牌游戏中心 河南22选5奇偶走势图 一定牛河北11选5 企业管理培训机构 重庆麻将扑克销售中心 曾道人预测单双网 双色球选号器 西游记之齐天大圣捕鱼 白小姐旗袍正版图纸记录 浙江体彩20选5开奖结果查询