亚洲v欧美日韩一区|中国不卡视频免费一区二区|小黄片观看视频欧美|在线观看加勒比网站|丁香精品久久亚洲日本片|成人免费AV大片|美女婷婷综合骚妇无码|亚洲女人的大黑逼视频一区二区三区|成人操人在线播放|久久久一二三区

Tax100 稅百

標(biāo)題: 日均數(shù)億次檢索請(qǐng)求,百度是如何做大規(guī)模知識(shí)圖譜構(gòu)建和應(yīng)用的? [打印本頁]

作者: 縱橫四海    時(shí)間: 2021-3-15 07:45
標(biāo)題: 日均數(shù)億次檢索請(qǐng)求,百度是如何做大規(guī)模知識(shí)圖譜構(gòu)建和應(yīng)用的?
(, 下載次數(shù): 40)


演講嘉賓 | 宋勛超
整理 | 李冬梅
知識(shí)圖譜在人工智能應(yīng)用中的重要價(jià)值日益突顯?;诤A炕ヂ?lián)網(wǎng)資源,百度構(gòu)建了超大規(guī)模的通用知識(shí)圖譜,并在智能搜索、智能推薦、智能交互等多項(xiàng)產(chǎn)品中實(shí)現(xiàn)了廣泛應(yīng)用。隨著文本、語音、視覺等智能技術(shù)的不斷深入,行業(yè)智能化訴求的提升,知識(shí)圖譜在復(fù)雜知識(shí)表示、多模態(tài)語義理解、行業(yè)圖譜構(gòu)建和應(yīng)用等方面都面臨新的挑戰(zhàn)。在 2019 年 11 月 22 日舉行的 AICon 全球人工智能與機(jī)器學(xué)習(xí)技術(shù)大會(huì)上,百度知識(shí)圖譜部主任研發(fā)架構(gòu)師宋勛超分享了百度在大規(guī)模知識(shí)圖譜構(gòu)建、多模語義理解、行業(yè)知識(shí)圖譜構(gòu)建及應(yīng)用等方面的最新進(jìn)展。
很高興在 AICon 大會(huì)上和大家分享百度知識(shí)圖譜部在過去一段時(shí)間里的技術(shù)進(jìn)展和應(yīng)用落地情況。本次分享的主題是“百度大規(guī)模知識(shí)圖譜構(gòu)建與智能應(yīng)用”,內(nèi)容主要分為三個(gè)部分:第一個(gè)部分是百度知識(shí)圖譜概述;第二部分是百度知識(shí)圖譜技術(shù)的進(jìn)展;第三個(gè)部分是百度知識(shí)圖譜的行業(yè)實(shí)踐。
百度知識(shí)圖譜概述
接下來先來講講第一個(gè)部分——百度知識(shí)圖譜概述。首先我想花些時(shí)間和大家一起回顧下,過去幾年,百度知識(shí)圖譜的主線工作以及技術(shù)發(fā)展歷程。百度知識(shí)圖譜源于搜索,服務(wù)搜索,同時(shí)隨著自身技術(shù)的積累和進(jìn)化,我們將知識(shí)圖譜的技術(shù)廣泛地運(yùn)用在了搜索之外的業(yè)務(wù)和產(chǎn)品線上。知識(shí)圖譜構(gòu)建和應(yīng)用,我們大概經(jīng)歷了四個(gè)比較大的階段。
百度知識(shí)圖譜發(fā)展歷程
(, 下載次數(shù): 37)

Pre-KG 階段
第一個(gè)階段是 2013 年以前,我們內(nèi)部稱之為 Pre-KG 階段。其實(shí)這個(gè)階段也是學(xué)術(shù)界和業(yè)界認(rèn)為的知識(shí)圖譜技術(shù)發(fā)展的初期階段。在這個(gè)階段,我們主要所做的工作是用定制化的方式去生產(chǎn)結(jié)構(gòu)化的數(shù)據(jù),其實(shí)這里還不能把它叫做“知識(shí)圖譜”。當(dāng)時(shí)我們將定制化方式生產(chǎn)出來的結(jié)構(gòu)化數(shù)據(jù),應(yīng)用在了百度搜索向智能化邁進(jìn)的早期代表性產(chǎn)品——百度知心當(dāng)中。
領(lǐng)域知識(shí)圖譜階段
第二個(gè)階段,也就是 2014 年到 2015 年。我們稱之為領(lǐng)域知識(shí)圖譜階段。在這個(gè)階段,我們知識(shí)圖譜的構(gòu)建和應(yīng)用技術(shù)體系逐漸成形,建立了一套面向垂類和領(lǐng)域知識(shí)圖譜建模構(gòu)建和應(yīng)用的架構(gòu)與機(jī)制,應(yīng)用落地層面重點(diǎn)支持了百度搜索的阿拉丁、推薦以及智能摘要,還有百度第一代智能生活助理度秘里面的垂類搜索和垂類問答。
通用知識(shí)圖譜階段
第三個(gè)階段,是 2016 年到 2017 年。在這個(gè)階段,我們逐漸地深化了通用知識(shí)圖譜構(gòu)建相關(guān)的架構(gòu)、算法和機(jī)制,技術(shù)重點(diǎn)在于統(tǒng)一融合的知識(shí)圖譜,平臺(tái)化外包化的知識(shí)圖譜構(gòu)建,并且在這個(gè)過程中,我們逐漸深化建設(shè)了一系列比較有特色的領(lǐng)域知識(shí)圖譜,包括百度漢語知識(shí)圖譜和娛樂知識(shí)圖譜。在應(yīng)用落地層面,在搜索產(chǎn)品中,百度知識(shí)圖譜開始以 KB 問答的形式來直接服務(wù)于百度搜索的首位滿足。在 DuerOS 各種端設(shè)備上的通用信息滿足,也在不斷地?cái)U(kuò)充著我們的影響面。在百度 Feed 信息流推薦這個(gè)場景中,我們基于知識(shí)圖譜構(gòu)建了大規(guī)模的興趣點(diǎn)和關(guān)注點(diǎn)圖譜,使得信息分發(fā)效果更好。
通用 / 行業(yè)知識(shí)圖譜 + 多元異構(gòu)
最后一個(gè)階段也就是 2017 年至今。這個(gè)階段,我們逐漸將知識(shí)圖譜的能力釋放出去,并且深入地探索了領(lǐng)域內(nèi)比較前瞻的問題。在這個(gè)階段,我們技術(shù)聚焦的重點(diǎn)在于多元、異構(gòu)知識(shí)圖譜的構(gòu)建,以及基于知識(shí)圖譜的主動(dòng)收錄學(xué)習(xí)模式,還有對(duì)于超越簡單三元組的多媒體知識(shí)、復(fù)雜知識(shí)和行業(yè)知識(shí)的理解和構(gòu)建。這個(gè)階段,在搜索端,我們主要的應(yīng)用落地是用知識(shí)圖譜全方位支持百度搜索首位滿足。我們除了在 Feed 信息流里面基于知識(shí)圖譜的語義關(guān)聯(lián)構(gòu)建興趣點(diǎn)圖譜來去做推薦外,我們還在 Feed 里面基于知識(shí)圖譜去做深度視頻內(nèi)容理解,還有智能內(nèi)容生成。從 2017 年開始,我們還逐漸地將知識(shí)圖譜在百度內(nèi)所積累的策略算法以及架構(gòu)和平臺(tái)的經(jīng)驗(yàn),遷移到行業(yè),在客服、法律、醫(yī)療、金融、能源等等行業(yè)也都取得了一些進(jìn)展和突破。
整體上來講,截止到目前,百度通用知識(shí)圖譜的數(shù)據(jù)規(guī)模已經(jīng)達(dá)到了億級(jí)別的實(shí)體和千億級(jí)別的事實(shí)和關(guān)系。從 2014 年至今,知識(shí)圖譜的服務(wù)規(guī)模已經(jīng)增長了 490 倍。這個(gè)就是整個(gè)百度知識(shí)圖譜部門從建立以來至今,技術(shù)和應(yīng)用落地的發(fā)展歷程。

智能搜索
(, 下載次數(shù): 50)

接下來,我就分四個(gè)部分來簡要地介紹一下億級(jí)別實(shí)體、千億級(jí)別屬性關(guān)系的大規(guī)模通用知識(shí)圖譜,在百度內(nèi)各個(gè)核心業(yè)務(wù)線的應(yīng)用情況。
首先是智能搜索。截止到目前,百度智能搜索的首位滿足率已經(jīng)達(dá)到 57%,這個(gè)是在 Robin 最新財(cái)報(bào)里面披露的一個(gè)數(shù)字。背后是基于百度最新的人工智能技術(shù)的加持,這其中 20% 左右是由百度知識(shí)圖譜的技術(shù)直接支持的?;谥R(shí)圖譜,我們直接滿足用戶的搜索需求,目前每天平均滿足數(shù)億次的檢索請(qǐng)求,其表現(xiàn)形式包括了各種形態(tài)的知識(shí)圖譜問答卡片以及對(duì)實(shí)體各個(gè)維度進(jìn)行信息聚合的知識(shí)大卡,這是知識(shí)圖譜在百度搜索首位直接給大家?guī)淼闹悄芑w驗(yàn)。
智能對(duì)話
第二個(gè)應(yīng)用點(diǎn)是智能對(duì)話。在過去一年,小度的智能音箱在用戶規(guī)模上保持高速增長。在語音對(duì)話 DuerOS 這個(gè)系統(tǒng)中,知識(shí)圖譜扮演了怎樣的角色?其實(shí),知識(shí)圖譜為它提供的是通用的信息滿足類的服務(wù)。截止到目前,百度知識(shí)圖譜助力 DuerOS 實(shí)現(xiàn)了近百類的通用知識(shí)滿足的能力,覆蓋了很大比例的通用信息滿足需求。
智能推薦
(, 下載次數(shù): 49)

第三個(gè)層面,就是知識(shí)圖譜應(yīng)用在 Feed 信息流推薦場景中。在這個(gè)場景中,基于知識(shí)圖譜的內(nèi)容模型和智能推薦技術(shù),F(xiàn)eed 文章的分發(fā)效率有了極大的提升。基于知識(shí)圖譜的語義關(guān)聯(lián),我們構(gòu)建了一個(gè)大規(guī)模的關(guān)注點(diǎn)圖譜,通過點(diǎn)、邊語義篩選,以及推理生成校驗(yàn),生成關(guān)注點(diǎn)圖譜,文章背后蘊(yùn)含的內(nèi)容關(guān)聯(lián),以及知識(shí)的聯(lián)系,通過關(guān)注點(diǎn)圖譜被鏈接起來?;谥R(shí)圖譜增強(qiáng)的推薦,傳統(tǒng)的智能推薦具備了更強(qiáng)的知識(shí)關(guān)聯(lián)特性,同時(shí)推薦的可解釋性和效果也得到了大幅度的提升。

智能寫作
(, 下載次數(shù): 48)

最后就是智能寫作了。我們主要是以知識(shí)圖譜的數(shù)據(jù)為核心,應(yīng)用知識(shí)加工、計(jì)算、聚合等方式來生產(chǎn)高時(shí)效和高質(zhì)量的獨(dú)家內(nèi)容。這種自動(dòng)寫作的方式,在特定的領(lǐng)域能夠發(fā)揮非常重要的作用,比如股市分析、體育賽事報(bào)道的自動(dòng)呈現(xiàn)等等。自然語言結(jié)合知識(shí)圖譜,解決了創(chuàng)作者在寫作前、寫作中和寫作后的諸多痛點(diǎn)問題。目前這項(xiàng)工作已經(jīng)在百度大腦(ai.baidu.com)知識(shí)圖譜專區(qū)已經(jīng)開放了。下圖是過去六年來我們技術(shù)沉淀的總結(jié):

(, 下載次數(shù): 49)

百度知識(shí)圖譜技術(shù)進(jìn)展
我分享的第二部分是百度知識(shí)圖譜的技術(shù)進(jìn)展。這一部分內(nèi)容比較偏技術(shù)一些,它將以如何構(gòu)建一個(gè)大規(guī)模、多元異構(gòu)的知識(shí)圖譜為目標(biāo),來進(jìn)行幾個(gè)技術(shù) Topic 的拆解。
多元異構(gòu)知識(shí)圖譜
(, 下載次數(shù): 46)

第一個(gè)技術(shù) Topic 是近兩年我們重點(diǎn)解決的一個(gè)問題——多元異構(gòu)圖譜的構(gòu)建。它主要解決的問題是我們?nèi)绾卧谝粋€(gè)開放、海量數(shù)據(jù)的互聯(lián)網(wǎng)環(huán)境下,去構(gòu)建千億級(jí)事實(shí)和關(guān)系的知識(shí)圖譜;知識(shí)圖譜里面包含的所有內(nèi)容是否就是簡單的 SPO 三元組,我們是否需要將更多復(fù)雜的知識(shí)來引入到我們的知識(shí)圖譜數(shù)據(jù)中;我們?cè)趺慈ダ斫夂蜆?gòu)建多媒體知識(shí)以及行業(yè)知識(shí)等等。

(, 下載次數(shù): 39)

首先,我們來講講開放海量數(shù)據(jù)構(gòu)建大規(guī)模知識(shí)圖譜這個(gè)技術(shù) Topic。在大數(shù)據(jù)時(shí)代知識(shí)圖譜技術(shù)需要處理的數(shù)據(jù)量級(jí)、百億級(jí)、千億級(jí)都非常常見,領(lǐng)域開放給我們帶來的最大的挑戰(zhàn)是什么?是數(shù)據(jù)結(jié)構(gòu)復(fù)雜、知識(shí)表達(dá)多樣、圖譜關(guān)系也很復(fù)雜、計(jì)算性能要求高等等。面向開放互聯(lián)網(wǎng),我們研發(fā)了基于主動(dòng)學(xué)習(xí)的大規(guī)模知識(shí)圖譜構(gòu)建技術(shù),包括了以下幾個(gè)層面:首先是基于遠(yuǎn)監(jiān)督學(xué)習(xí)的開放知識(shí)抽取,來解決無標(biāo)簽、開放知識(shí)挖掘的問題;第二個(gè)方面是基于屬性聚合的本體半自動(dòng)構(gòu)建,因?yàn)槲覀冎劳ㄓ弥R(shí)圖譜所涵蓋類目是非常多的,很難用專家的方式自頂向下地去描述整個(gè)客觀世界知識(shí)圖譜的本體和它的屬性和關(guān)系的體系,必須要用數(shù)據(jù)驅(qū)動(dòng)的方式完成在通用海量的數(shù)據(jù)上做本體構(gòu)建的工作;第三個(gè)層面就是對(duì)多元的數(shù)據(jù)進(jìn)行知識(shí)整合、融合。

基于以上技術(shù),百度通用知識(shí)圖譜的數(shù)據(jù)規(guī)模擴(kuò)大了幾個(gè)量級(jí),并且顯著提升了在搜索場景下知識(shí)圖譜的覆蓋度和建設(shè)效率。關(guān)鍵技術(shù)涵蓋了開放知識(shí)挖掘、自底向上的開放本體構(gòu)建、基于多源數(shù)據(jù)的知識(shí)整合。具體內(nèi)容如下圖所示:

(, 下載次數(shù): 38)
(, 下載次數(shù): 53)
(, 下載次數(shù): 33)

知識(shí)圖譜 SPO 三元組這種表示方式,并不能很好地描述狀態(tài)、空間、條件、概率和時(shí)序這一系列復(fù)雜知識(shí)。我們需要研發(fā)一些具有更強(qiáng)語義表達(dá)能力的知識(shí)圖譜。其中一項(xiàng)重要工作,就是事件圖譜。事件圖譜具有更強(qiáng)的表達(dá)能力,它能夠?qū)@個(gè)客觀世界去進(jìn)行建模。

(, 下載次數(shù): 49)

上圖展示的是一個(gè)歷史領(lǐng)域的事件圖譜示例。最左邊這個(gè)圖,表明了事件圖譜具有更強(qiáng)的知識(shí)表達(dá)能力。同樣的一幅國畫,在沒有知識(shí)或者弱知識(shí)的情況下,我們能夠認(rèn)知到這幅圖畫所蘊(yùn)含的內(nèi)容是三個(gè)人,有酒、有樹,這對(duì)于 OCR 和圖片識(shí)別來說已經(jīng)算是個(gè)好的成果了。有了實(shí)體知識(shí),也就是通用知識(shí)圖譜后,我們對(duì)這幅畫的理解程度就會(huì)加深,我們可以知道這里面描述的是劉備、關(guān)羽和張飛這三個(gè)人,這里面有酒、還有桃樹。有了事件知識(shí)圖譜,我們就能夠知道,這描述的是在東漢末年,劉、關(guān)、張三人在桃園里三結(jié)義的故事。事件圖譜持續(xù)、快速地獲取客觀世界中所發(fā)生的事件,并且挖掘事件的屬性,建立事件在空間和時(shí)間緯度上的聯(lián)系,進(jìn)而來構(gòu)成以事件為基本單位的知識(shí)網(wǎng)絡(luò)。同時(shí),在任意一個(gè)時(shí)刻,事件圖譜都能夠和實(shí)體圖譜,也就是通用的 SPO 三元組圖譜來形成一個(gè)映射,事件圖譜和實(shí)體圖譜之間是可以相互推斷的。我們認(rèn)為事件圖譜具有更強(qiáng)的知識(shí)表達(dá)能力,能夠?qū)陀^世界進(jìn)行更好地建模。

(, 下載次數(shù): 42)

上圖是百度事件知識(shí)圖譜的技術(shù)全景,我們從海量的互聯(lián)網(wǎng)數(shù)據(jù)里面去挖掘熱點(diǎn)事件,構(gòu)建事件知識(shí)圖譜,并且利用事件圖譜的認(rèn)知和計(jì)算技術(shù),去服務(wù)于百度的搜索、推薦、對(duì)話、機(jī)器智能寫作和輿情監(jiān)控等等產(chǎn)品線。目前為止,事件從發(fā)生到發(fā)現(xiàn),在百度搜索場景我們能夠達(dá)到分鐘級(jí)的感知,整體事件庫的規(guī)模達(dá)到了千萬級(jí)。
具體的應(yīng)用情況如下圖所示:
(, 下載次數(shù): 47)

講完了事件的知識(shí)圖譜的表示和構(gòu)建,接下來進(jìn)入另外一個(gè)知識(shí)圖譜的構(gòu)建——多媒體知識(shí)圖譜。多媒體知識(shí)圖譜是我們一直關(guān)注并在未來會(huì)重點(diǎn)投入的一個(gè)方向。目前,視頻基本覆蓋了我們生活的方方面面,搜索和信息流的視頻化趨勢也越來越明顯。

(, 下載次數(shù): 48)
在這個(gè)技術(shù) Topic 上,我們構(gòu)建了基于知識(shí)圖譜的視頻內(nèi)容分析,它主要去解決傳統(tǒng)視頻語義理解里缺乏背景知識(shí)的問題,幫助指導(dǎo)我們更好的理解視頻。我們構(gòu)建了一種基于知識(shí)圖譜的視頻語義理解技術(shù),充分利用知識(shí)圖譜豐富的、海量的背景知識(shí)去提升視頻語義理解的效果。這個(gè)技術(shù)是通過對(duì)視覺、語音和文字多模的融合,結(jié)合知識(shí)圖譜的子圖關(guān)聯(lián),去深度地理解視頻背后蘊(yùn)含的知識(shí)信息。

(, 下載次數(shù): 45)

上圖左邊是我們?cè)谠摲较虻募夹g(shù)棧的一個(gè)視圖,包括了最底層的多模分析,這個(gè)多模分析是基于百度多模分析部門,分析出來的多模結(jié)果,我們?cè)谏蠈咏⒘嘶谥R(shí)圖譜的語義理解的基礎(chǔ)技術(shù),包括視頻內(nèi)容模型、跨媒體生成、知識(shí)解析、子圖關(guān)聯(lián)、視頻子圖關(guān)聯(lián)還有推理計(jì)算等。
這里面提到一個(gè)視頻問答,這項(xiàng)工作是發(fā)表在 2019 年 ACL 上的一個(gè)成果,它的名字叫做“Multi-grained Attention with Object-level Grounding for Visual Question Answering”,它提出了一種多粒度跨模態(tài)注意力機(jī)制,在圖片和句子的粒度基礎(chǔ)之上,引入更細(xì)粒度的實(shí)體級(jí)別信息,幫助我們更加關(guān)注實(shí)體維度的理解。
近年來,越來越多的企業(yè)都有一個(gè)核心的訴求,就是希望利用知識(shí)圖譜去沉淀行業(yè)知識(shí),進(jìn)而提升行業(yè)知識(shí)的運(yùn)用水平。我們從 2017 年開始做這個(gè)事情,目前在金融、法律、醫(yī)療、能源等領(lǐng)域都已經(jīng)有些落地,并且逐漸將積累多年的知識(shí)圖譜系列核心技術(shù),向行業(yè)進(jìn)行通用化的遷移。
百度知識(shí)圖譜行業(yè)實(shí)踐
接下來我們闡述下第三部分主要內(nèi)容,就是百度知識(shí)圖譜的行業(yè)實(shí)踐。這一部分我們會(huì)分享一些百度知識(shí)圖譜在行業(yè)賦能方面的實(shí)踐。知識(shí)圖譜如何和行業(yè)結(jié)合是近幾年這個(gè)行業(yè)實(shí)現(xiàn)從信息化到智能化跨越大家都非常關(guān)注的一個(gè)話題。

(, 下載次數(shù): 48)

海量數(shù)據(jù)的知識(shí)化轉(zhuǎn)化是目前眾多行業(yè)所面臨亟待解決的問題。我這里面列舉了一些數(shù)字,用來說明幾個(gè)特性:一、行業(yè)數(shù)據(jù)體量巨大;二、行業(yè)知識(shí)需求廣泛;三、行業(yè)知識(shí)轉(zhuǎn)化困難。根據(jù)一項(xiàng)權(quán)威分析報(bào)告顯示,到 2020 年,我們整個(gè)行業(yè)里所積累的數(shù)據(jù)體量將從 2015 年的 5ZB,上升到 2020 年的 44ZB。具體到行業(yè)內(nèi)部,比如法律行業(yè),每年會(huì)產(chǎn)生 4 億份卷宗,醫(yī)療行業(yè),每年數(shù)據(jù)的增長率達(dá)到了 48%,也就是說我們現(xiàn)在正處在一個(gè)數(shù)據(jù)爆炸的時(shí)代。怎么利用這些數(shù)據(jù)更好地提升行業(yè)的智能化應(yīng)用水平,是我們一直在思考的問題。
第二個(gè)特性是行業(yè)對(duì)知識(shí)的需求非常廣泛。根據(jù)我國國民經(jīng)濟(jì)對(duì)行業(yè)的分類,我們將行業(yè)分為了 14 大知識(shí)密集型服務(wù)行業(yè),其中以客服行業(yè)為代表,目前,我國現(xiàn)有 500 萬專職客服人員,以每人每年六萬的人力成本來算,這就是 3000 億的人力成本。
第三個(gè)特性是目前數(shù)據(jù)到知識(shí)的轉(zhuǎn)化是非常困難的。2020 年我們已經(jīng)有 44ZB 的數(shù)據(jù),而實(shí)際上這些數(shù)據(jù)的利用率也只有 0.4%。以走在信息化前列的金融行業(yè)為例,我們有 80% 的數(shù)據(jù)蘊(yùn)含在非結(jié)構(gòu)化的數(shù)據(jù)里面,都沒有被充分發(fā)揮和利用。人工構(gòu)建一個(gè)知識(shí)圖譜的成本是非常高的,以 Freebase 為例,它的整體規(guī)模成本是 65 億,如果將這 65 億除以 Freebase 里面所有包含知識(shí)條目數(shù),基本上每條知識(shí)就是 2.25 美元。所以,知識(shí)圖譜的行業(yè)化應(yīng)用將是百度和業(yè)界都會(huì)關(guān)注的重點(diǎn)。
(, 下載次數(shù): 48)

這里面列舉了我們過去兩年總結(jié)出來的通用知識(shí)圖譜技術(shù)和行業(yè)知識(shí)圖譜技術(shù)的不同,也正是基于這些不同,我們建立了一套行業(yè)知識(shí)圖譜構(gòu)建與應(yīng)用的技術(shù)體系。具體而言,我們認(rèn)為,行業(yè)知識(shí)圖譜和通用知識(shí)圖譜在下面四個(gè)維度有著很大不同,這四個(gè)維度也是知識(shí)圖譜從表示、構(gòu)建、到服務(wù)和應(yīng)用的四個(gè)全周期維度。

(, 下載次數(shù): 42)

上圖是我們知識(shí)圖譜全流程智能化的簡要視圖,從知識(shí)建模、到知識(shí)構(gòu)建,再到知識(shí)計(jì)算和知識(shí)應(yīng)用,我們?cè)诿恳粋€(gè)環(huán)節(jié)都有自己的關(guān)注點(diǎn)。比如在知識(shí)建模這個(gè)層面,我們會(huì)重點(diǎn)關(guān)注知識(shí)模式的動(dòng)態(tài)擴(kuò)展、行業(yè)復(fù)雜知識(shí)表達(dá)、行業(yè)與業(yè)界標(biāo)準(zhǔn)的兼容開放、可視化協(xié)同建模,以及我們會(huì)將通用知識(shí)模型引入和內(nèi)置到行業(yè)知識(shí)圖譜的表達(dá)過程中。
接下來我們深入講解下幾個(gè)重點(diǎn)技術(shù)問題。

(, 下載次數(shù): 42)

首先第一個(gè)問題是行業(yè)知識(shí)圖譜構(gòu)建時(shí)我們面臨的最大挑戰(zhàn)——知識(shí)理解冷啟動(dòng)的問題。在百度內(nèi)部知識(shí)圖譜構(gòu)建,理解算法層面,我們有大量的互聯(lián)網(wǎng)語料,我們有基于用戶點(diǎn)擊貢獻(xiàn)的海量標(biāo)注,這些信息幫助我們?cè)谕ㄓ妙I(lǐng)域?qū)⑺惴ㄍ频揭粋€(gè)比較好的效果上。在行業(yè)內(nèi),一般標(biāo)注數(shù)據(jù)會(huì)缺失,專家標(biāo)注的人力成本又非常高,為了解決上述問題,我們?cè)谛袠I(yè)應(yīng)用過程中遵循一個(gè)范式去解決行業(yè)語料冷啟動(dòng)問題。上圖展示了這個(gè)范式的大致流程。

下圖是我們行業(yè)知識(shí)圖譜構(gòu)建的全流程,包括了知識(shí)建模、抽取、清洗、消歧、建邊和關(guān)聯(lián),這里面列舉了現(xiàn)在我們重點(diǎn)關(guān)注的三個(gè)行業(yè):法律知識(shí)圖譜、醫(yī)療知識(shí)圖譜和金融知識(shí)圖譜。

(, 下載次數(shù): 39)

(, 下載次數(shù): 54)

我剛剛提到了計(jì)算挖掘和推理是目前行業(yè)對(duì)于知識(shí)圖譜需求非常大的一個(gè)點(diǎn),是超越了簡單問答等等一系列淺層應(yīng)用的點(diǎn)。比如在金融行業(yè),我們有大量的交易數(shù)據(jù)、投資數(shù)據(jù),我們可以從這些數(shù)據(jù)里面去挖掘出有價(jià)值的信息,將其應(yīng)用在反欺詐、風(fēng)險(xiǎn)控制和智能營銷這些領(lǐng)域。這些應(yīng)用會(huì)依賴一個(gè)基于圖表示的計(jì)算分析引擎 --- 圖數(shù)據(jù)庫。百度 BGraph 就是這樣一個(gè)擁有自主知識(shí)產(chǎn)權(quán)的大規(guī)模高性能原生圖數(shù)據(jù)庫。

(, 下載次數(shù): 52)

最后我們講一下知識(shí)圖譜問答。知識(shí)圖譜問答在行業(yè)上面分了三種技術(shù),去滿足行業(yè)對(duì)于知識(shí)圖譜的問答需求。第一部分就是 KBQA,它是基于知識(shí)圖譜結(jié)構(gòu)化數(shù)據(jù)的問答技術(shù),主要是用兩種 semantic parsing 技術(shù)去解決行業(yè)知識(shí)圖譜問答問題。第二部分是 IRQA,也就是是閱讀理解 QA,第三部分是知識(shí)推理計(jì)算型 QA。通過這三種 QA,我們?cè)谛袠I(yè)知識(shí)庫、行業(yè)智能客服等多個(gè)場景中都取得了非常好的 QA 效果。

(, 下載次數(shù): 53)

總  結(jié)
我們目前面向行業(yè)所構(gòu)建的行業(yè)知識(shí)圖譜一體化服務(wù),包括了最底層的離線架構(gòu)、檢索架構(gòu)(圖數(shù)據(jù)庫),以及上層豐富的應(yīng)用技術(shù),我們將它封裝成行業(yè)知識(shí)圖譜平臺(tái)(ai.baidu.com 上有專區(qū)),大家可以通過這個(gè)入口,與我們?nèi)〉寐?lián)系。在應(yīng)用層面,我們目前有三個(gè)標(biāo)準(zhǔn)化的產(chǎn)品,一個(gè)是圖數(shù)據(jù)庫,一個(gè)是智能客服,還有一個(gè)是基于知識(shí)圖譜的智能知識(shí)庫。在行業(yè)深耕層面主要是醫(yī)療、金融、法律、能源這幾個(gè)行業(yè),我們現(xiàn)在都有了一些規(guī)?;涞?,并且還在不斷的擴(kuò)充著落地范疇。
知識(shí)圖譜一直都是人工智能的熱門領(lǐng)域,隨著 2020 年的鐘聲敲響,知識(shí)圖譜也逐漸進(jìn)入到了下半場,繁雜的應(yīng)用場景、深度的知識(shí)應(yīng)用、密集的專家知識(shí)都給知識(shí)圖譜帶來了不小的挑戰(zhàn),那么如何在這場沒有硝煙的戰(zhàn)爭中拔得頭籌呢?相信 AICon2020 上海會(huì)給你提供一個(gè)很好的基礎(chǔ),AICon 本次也會(huì)重點(diǎn)關(guān)注知識(shí)圖譜的最新技術(shù)進(jìn)展,將邀請(qǐng)一線大廠的講師為大家分享他們走過的那些坑以及總結(jié)出來的經(jīng)驗(yàn)教訓(xùn)。
嘉賓介紹:
宋勛超,碩士畢業(yè)于浙江大學(xué),百度知識(shí)圖譜部主任研發(fā)架構(gòu)師。參與了百度知識(shí)圖譜設(shè)計(jì)、構(gòu)建和應(yīng)用的整體流程,具有豐富的知識(shí)圖譜實(shí)踐經(jīng)驗(yàn)。目前主要負(fù)責(zé)通用知識(shí)圖譜構(gòu)建、語義理解、圖譜架構(gòu)等技術(shù),同時(shí)負(fù)責(zé)百度行業(yè)知識(shí)圖譜相關(guān)工作。研發(fā)成果在百度搜索、信息流、DuerOS,百度云等多項(xiàng)產(chǎn)品中廣泛應(yīng)用



作者:AI前線
鏈接:https://xueqiu.com/9217191040/141858150
來源:雪球
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
風(fēng)險(xiǎn)提示:本文所提到的觀點(diǎn)僅代表個(gè)人的意見,所涉及標(biāo)的不作推薦,據(jù)此買賣,風(fēng)險(xiǎn)自負(fù)。





歡迎光臨 Tax100 稅百 (http://www.hjtg28.cn/) Powered by Discuz! X5.1