亚洲v欧美日韩一区|中国不卡视频免费一区二区|小黄片观看视频欧美|在线观看加勒比网站|丁香精品久久亚洲日本片|成人免费AV大片|美女婷婷综合骚妇无码|亚洲女人的大黑逼视频一区二区三区|成人操人在线播放|久久久一二三区

Tax100 稅百

標(biāo)題: 百度大腦UNIT3.0詳解之知識(shí)圖譜與對(duì)話 [打印本頁(yè)]

作者: 縱橫四海    時(shí)間: 2021-4-9 07:36
標(biāo)題: 百度大腦UNIT3.0詳解之知識(shí)圖譜與對(duì)話
(, 下載次數(shù): 46)

如今,越來(lái)越多的企業(yè)想要在電商客服、法律顧問等領(lǐng)域做一套包含行業(yè)知識(shí)的智能對(duì)話系統(tǒng),而行業(yè)或領(lǐng)域知識(shí)的積累、構(gòu)建、抽取等工作對(duì)于企業(yè)來(lái)說是個(gè)不小的難題,百度大腦UNIT3.0推出「我的知識(shí)」版塊專門為開發(fā)者提供知識(shí)建設(shè)幫助。在行業(yè)智能化的實(shí)現(xiàn)進(jìn)程中,通過知識(shí)圖譜對(duì)數(shù)據(jù)進(jìn)行提煉、萃取、關(guān)聯(lián)、整合,形成行業(yè)知識(shí)或領(lǐng)域知識(shí),讓機(jī)器形成對(duì)于行業(yè)工作的認(rèn)知能力,并把這些認(rèn)知能力與技能理解模型進(jìn)行整合,從而實(shí)現(xiàn)這個(gè)行業(yè)的知識(shí)型對(duì)話系統(tǒng)。

【認(rèn)知與對(duì)話智能】

首先舉個(gè)簡(jiǎn)單的例子,讓大家直觀感受一下認(rèn)知與對(duì)話智能:

小明:[演員]是做什么的?

小吳:是指專職演出,或在表演藝術(shù)中扮演某個(gè)角色的人物

小明:[周杰倫]是做什么的?

小吳:歌手

以上,直觀展示了即使是句式一致的兩句話,人類能區(qū)分出前者是“名詞解釋” 意圖,后者是“詢問工作” 意圖。小吳能做到如此,是因?yàn)樗e累了很多知識(shí),而這些知識(shí)幫助他在日常交流中更好的理解、決策、答復(fù)。

對(duì)應(yīng)的,人機(jī)對(duì)話流程中涉及的語(yǔ)言理解、對(duì)話決策、信息查詢、語(yǔ)言組織等重要環(huán)節(jié),都需要語(yǔ)言知識(shí)、世界知識(shí)以及必要的領(lǐng)域知識(shí)的指導(dǎo)。其中,知識(shí)圖譜(Knowledge Graph,KG)是應(yīng)用最為廣泛的知識(shí)表示形式之一。知識(shí)圖譜以圖譜的形式描述真實(shí)世界的實(shí)體及其內(nèi)在關(guān)系,用模式定義可能的類和實(shí)體關(guān)系,允許任意實(shí)體彼此潛在相互關(guān)聯(lián),并涵蓋各種主題領(lǐng)域。

在UNIT平臺(tái)中,知識(shí)圖譜的具體應(yīng)用可劃分為三種模式:

1) 第一種模式對(duì)應(yīng)問答型對(duì)話系統(tǒng),該類對(duì)話系統(tǒng)將知識(shí)圖譜視為答案信息來(lái)源,通過對(duì)話理解將用戶問題轉(zhuǎn)化為對(duì)知識(shí)圖譜的查詢,直接得到用戶問題的答案。

2) 第二種模式將知識(shí)圖譜視為用于對(duì)話理解的知識(shí)源,借助知識(shí)圖譜中元素的屬性及關(guān)系,為用戶話語(yǔ)和對(duì)話上下文的語(yǔ)義理解提供輔助。

3) 第三種模式對(duì)應(yīng)主動(dòng)對(duì)話場(chǎng)景,借助知識(shí)圖譜中概念、屬性 和關(guān)系之間的關(guān)聯(lián),通過話題推薦等策略實(shí)現(xiàn)對(duì)話過程的主動(dòng)引導(dǎo)。

知識(shí)圖譜技術(shù)解讀】

UNIT-我的知識(shí)總體組成如下:

平臺(tái):UNIT為托管知識(shí)圖譜提供了的整套平臺(tái)化支持。

算法:提供了圖譜生產(chǎn)和應(yīng)用環(huán)節(jié)的一套豐富的高質(zhì)量算法。

架構(gòu):包含圖譜生產(chǎn)架構(gòu),圖譜存儲(chǔ)架構(gòu),圖譜算法架構(gòu),圖譜應(yīng)用架構(gòu)。

(, 下載次數(shù): 44)

UNIT知識(shí)圖譜的核心技術(shù)包括知識(shí)表示、知識(shí)抽取、知識(shí)消岐與融合、知識(shí)存儲(chǔ)。

1. 知識(shí)表示:

知識(shí)表示要解決的核心問題是知識(shí)建模,也就是建立行業(yè)知識(shí)圖譜的數(shù)據(jù)模式,以及對(duì)整個(gè)知識(shí)圖譜的結(jié)構(gòu)進(jìn)行定義??刹捎萌N方式對(duì)行業(yè)知識(shí)體系進(jìn)行定義:

1) 自頂向下,即完全由專家在平臺(tái)上進(jìn)行專業(yè)化編輯生產(chǎn)。

2) 自底向上,基于行業(yè)現(xiàn)有的標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換或者從現(xiàn)有的高質(zhì)量行業(yè)數(shù)據(jù)源(如業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)表)中進(jìn)行映射。

3) 通用引入,基于百度積累多年的KG Schema,由行業(yè)圖譜生產(chǎn)者在平臺(tái)fork引用,形成行業(yè)schema的基礎(chǔ)骨架。

百度知識(shí)圖譜數(shù)據(jù)描述規(guī)范使用W3C RDF協(xié)議定義作為基礎(chǔ)協(xié)議,采用JSON-LD標(biāo)準(zhǔn)組織描述語(yǔ)言,包含如下要素:

1) Class類:實(shí)體的種類,定義一種類型的實(shí)體。

2) Property屬性:表示不同數(shù)據(jù)源中針對(duì)實(shí)體的描述,形成對(duì)實(shí)體的全方位描述。

3) Relation關(guān)系:利用關(guān)系來(lái)描述各類抽象建模成實(shí)體的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而支持關(guān)聯(lián)分析。

4) Constraint約束:一個(gè)屬性在特定類下面的約束,為屬性增加多態(tài)和重載的特性。

5) Datatype數(shù)據(jù)類型:描述一個(gè)屬性的數(shù)據(jù)類型。

6) Subclass概念上下位:描述Class的從屬上下位概念關(guān)系。

KG Schema支持復(fù)合類型的屬性值,用以增強(qiáng)三元組表示方式的語(yǔ)義表達(dá)能力,例如可以表達(dá)時(shí)序,空間等復(fù)雜知識(shí)。

2. 知識(shí)抽?。?/font>

百度知識(shí)圖譜的知識(shí)抽取能力,從百度對(duì)萬(wàn)億級(jí)的互聯(lián)網(wǎng)資源圖譜化而建立的抽取能力而來(lái)。能力棧上分為三個(gè)層次:結(jié)構(gòu)化抽取,半結(jié)構(gòu)化抽取,以及非結(jié)構(gòu)化抽取。

1) 結(jié)構(gòu)化數(shù)據(jù)指規(guī)范化良好的關(guān)系數(shù)據(jù)庫(kù),知識(shí)圖譜已實(shí)現(xiàn)基于成熟D2R技術(shù)的可視化工具用于這類數(shù)據(jù)的轉(zhuǎn)化。

2) 半結(jié)構(gòu)化數(shù)據(jù)主要指表格、半結(jié)構(gòu)的kv等有一定結(jié)構(gòu)的數(shù)據(jù),目前知識(shí)圖譜已實(shí)現(xiàn)基于schema的表格(主要技術(shù)是根據(jù)schema自動(dòng)識(shí)別表格結(jié)構(gòu))和半結(jié)構(gòu)化文本自動(dòng)抽取模塊。該項(xiàng)技術(shù)已經(jīng)在多個(gè)行業(yè)場(chǎng)景中實(shí)際落地。

3) 無(wú)結(jié)構(gòu)化自由文本知識(shí)抽取,采用通用數(shù)據(jù)預(yù)訓(xùn)練+具體場(chǎng)景遷移的技術(shù)思路解決行業(yè)樣本稀疏的問題。預(yù)訓(xùn)練階段主要是基于百度在通用知識(shí)圖譜構(gòu)件上積累的大量標(biāo)注樣本,訓(xùn)練文本分類模型與序列標(biāo)注模型,用于標(biāo)注出現(xiàn)在文檔段落中的SPO。

3. 實(shí)體消岐與融合:

行業(yè)數(shù)據(jù)往往存在多來(lái)源,多渠道的特型,不同來(lái)源渠道對(duì)同一實(shí)體的表述往往不盡相同,由于不可能為每個(gè)名稱分配唯一的標(biāo)識(shí)符,所以在許多情況下,如果人們使用名稱來(lái)識(shí)別指定的命名實(shí)體,則可能會(huì)導(dǎo)致混淆,為了提升知識(shí)圖譜的質(zhì)量以及語(yǔ)義密度,提供了一套知識(shí)融合消歧算法以及配套的策略迭代方法,來(lái)解決行業(yè)數(shù)據(jù)的融合消歧問題。

融合與消歧涉及兩種知識(shí)操作:

1) 關(guān)聯(lián),給定實(shí)體(集)、知識(shí)庫(kù)KB,完成實(shí)體的辨識(shí)、建立與KB中實(shí)體的等價(jià)鏈接、及NIL判斷。其中,“等價(jià)”是指兩實(shí)體指代現(xiàn)實(shí)世界中同一事物或概念、“NIL”表示實(shí)體在KB中不存在。

2) 歸一,給定實(shí)體集合,完成相同實(shí)體的分組聚合。其中,“相同”定義為待歸一的實(shí)體指代了現(xiàn)實(shí)世界中同一事物或概念。

【如何在UNIT平臺(tái)構(gòu)建自己的知識(shí)圖譜

UNIT對(duì)話系統(tǒng)的核心能力包含語(yǔ)言理解、對(duì)話流程管理和知識(shí)建設(shè)。“我的知識(shí)-圖譜/問答知識(shí)庫(kù)”是知識(shí)建設(shè)能力的重要組成部分,為開發(fā)者提供了知識(shí)挖掘與管理工具。這些積累的知識(shí)可用于提高模型理解能力、完善對(duì)話管理能力、實(shí)現(xiàn)對(duì)話系統(tǒng)的知識(shí)建設(shè)閉環(huán)。

(, 下載次數(shù): 50)

現(xiàn)在,只需3步就能在“我的知識(shí)——圖譜知識(shí)庫(kù)”定義和構(gòu)建您的知識(shí)圖譜

(, 下載次數(shù): 50)

第一步,在“知識(shí)定義”頁(yè)面導(dǎo)入我們?yōu)槟鷾?zhǔn)備好的類目文件模板:https://unitweb.cdn.bcebos.com/圖譜知識(shí)庫(kù)快速上手類目文件模板.zip

第二步,在“我的數(shù)據(jù)”頁(yè)面上傳我們?yōu)槟鷾?zhǔn)備好的數(shù)據(jù)源文件:https://unitweb.cdn.bcebos.com/圖譜知識(shí)庫(kù)快速上手?jǐn)?shù)據(jù)源文件.zip

第三步,在“圖譜構(gòu)建”頁(yè)面點(diǎn)擊“開始構(gòu)建圖譜”,等待構(gòu)建完成。

接下來(lái),您就可以預(yù)覽查看相關(guān)數(shù)據(jù),完成快速體驗(yàn)。

【整合技能與知識(shí)】

在UNIT中,知識(shí)與技能整合的方式如下:

1) 提煉萃取行業(yè)知識(shí):定義自己的圖譜知識(shí)結(jié)構(gòu),上傳知識(shí)源文檔,挖掘?qū)嶓w、屬性、屬性值;

2) 讓技能更好地理解:導(dǎo)出圖譜知識(shí)庫(kù)里的各種屬性值作為對(duì)話技能的詞槽詞典值;

3) 讓技能更聰明地對(duì)話:在對(duì)話技能中使用Taskflow配置(云端對(duì)話流程管理模塊,可實(shí)現(xiàn)復(fù)雜對(duì)話流程的管理 )查詢實(shí)體、屬性值,進(jìn)行流程控制或作為答復(fù)內(nèi)容。

后續(xù)UNIT平臺(tái)會(huì)提供更多“技能+知識(shí)”的整合方案,也將幫助各位開發(fā)者持續(xù)探索并打造對(duì)話技術(shù)進(jìn)入工業(yè)級(jí)落地的各項(xiàng)基礎(chǔ)條件。







歡迎光臨 Tax100 稅百 (http://www.hjtg28.cn/) Powered by Discuz! X5.1