亚洲v欧美日韩一区|中国不卡视频免费一区二区|小黄片观看视频欧美|在线观看加勒比网站|丁香精品久久亚洲日本片|成人免费AV大片|美女婷婷综合骚妇无码|亚洲女人的大黑逼视频一区二区三区|成人操人在线播放|久久久一二三区

返回列表 發(fā)布新帖

百度大腦UNIT3.0詳解之知識圖譜與對話

2835 1 樓主
發(fā)表于 2021-4-9 07:36:03 | 只看樓主 只看大圖 閱讀模式
|

如今,越來越多的企業(yè)想要在電商客服、法律顧問等領(lǐng)域做一套包含行業(yè)知識的智能對話系統(tǒng),而行業(yè)或領(lǐng)域知識的積累、構(gòu)建、抽取等工作對于企業(yè)來說是個不小的難題,百度大腦UNIT3.0推出「我的知識」版塊專門為開發(fā)者提供知識建設(shè)幫助。在行業(yè)智能化的實現(xiàn)進程中,通過知識圖譜對數(shù)據(jù)進行提煉、萃取、關(guān)聯(lián)、整合,形成行業(yè)知識或領(lǐng)域知識,讓機器形成對于行業(yè)工作的認知能力,并把這些認知能力與技能理解模型進行整合,從而實現(xiàn)這個行業(yè)的知識型對話系統(tǒng)。

【認知與對話智能】

首先舉個簡單的例子,讓大家直觀感受一下認知與對話智能:

小明:[演員]是做什么的?

小吳:是指專職演出,或在表演藝術(shù)中扮演某個角色的人物

小明:[周杰倫]是做什么的?

小吳:歌手

以上,直觀展示了即使是句式一致的兩句話,人類能區(qū)分出前者是“名詞解釋” 意圖,后者是“詢問工作” 意圖。小吳能做到如此,是因為他積累了很多知識,而這些知識幫助他在日常交流中更好的理解、決策、答復(fù)。

對應(yīng)的,人機對話流程中涉及的語言理解、對話決策、信息查詢、語言組織等重要環(huán)節(jié),都需要語言知識、世界知識以及必要的領(lǐng)域知識的指導(dǎo)。其中,知識圖譜(Knowledge Graph,KG)是應(yīng)用最為廣泛的知識表示形式之一。知識圖譜以圖譜的形式描述真實世界的實體及其內(nèi)在關(guān)系,用模式定義可能的類和實體關(guān)系,允許任意實體彼此潛在相互關(guān)聯(lián),并涵蓋各種主題領(lǐng)域。

在UNIT平臺中,知識圖譜的具體應(yīng)用可劃分為三種模式:

1) 第一種模式對應(yīng)問答型對話系統(tǒng),該類對話系統(tǒng)將知識圖譜視為答案信息來源,通過對話理解將用戶問題轉(zhuǎn)化為對知識圖譜的查詢,直接得到用戶問題的答案。

2) 第二種模式將知識圖譜視為用于對話理解的知識源,借助知識圖譜中元素的屬性及關(guān)系,為用戶話語和對話上下文的語義理解提供輔助。

3) 第三種模式對應(yīng)主動對話場景,借助知識圖譜中概念、屬性 和關(guān)系之間的關(guān)聯(lián),通過話題推薦等策略實現(xiàn)對話過程的主動引導(dǎo)。

知識圖譜技術(shù)解讀】

UNIT-我的知識總體組成如下:

平臺:UNIT為托管知識圖譜提供了的整套平臺化支持。

算法:提供了圖譜生產(chǎn)和應(yīng)用環(huán)節(jié)的一套豐富的高質(zhì)量算法。

架構(gòu):包含圖譜生產(chǎn)架構(gòu),圖譜存儲架構(gòu),圖譜算法架構(gòu),圖譜應(yīng)用架構(gòu)。


UNIT知識圖譜的核心技術(shù)包括知識表示、知識抽取、知識消岐與融合、知識存儲。

1. 知識表示:

知識表示要解決的核心問題是知識建模,也就是建立行業(yè)知識圖譜的數(shù)據(jù)模式,以及對整個知識圖譜的結(jié)構(gòu)進行定義??刹捎萌N方式對行業(yè)知識體系進行定義:

1) 自頂向下,即完全由專家在平臺上進行專業(yè)化編輯生產(chǎn)。

2) 自底向上,基于行業(yè)現(xiàn)有的標(biāo)準(zhǔn)進行轉(zhuǎn)換或者從現(xiàn)有的高質(zhì)量行業(yè)數(shù)據(jù)源(如業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫表)中進行映射。

3) 通用引入,基于百度積累多年的KG Schema,由行業(yè)圖譜生產(chǎn)者在平臺fork引用,形成行業(yè)schema的基礎(chǔ)骨架。

百度知識圖譜數(shù)據(jù)描述規(guī)范使用W3C RDF協(xié)議定義作為基礎(chǔ)協(xié)議,采用JSON-LD標(biāo)準(zhǔn)組織描述語言,包含如下要素:

1) Class類:實體的種類,定義一種類型的實體。

2) Property屬性:表示不同數(shù)據(jù)源中針對實體的描述,形成對實體的全方位描述。

3) Relation關(guān)系:利用關(guān)系來描述各類抽象建模成實體的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而支持關(guān)聯(lián)分析。

4) Constraint約束:一個屬性在特定類下面的約束,為屬性增加多態(tài)和重載的特性。

5) Datatype數(shù)據(jù)類型:描述一個屬性的數(shù)據(jù)類型。

6) Subclass概念上下位:描述Class的從屬上下位概念關(guān)系。

KG Schema支持復(fù)合類型的屬性值,用以增強三元組表示方式的語義表達能力,例如可以表達時序,空間等復(fù)雜知識。

2. 知識抽?。?/font>

百度知識圖譜的知識抽取能力,從百度對萬億級的互聯(lián)網(wǎng)資源圖譜化而建立的抽取能力而來。能力棧上分為三個層次:結(jié)構(gòu)化抽取,半結(jié)構(gòu)化抽取,以及非結(jié)構(gòu)化抽取。

1) 結(jié)構(gòu)化數(shù)據(jù)指規(guī)范化良好的關(guān)系數(shù)據(jù)庫,知識圖譜已實現(xiàn)基于成熟D2R技術(shù)的可視化工具用于這類數(shù)據(jù)的轉(zhuǎn)化。

2) 半結(jié)構(gòu)化數(shù)據(jù)主要指表格、半結(jié)構(gòu)的kv等有一定結(jié)構(gòu)的數(shù)據(jù),目前知識圖譜已實現(xiàn)基于schema的表格(主要技術(shù)是根據(jù)schema自動識別表格結(jié)構(gòu))和半結(jié)構(gòu)化文本自動抽取模塊。該項技術(shù)已經(jīng)在多個行業(yè)場景中實際落地。

3) 無結(jié)構(gòu)化自由文本知識抽取,采用通用數(shù)據(jù)預(yù)訓(xùn)練+具體場景遷移的技術(shù)思路解決行業(yè)樣本稀疏的問題。預(yù)訓(xùn)練階段主要是基于百度在通用知識圖譜構(gòu)件上積累的大量標(biāo)注樣本,訓(xùn)練文本分類模型與序列標(biāo)注模型,用于標(biāo)注出現(xiàn)在文檔段落中的SPO。

3. 實體消岐與融合:

行業(yè)數(shù)據(jù)往往存在多來源,多渠道的特型,不同來源渠道對同一實體的表述往往不盡相同,由于不可能為每個名稱分配唯一的標(biāo)識符,所以在許多情況下,如果人們使用名稱來識別指定的命名實體,則可能會導(dǎo)致混淆,為了提升知識圖譜的質(zhì)量以及語義密度,提供了一套知識融合消歧算法以及配套的策略迭代方法,來解決行業(yè)數(shù)據(jù)的融合消歧問題。

融合與消歧涉及兩種知識操作:

1) 關(guān)聯(lián),給定實體(集)、知識庫KB,完成實體的辨識、建立與KB中實體的等價鏈接、及NIL判斷。其中,“等價”是指兩實體指代現(xiàn)實世界中同一事物或概念、“NIL”表示實體在KB中不存在。

2) 歸一,給定實體集合,完成相同實體的分組聚合。其中,“相同”定義為待歸一的實體指代了現(xiàn)實世界中同一事物或概念。

【如何在UNIT平臺構(gòu)建自己的知識圖譜

UNIT對話系統(tǒng)的核心能力包含語言理解、對話流程管理和知識建設(shè)?!拔业闹R-圖譜/問答知識庫”是知識建設(shè)能力的重要組成部分,為開發(fā)者提供了知識挖掘與管理工具。這些積累的知識可用于提高模型理解能力、完善對話管理能力、實現(xiàn)對話系統(tǒng)的知識建設(shè)閉環(huán)。


現(xiàn)在,只需3步就能在“我的知識——圖譜知識庫”定義和構(gòu)建您的知識圖譜


第一步,在“知識定義”頁面導(dǎo)入我們?yōu)槟鷾?zhǔn)備好的類目文件模板:https://unitweb.cdn.bcebos.com/圖譜知識庫快速上手類目文件模板.zip

第二步,在“我的數(shù)據(jù)”頁面上傳我們?yōu)槟鷾?zhǔn)備好的數(shù)據(jù)源文件:https://unitweb.cdn.bcebos.com/圖譜知識庫快速上手?jǐn)?shù)據(jù)源文件.zip

第三步,在“圖譜構(gòu)建”頁面點擊“開始構(gòu)建圖譜”,等待構(gòu)建完成。

接下來,您就可以預(yù)覽查看相關(guān)數(shù)據(jù),完成快速體驗。

【整合技能與知識】

在UNIT中,知識與技能整合的方式如下:

1) 提煉萃取行業(yè)知識:定義自己的圖譜知識結(jié)構(gòu),上傳知識源文檔,挖掘?qū)嶓w、屬性、屬性值;

2) 讓技能更好地理解:導(dǎo)出圖譜知識庫里的各種屬性值作為對話技能的詞槽詞典值;

3) 讓技能更聰明地對話:在對話技能中使用Taskflow配置(云端對話流程管理模塊,可實現(xiàn)復(fù)雜對話流程的管理 )查詢實體、屬性值,進行流程控制或作為答復(fù)內(nèi)容。

后續(xù)UNIT平臺會提供更多“技能+知識”的整合方案,也將幫助各位開發(fā)者持續(xù)探索并打造對話技術(shù)進入工業(yè)級落地的各項基礎(chǔ)條件。


很明確 
發(fā)表于 2021-4-9 09:48
每天在稅務(wù)的學(xué)習(xí)上前進一小步!
合作請留言或郵件咨詢

1479971814@qq.com

未經(jīng)授權(quán)禁止轉(zhuǎn)載,復(fù)制和建立鏡像,
如有違反,追究法律責(zé)任
  • Tax100公眾號
Copyright © 2026 Tax100 稅百 版權(quán)所有 All Rights Reserved. Powered by Discuz! X5.1 京ICP備19053597號-1, 電話18600416813, 郵箱1479971814@qq.com
關(guān)燈 在本版發(fā)帖
Tax100公眾號
返回頂部
快速回復(fù) 返回頂部 返回列表