網(wǎng)站首頁黨網(wǎng)·時(shí)政經(jīng)濟(jì)·科技社會(huì)·法治文旅·體育健康·生活觀點(diǎn)訪談國際軍事港澳臺(tái)灣視頻圖片教育房產(chǎn)

登錄注冊(cè)

登錄人民網(wǎng)通行證立即注冊(cè)

人民網(wǎng)>>黑龍江頻道>>龍江科普

AI不會(huì)斷句？中文分詞新模型幫它進(jìn)步

2020年07月23日10:58 來源：科技日?qǐng)?bào)

原標(biāo)題：AI不會(huì)斷句？中文分詞新模型幫它進(jìn)步

　　參觀者在上海舉行的2019世界人工智能大會(huì)上與一個(gè)智能機(jī)器人進(jìn)行交流。新華社記者方喆攝

　　人工智能經(jīng)常“看不懂”中文句子，讓人哭笑不得。在日前舉行的自然語言處理領(lǐng)域（NLP）頂級(jí)學(xué)術(shù)會(huì)議ACL 2020上，來自創(chuàng)新工場大灣區(qū)人工智能研究院的兩篇論文入選。這兩篇論文均聚焦自然語言處理中文分詞領(lǐng)域。

　　據(jù)研究人員介紹，分詞及詞性標(biāo)注是中文自然語言處理的基本任務(wù)，但當(dāng)前沒有比較好的一體化解決方案，而且中文分詞普遍存在歧義和未登錄詞的難題。

　　基于此，兩篇論文各自提出了鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型和基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型，將外部知識(shí)（信息）融入分詞及詞性標(biāo)注模型，剔除了分詞“噪音”誤導(dǎo)，提升了分詞及詞性標(biāo)注效果。

　　中文分詞主要面臨歧義和未登錄詞兩大難點(diǎn)

　　據(jù)介紹，中文分詞的目的是在中文的字序列中插入分隔符，將其切分為詞。例如，“我喜歡音樂”將被切分為“我/喜歡/音樂”。

　　創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥分析，中文語言因其特殊性，在分詞時(shí)面臨著兩個(gè)普遍的主要難點(diǎn)。

　　一是歧義問題，由于中文存在大量歧義，一般的分詞工具在切分句子時(shí)可能會(huì)出錯(cuò)。例如，“部分居民生活水平”，其正確的切分應(yīng)為“部分/居民/生活/水平”，但存在“分居”“民生”等歧義詞。

　　二是未登錄詞問題。未登錄詞指的是不在詞表，或者是模型在訓(xùn)練的過程中沒有遇見過的詞。這類問題在跨領(lǐng)域分詞任務(wù)中尤其明顯。宋彥介紹，這些未登錄詞，會(huì)非常影響分詞和詞性標(biāo)注模型和系統(tǒng)的性能。

　　利用記憶神經(jīng)網(wǎng)絡(luò)提升中文分詞性能

　　對(duì)此，其中一篇論文提出了基于鍵-值記憶神經(jīng)網(wǎng)絡(luò)的中文分詞模型。

　　宋彥介紹，該模型利用n元組（即一個(gè)由連續(xù)n個(gè)字組成的序列，比如“居民”是一個(gè)2元組，“生活水平”是一個(gè)4元組）提供的每個(gè)字的構(gòu)詞能力，通過加（降）權(quán)重實(shí)現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表，實(shí)現(xiàn)對(duì)特定領(lǐng)域的未標(biāo)注文本的利用，進(jìn)而提升對(duì)未登錄詞的識(shí)別。

　　把可能成詞的組合全部找到以后，加入到該分詞模型中。然后通過神經(jīng)網(wǎng)絡(luò)，學(xué)習(xí)哪些詞對(duì)于最后完整表達(dá)句意的幫助更大，進(jìn)而分配不同的權(quán)重。例如，在“部分居民生活水平”這句話中，“部分”“居民”“生活”“水平”這些詞會(huì)被突出，而“分居”“民生”會(huì)被降權(quán)處理，從而預(yù)測(cè)出正確的結(jié)果。

　　據(jù)介紹，為了檢驗(yàn)該模型的分詞效果，論文進(jìn)行了嚴(yán)格的標(biāo)準(zhǔn)實(shí)驗(yàn)和跨領(lǐng)域?qū)嶒?yàn)�！拔覀�?cè)?個(gè)經(jīng)常使用的標(biāo)準(zhǔn)中文分詞數(shù)據(jù)集（MSR、PKU、AS、CityU、CTB6）上面，都達(dá)到了最好的效果，在這五個(gè)數(shù)據(jù)集上的分?jǐn)?shù)都刷到了歷史新高�！� 宋彥說。

　　雙通道注意力機(jī)制剔除“噪音”誤導(dǎo)

　　第二篇論文則提出了一種基于雙通道注意力機(jī)制的分詞及詞性標(biāo)注模型。

　　據(jù)介紹，中文分詞和詞性標(biāo)注是兩個(gè)不同的任務(wù)。詞性標(biāo)注是在已經(jīng)切分好的文本中，給每一個(gè)詞標(biāo)注其所屬的詞類，例如動(dòng)詞、名詞、代詞、形容詞。詞性標(biāo)注對(duì)后續(xù)的句子理解有重要的作用。

　　“‘他馬上功夫很好’這句話，在使用外部的句法知識(shí)的時(shí)候，可能會(huì)存在‘馬上’這個(gè)詞被分錯(cuò)的情況。正確的結(jié)果應(yīng)該是‘馬’和‘上’分開，但是這兒如果被分成一個(gè)詞，就會(huì)被識(shí)別為一個(gè)副詞。” 宋彥舉例說。

　　研究人員介紹，針對(duì)這一問題，該論文提出的模型將中文分詞和詞性標(biāo)注視作聯(lián)合任務(wù)，可一體化完成。模型分別對(duì)自動(dòng)獲取的上下文特征和句法知識(shí)加權(quán)，預(yù)測(cè)每個(gè)字的分詞和詞性標(biāo)簽，不同的上下文特征和句法知識(shí)在各自所屬的注意力通道內(nèi)進(jìn)行比較、加權(quán)，從而識(shí)別特定語境下不同上下文特征和句法知識(shí)的貢獻(xiàn)。

　　為了測(cè)試該模型的性能，論文在一般領(lǐng)域和跨領(lǐng)域分別進(jìn)行了實(shí)驗(yàn)。宋彥介紹，一般領(lǐng)域?qū)嶒?yàn)結(jié)果顯示，該模型在5個(gè)數(shù)據(jù)集（CTB5，CTB6，CTB7，CTB9，Universal Dependencies）的表現(xiàn)（F值）均超過前人的工作。（記者劉園園）

(責(zé)編：王艷、李忠雙)

人民日?qǐng)?bào)

人民網(wǎng)+

手機(jī)人民網(wǎng)

領(lǐng)導(dǎo)留言板

推薦閱讀

因地制宜分類施策黑龍江省黑土地保護(hù)疊加效應(yīng)凸顯　　黑土耕地在一定時(shí)期內(nèi)存在著肥力透支，“變薄、變瘦、變硬”的問題。為了給黑土地“增肥”，黑龍江省從2015年開始承擔(dān)國家的黑土地保護(hù)利用項(xiàng)目。項(xiàng)目實(shí)施過程中，采用了有機(jī)物料還田、深耕深松、測(cè)土配方施肥、增施緩控釋肥料、生物肥料等方式方法進(jìn)行保護(hù)利用黑土地�！�【詳細(xì)】

省內(nèi)要聞

黑龍江省防汛應(yīng)急響應(yīng)提升至Ⅲ級(jí)　　依據(jù)《黑龍江省防汛應(yīng)急預(yù)案》有關(guān)規(guī)定，省防指決定于2021年6月21日10時(shí)，將防汛Ⅳ級(jí)應(yīng)急響應(yīng)提升至Ⅲ級(jí)應(yīng)急響應(yīng)，要求各相關(guān)市縣政府和省防指成員單位按照預(yù)案規(guī)定做好相關(guān)工作�！�【詳細(xì)】

人民網(wǎng)專稿

精彩圖集

本網(wǎng)專稿

人民電視

熱點(diǎn)排行

人民網(wǎng) 版權(quán) 所有，未經(jīng) 書面授權(quán) 禁止使用
Copyright © 1997-2021 by www.people.com.cn. all rights reserved

乌苏市| 晋中市| 太原市| 孙吴县| 竹山县| 洪雅县| 潜江市| 罗城| 讷河市| 黄陵县| 武安市| 同江市| 甘肃省| 兴安盟| 岫岩| 阿鲁科尔沁旗| 乌鲁木齐县| 鄯善县| 南宁市| 白山市| 老河口市| 邯郸市| 漳平市| 余干县| 海伦市| 大埔区| 临朐县| 汾西县| 沙洋县| 南投县| 当阳市| 大埔县| 玛多县| 淳化县| 长春市| 平远县| 谷城县| 台南县| 上虞市| 阿尔山市|