[點(diǎn)晴永久免費(fèi)OA]中文分詞研究入門
導(dǎo)讀 本文首先簡單介紹了自然語言處理和科研過程中重要的四部曲——調(diào)研、思考、編程和寫作,然后對(duì)中文分詞問題進(jìn)行了說明,介紹了中文分詞存在的難點(diǎn)如消歧、顆粒度問題、分詞標(biāo)準(zhǔn)等。接著,本文總結(jié)了調(diào)研文獻(xiàn)中的分詞方法,包括基于詞典的最大匹配法以及其相應(yīng)的改進(jìn)方法、基于字標(biāo)注的分詞方法等,同時(shí)也介紹了當(dāng)前中文分詞的研究進(jìn)展和方向,如統(tǒng)計(jì)與詞典相結(jié)合、基于深度學(xué)習(xí)的分詞方法等。而后,本文具體介紹了如何基于詞典的雙向最大匹配法以及基于字標(biāo)注的平均感知機(jī)進(jìn)行分詞的實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析并給出了幾種改進(jìn)模型的思路。最后,本文給出了相應(yīng)的參考文獻(xiàn)以及其他資料。
1. 導(dǎo)論 1.1 自然語言處理簡介自然語言處理(NLP, Natural Language Processing)是用機(jī)器處理人類語言(有別于人工語言,如程序設(shè)計(jì)語言)的理論和技術(shù)。自然語言處理是人工智能的一個(gè)重要分支,屬于計(jì)算機(jī)應(yīng)用技術(shù)(有別于計(jì)算機(jī)技術(shù))。計(jì)算機(jī)應(yīng)用技術(shù)作為二級(jí)學(xué)科所屬于一級(jí)學(xué)科計(jì)算機(jī)科學(xué)技術(shù)。自然語言處理又可以稱作自然語言理解或計(jì)算語言學(xué)。 自然語言處理是一個(gè)貼近應(yīng)用的研究方向。NLP大致可分為基礎(chǔ)研究和應(yīng)用技術(shù)研究?;A(chǔ)研究包括詞法分析、句法分析、語義分析和篇章理解等;應(yīng)用技術(shù)研究包括文本挖掘、自動(dòng)問答、信息檢索、信息抽取、機(jī)器翻譯等。 1.2 科學(xué)研究方法研究活動(dòng)的大致流程可以遵循如下四個(gè)階段[1]:
第一階段閱讀大約占整個(gè)過程的30%。收集并閱讀資料是研究過程的第一步?,F(xiàn)在的資料浩如煙海,如何收集到有價(jià)值的資料極為重要。研究的資料主要是論文,我們應(yīng)該閱讀重要的論文,而重要的論文往往具有以下一種或多種特征:
如何閱讀一篇論文?閱讀論文時(shí)應(yīng)注意以下幾點(diǎn):
第二階段思考大約占整個(gè)過程的20%。"學(xué)而不思則罔",在閱讀過程中以及閱讀后應(yīng)該積極思考。 第三階段編程大約占整個(gè)過程的20%。第一步是收集數(shù)據(jù),數(shù)據(jù)可以是標(biāo)準(zhǔn)的評(píng)測(cè)數(shù)據(jù),也可以是自己采集的真實(shí)數(shù)據(jù)。第二步是編寫程序,實(shí)現(xiàn)算法。第三步是分析結(jié)果。 第四階段寫作大約占整個(gè)過程的30%。寫作是科學(xué)研究的一個(gè)重要過程。論文是研究成果的體現(xiàn),將自己的研究成果很好的展示給學(xué)術(shù)界,才能體現(xiàn)出研究的價(jià)值。 上述四個(gè)階段不是瀑布式而是螺旋式,是對(duì)研究的方向不斷深入的過程。 1.3 中文分詞問題介紹中文信息處理是指自然語言處理的分支,是指用計(jì)算機(jī)對(duì)中文進(jìn)行處理。和大部分西方語言不同,書面漢語的詞語之間沒有明顯的空格標(biāo)記,句子是以字串的形式出現(xiàn)。因此對(duì)中文進(jìn)行處理的第一步就是進(jìn)行自動(dòng)分詞,即將字串轉(zhuǎn)變成詞串。 自動(dòng)分詞的重要前提是以什么標(biāo)準(zhǔn)作為詞的分界。詞是最小的能夠獨(dú)立運(yùn)用的語言單位。詞的定義非常抽象且不可計(jì)算。給定某文本,按照不同的標(biāo)準(zhǔn)的分詞結(jié)果往往不同。詞的標(biāo)準(zhǔn)成為分詞問題一個(gè)很大的難點(diǎn),沒有一種標(biāo)準(zhǔn)是被公認(rèn)的。但是,換個(gè)思路思考,若在同一標(biāo)準(zhǔn)下,分詞便具有了可比較性。因此,只要保證了每個(gè)語料庫內(nèi)部的分詞標(biāo)準(zhǔn)是一致的,基于該語料庫的分詞技術(shù)便可一較高下[3]。 分詞的難點(diǎn)在于消除歧義,分詞歧義主要包括如下幾個(gè)方面:
除了上述歧義,有些歧義無法在句子內(nèi)部解決,需要結(jié)合篇章上下文。例如,"乒乓球拍賣完了",可以切分為"乒乓/球拍/賣/完/了",也可以切分成"乒乓球/拍賣/完/了"。這類分詞歧義使得分詞問題更加復(fù)雜。 詞的顆粒度選擇問題是分詞的一個(gè)難題。研究者們往往把"結(jié)合緊密、使用穩(wěn)定"視為分詞單位的界定準(zhǔn)則,然而人們對(duì)于這種準(zhǔn)則理解的主觀性差別較大,受到個(gè)人的知識(shí)結(jié)構(gòu)和所處環(huán)境的很大影響[3]。選擇什么樣的詞的顆粒度與要實(shí)現(xiàn)具體系統(tǒng)緊密相關(guān)。例如在機(jī)器翻譯中,通常顆粒度大翻譯效果好。比如"聯(lián)想公司"作為一個(gè)整體時(shí),很容易找到它對(duì)應(yīng)的英文翻譯Lenovo,如果分詞時(shí)將其分開,可能翻譯失敗。然而,在網(wǎng)頁搜索中,小的顆粒度比大的顆粒度好。比如"清華大學(xué)"如果作為一個(gè)詞,當(dāng)用戶搜索"清華"時(shí),很可能就找不到清華大學(xué)。[10] 2. 中文分詞文獻(xiàn)調(diào)研 2.1 最大匹配法梁南元在1983年發(fā)表的論文《書面漢語的自動(dòng)分詞與另一個(gè)自動(dòng)分詞系統(tǒng)CDWS》提到,蘇聯(lián)學(xué)者1960年左右研究漢俄機(jī)器翻譯時(shí)提出的 6-5-4-3-2-1 分詞方法。其基本思想是先建立一個(gè)最長詞條字?jǐn)?shù)為6的詞典, 然后取句子前6個(gè)字查詞典,如查不到, 則去掉最后一個(gè)字繼續(xù)查, 一直到找著一個(gè)詞為止。梁南元稱該方法為最大匹配法——MM方法(The Maximum Matching Method)。由MM方法自然引申,有逆向的最大匹配法。它的分詞思想同MM方法,不過是從句子(或文章)末尾開始處理的,每次匹配不成詞時(shí)去掉最前面的字。雙向最大匹配法即為MM分詞方法與逆向MM分詞方法的結(jié)合。梁南元等人首次將MM方法應(yīng)用于中文分詞任務(wù),實(shí)現(xiàn)了我國第一個(gè)自動(dòng)漢語自動(dòng)分詞系統(tǒng)CDWS。[2] 2.2 復(fù)雜最大匹配法復(fù)雜最大匹配算法, 由Chen 和Liu在《Word identification for Mandarin Chinese sentences》提出[4]。該文提出了三詞語塊(three word chunks)的概念。三詞語塊生成規(guī)則是: 在對(duì)句子中的某個(gè)詞進(jìn)行切分時(shí),如果有歧義拿不定主意,就再向后展望兩個(gè)漢語詞,并且找出所有可能的三詞語塊。在所有可能的三詞語塊中根據(jù)如下四條規(guī)則選出最終分詞結(jié)果。 規(guī)則1: 最大匹配 (Maximum matching) 其核心的假設(shè)是:最可能的分詞方案是使得三詞語塊(three-word chunk)最長。 規(guī)則2: 最大平均詞長(Largest average word length) 在句子的末尾,很可能得到的"三詞語塊"只有一個(gè)或兩個(gè)詞(其他位置補(bǔ)空),這時(shí)規(guī)則1就無法解決其歧義消解問題,因此引入規(guī)則2:最大平均詞長,也就是從這些語塊中找出平均詞長最大的語塊,并選取其第一詞語作為正確的詞語切分形式。這個(gè)規(guī)則的前提假設(shè)是:在句子中遇到多字詞語的情況比單字詞語更有可能。 規(guī)則3:最小詞長方差(Smallest variance of word lengths) 還有一些歧義是規(guī)則1和規(guī)則2無法解決的。因此引入規(guī)則3:最小詞長方差,也就是找出詞長方差最小的語塊,并選取其第一個(gè)詞語作為正確的詞語切分形式。在概率論和統(tǒng)計(jì)學(xué)中,一個(gè)隨機(jī)變量的方差描述的是它的離散程度。因此該規(guī)則的前提假設(shè)是:句子中的詞語長度經(jīng)常是均勻分布的。 規(guī)則4:最大單字詞語語素自由度之和(Largest sum of degree of morphemic freedom of one-character words) 有可能兩個(gè)"三詞語塊"擁有同樣的長度、平均詞長及方差,因此上述三個(gè)規(guī)則都無法解決其歧義消解問題。規(guī)則4主要關(guān)注其中的單字詞語。直觀來看,有些漢字很少作為詞語出現(xiàn),而另一些漢字則常常作為詞語出現(xiàn),從統(tǒng)計(jì)角度來看,在語料庫中出現(xiàn)頻率高的漢字就很可能是一個(gè)單字詞語,反之可能性就小。計(jì)算單詞詞語語素自由度之和的公式是對(duì)"三詞語塊"中的單字詞語頻率取對(duì)數(shù)并求和。規(guī)則4則選取其中和最大的三詞語塊作為最佳的詞語切分形式。 最大匹配算法以及其改進(jìn)方案是基于詞典和規(guī)則的。其優(yōu)點(diǎn)是實(shí)現(xiàn)簡單,算法運(yùn)行速度快,缺點(diǎn)是嚴(yán)重依賴詞典,無法很好的處理分詞歧義和未登錄詞。因此,如何設(shè)計(jì)專門的未登錄詞識(shí)別模塊是該方法需要考慮的問題。 2.3 基于字標(biāo)注的分詞法2002年,Xue等人在《Combining Classifiers for Chinese Word Segmentation》一文中首次提出對(duì)每個(gè)字進(jìn)行標(biāo)注,通過監(jiān)督機(jī)器學(xué)習(xí)算法訓(xùn)練出分類器從而進(jìn)行分詞[5]。一年后,Xue在最大熵(ME, Maximum Entropy)模型上實(shí)現(xiàn)的基于字標(biāo)注的分詞系統(tǒng)參加了Bakeoff-2003的評(píng)測(cè)獲得很好的成績引起關(guān)注。而后,Xue在《Chinese word segmentation as character tagging》一文中較為詳細(xì)的闡述了基于字標(biāo)注的分詞法[6]。 基于字標(biāo)注的分詞法基本思想是根據(jù)字所在詞的位置,對(duì)每個(gè)字打上LL、RR、MM和LR四種標(biāo)簽中的一個(gè)。四種標(biāo)簽的具體含義如下: 類似于詞性標(biāo)注中的POS(part-of-speech) tags,我們稱上述字標(biāo)簽為POC(position-of-character) tags。這樣,我們將分詞問題轉(zhuǎn)變成對(duì)漢字進(jìn)行序列標(biāo)注的問題。例如: POC tags反映了的一個(gè)事實(shí)是,分詞歧義問題是由于一個(gè)漢字可以處于一個(gè)詞的不同位置,而漢字的位置取決于字的上下文。 字標(biāo)注本質(zhì)上是訓(xùn)練出一個(gè)字的分類器。模型框架如圖1所示。 圖1 字標(biāo)注訓(xùn)練模型框架 設(shè)計(jì)字特征的關(guān)鍵是包含足夠的上下文關(guān)系。黃昌寧等人在《中文分詞十年回顧》中提到,在[3]中所有語料庫99%以上的詞都是5字或5字以下的詞。因此,使用寬度為5個(gè)字的上下文窗口足以覆蓋真實(shí)文本中絕大多數(shù)的構(gòu)詞情形。進(jìn)一步,該文提到了一個(gè)確定有效詞位標(biāo)注集的定量標(biāo)準(zhǔn)——平均加權(quán)詞長。其定義為: 是i≥k時(shí)的平均加權(quán)詞長,是語料中詞長為k的詞次數(shù),K是語料中出現(xiàn)過的最大詞長,N是語料庫的總詞次數(shù)。如果k=1,那么代表整個(gè)語料的平均詞長。 經(jīng)統(tǒng)計(jì),Bakeoff-2003和Bakeoff-2005所有語料庫的平均加權(quán)詞長在1.51~1.71之間。因此,5字長的上下文窗口恰好大致表達(dá)了前后各一個(gè)詞的上下文。 Xue在[6]文給出了如下的特征模板。 學(xué)習(xí)算法是指監(jiān)督機(jī)器學(xué)習(xí)算法,常用的有最大熵算法、條件隨機(jī)場(chǎng)(CRF, Conditional Random Fields)、支持向量機(jī)(SVM, Support Vector Machine)、平均感知機(jī)(AP, Averaged Perceptron)等。 基于字標(biāo)注的分詞方法是基于統(tǒng)計(jì)的。其主要的優(yōu)勢(shì)在于能夠平衡地看待詞表詞和未登錄詞的識(shí)別問題。其缺點(diǎn)是學(xué)習(xí)算法的復(fù)雜度往往較高,計(jì)算代價(jià)較大,好在現(xiàn)在的計(jì)算機(jī)的計(jì)算能力相較于以前有很大提升;同時(shí),該方法依賴訓(xùn)練語料庫,領(lǐng)域自適應(yīng)較差?;谧謽?biāo)注的分詞方法是目前的主流分詞方法。 2.4中文分詞研究進(jìn)展2.4.1 統(tǒng)計(jì)與字典相結(jié)合張梅山等人在《統(tǒng)計(jì)與字典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞》提出通過在統(tǒng)計(jì)中文分詞模型中融入詞典相關(guān)特征的方法,使得統(tǒng)計(jì)中文分詞模型和詞典有機(jī)結(jié)合起來。一方面可以進(jìn)一步提高中文分詞的準(zhǔn)確率,另一方面大大改善了中文分詞的領(lǐng)域自適應(yīng)性。[7] 圖2 領(lǐng)域自適應(yīng)性分詞系統(tǒng)框架圖 2.4.2基于深度學(xué)習(xí)的分詞方法近幾年,深度學(xué)習(xí)方法為分詞技術(shù)帶來了新的思路,直接以最基本的向量化原子特征作為輸入,經(jīng)過多層非線性變換,輸出層就可以很好的預(yù)測(cè)當(dāng)前字的標(biāo)記或下一個(gè)動(dòng)作。在深度學(xué)習(xí)的框架下,仍然可以采用基于子序列標(biāo)注的方式,或基于轉(zhuǎn)移的方式,以及半馬爾科夫條件隨機(jī)場(chǎng)。[11]深度學(xué)習(xí)主要有兩點(diǎn)優(yōu)勢(shì):
《Neural Architectures for Named Entity Recognition》一文中提出了一種深度學(xué)習(xí)框架,如圖3,利用該框架可以進(jìn)行中文分詞。具體地,首先對(duì)語料的字進(jìn)行嵌入,得到字嵌入后,將字嵌入特征輸入給雙向LSTM,輸出層輸出深度學(xué)習(xí)所學(xué)習(xí)到的特征,并輸入給CRF層,得到最終模型。[9] 圖3 一個(gè)深度學(xué)習(xí)框架 3. 中文分詞方法實(shí)踐 3.1 基本思路我們首先利用正則表達(dá)式提取URL、英文一類特殊詞,對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理。而后分別實(shí)現(xiàn)雙向最大匹配法和基于字標(biāo)注的平均感知機(jī)分詞兩個(gè)分詞模塊并一起集成到分詞系統(tǒng)。在使用平均感知機(jī)進(jìn)行分詞訓(xùn)練時(shí)嘗試增加訓(xùn)練數(shù)據(jù)集,如使用Bakeoff-2005的PKU訓(xùn)練數(shù)據(jù)集和雙向最大匹配法的分詞結(jié)果進(jìn)行增量訓(xùn)練。 3.2 雙向最大匹配法雙向最大匹配法即對(duì)句子分別用正向最大匹配和逆向最大匹配進(jìn)行分詞,然后根據(jù)一定的規(guī)則選擇某一分詞結(jié)果。我們?cè)趯?shí)現(xiàn)是所制定的規(guī)則為:
3.3 基于字標(biāo)注的平均感知機(jī)分詞方法3.3.1 特征設(shè)計(jì)我們選擇5個(gè)字為上下文窗口大小,即: 該上下文窗口包含如下7個(gè)特征: 由于感知機(jī)的基本形式是二分類的,而字標(biāo)注為四分類(多分類)。為了基于感知機(jī)實(shí)現(xiàn)多分類,將每個(gè)字的某一特征權(quán)重設(shè)計(jì)為長度為4的向量,向量的每個(gè)分量對(duì)于某一分類的權(quán)值,如圖4所示。 圖4 字的特征設(shè)計(jì) 3.3.2 算法設(shè)計(jì)對(duì)于預(yù)測(cè)算法而言,如果是簡單的序列標(biāo)注問題,那么取得分最高的標(biāo)簽即可,但是在中文分詞問題中,當(dāng)前字的標(biāo)簽與前一個(gè)字的標(biāo)簽密切相關(guān),例如若前一個(gè)字標(biāo)簽為S(單字成詞),則當(dāng)前字的標(biāo)簽只可能為S或B(詞首),為了利用上述信息,我們引入狀態(tài)轉(zhuǎn)移和Viterbi算法。預(yù)測(cè)算法的偽代碼如圖5所示。 圖5 預(yù)測(cè)算法偽代碼 在使用隨機(jī)梯度下降法的訓(xùn)練過程中,我們采取平均化參數(shù)方法防止某一訓(xùn)練數(shù)據(jù)對(duì)結(jié)果影響較大。訓(xùn)練算法的偽代碼如圖6所示。 圖6 訓(xùn)練算法偽代碼 3.3.3 增量訓(xùn)練在增量訓(xùn)練中,首先使用初始訓(xùn)練語料訓(xùn)練一個(gè)初始模型,然后結(jié)合初始模型以及增量語料進(jìn)行增量訓(xùn)練得到一個(gè)增量模型。增量訓(xùn)練可以提高分詞系統(tǒng)的領(lǐng)域適應(yīng)性,進(jìn)一步提高切分中文分詞準(zhǔn)確率, 同時(shí)避免了對(duì)初始語料的需求以及使用全部語料訓(xùn)練模型所需要的時(shí)間。[8]模型增量訓(xùn)練流程圖如圖7所示: 圖7 模型增量訓(xùn)練流程圖 3.4 實(shí)驗(yàn)結(jié)果及分析表1給出了不同模型下測(cè)試數(shù)據(jù)1(130KB)的評(píng)測(cè)結(jié)果。該測(cè)試數(shù)據(jù)為新聞文本。從表1中可以看出,雙向最大匹配的分詞結(jié)果還算不錯(cuò),并且算法效率高。平均感知機(jī)模型在使用Bakeoff2005的PKU訓(xùn)練集進(jìn)行增量訓(xùn)練后效果提升顯著,同時(shí)需要花費(fèi)額外的訓(xùn)練時(shí)間。最后我們希望結(jié)合統(tǒng)計(jì)與詞典的優(yōu)點(diǎn),嘗試使用最大雙向匹配分詞結(jié)果集進(jìn)行增量訓(xùn)練,分詞結(jié)果有少量提升但并不明顯。 表2給出了不同模型下測(cè)試數(shù)據(jù)2(31KB)的評(píng)測(cè)結(jié)果。該測(cè)試數(shù)據(jù)為微博文本。從表2中可以看出,測(cè)試數(shù)據(jù)2的分詞結(jié)果比測(cè)試數(shù)據(jù)1的分詞結(jié)果差。并且,值得注意的是,基于平均感知機(jī)使用原始訓(xùn)練集訓(xùn)練出的模型分詞效果不太理想,而在增量訓(xùn)練后效果提升非常顯著。這是微博文本相較于新聞文本更加不規(guī)范,新詞(如網(wǎng)絡(luò)詞)更多等原因造成的??梢酝茰y(cè),若使用分詞標(biāo)準(zhǔn)一致的微博訓(xùn)練集進(jìn)行增量訓(xùn)練,將進(jìn)一步提高測(cè)試數(shù)據(jù)2的分詞結(jié)果。 表1 不同模型下測(cè)試數(shù)據(jù)1的評(píng)測(cè)結(jié)果
表2 不同模型下測(cè)試數(shù)據(jù)2的評(píng)測(cè)結(jié)果
3.5 模型改進(jìn)思路基于字標(biāo)注的平均感知機(jī)分詞模型的分詞結(jié)果已經(jīng)達(dá)到不錯(cuò)的精度,但是在模型性能和模型分詞精度上仍有提升的空間。 為了提高模型性能,有如下幾種思路[8]:
為了提高模型的分詞精度,有如下幾種思路:
4. 參考文獻(xiàn) [1] 劉挺, 怎樣做研究, 新浪博客http://blog.sina.com.cn/s/articlelist_1287570921_1_1.html,2007 [2] 梁南元, 書面漢語的自動(dòng)分詞與另一個(gè)自動(dòng)分詞系統(tǒng)CDWS, 中國漢字信息處理系統(tǒng)學(xué)術(shù)會(huì)議, 桂林, 1983 [3] 黃昌寧,趙海. 中文分詞十年回顧. 中文信息學(xué)報(bào). 2007 [4] Chen, K. J. and Liu S.H. Word identification for Mandarin Chinese sentences. Proceedings of the 14th International Conference on Computational Linguistics. 1992. [5] Nianwen Xue and Susan P. Converse. Combining Classifiers for Chinese Word Segmentation, First SIGHAN Workshop attached with the 19th COLING, Taipei, 2002 [6] Nianwen Xue. Chinese word segmentation as character tagging. Computational Linguistics and Chinese Language Processing. 2003 [7] 張梅山. 鄧知龍. 統(tǒng)計(jì)與字典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞. 中文信息學(xué)報(bào). 2012 [8] 鄧知龍,基于感知器算法的高效中文分詞與詞性標(biāo)注系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),哈爾濱工業(yè)大學(xué),2013 [9] Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, and Chris Dyer. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360. 2016 [10] 吳軍. 數(shù)學(xué)之美(第二版).人民郵電出版社. 2014 [11] 李正華等,中文信息處理發(fā)展報(bào)告(2016). 中國中文信息學(xué)會(huì). 2016
5. 其他資料 另附常見分詞系統(tǒng)評(píng)測(cè)結(jié)果如下(圖片來源見水?。?/span> 該文章在 2020/3/7 15:12:46 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |