圖1
圖2
圖3
圖4
圖5
【一線講述】
古文字,密碼主要指中國(guó)商代晚期至秦代使用的AI助力漢字。二十世紀(jì)30年代,破譯殷墟發(fā)掘出大量有字甲骨,古文證實(shí)了商王朝的密碼存在,重塑了世界對(duì)中國(guó)古代文明的AI助力評(píng)價(jià)。近年,破譯抄有《老子》《詩(shī)經(jīng)》等內(nèi)容的古文戰(zhàn)國(guó)竹書(shū)呈井噴式涌現(xiàn)??梢哉f(shuō),密碼古文字是AI助力解讀中華文明基因的關(guān)鍵。
古文字研究與科技發(fā)展密不可分。破譯紅外采集、古文高精度掃描等技術(shù)手段極大改善了資料條件,密碼索引、AI助力搜索引擎、破譯數(shù)據(jù)庫(kù),為古文字研究提供了巨大助力。如今,AI技術(shù)蓬勃發(fā)展,當(dāng)通過(guò)人工智能拼綴上第一片甲骨時(shí),實(shí)現(xiàn)的不僅是技術(shù)突破,更是中華文明根脈的賡續(xù)與新生。
簡(jiǎn)單來(lái)講,“破譯”古文字可分為兩步:一是識(shí)形,二是讀詞。即先認(rèn)出古文字形體是什么字,再判定其音義,弄明白它在文獻(xiàn)中的含義。如,先認(rèn)出甲骨中“[圖1]”是“王”,再讀懂刻辭與商王有關(guān)。人工智能輔助古文字研究,就是要模仿人類(lèi)專(zhuān)家的學(xué)習(xí)過(guò)程,進(jìn)行“記字形”和“讀古書(shū)”的訓(xùn)練。
目前對(duì)計(jì)算機(jī)而言,“認(rèn)字形”十分艱難。機(jī)器學(xué)習(xí)面臨著諸多挑戰(zhàn),包括圖像預(yù)處理結(jié)果不佳、標(biāo)注樣本稀缺、字形實(shí)情極其復(fù)雜等。其中,“數(shù)據(jù)困境”是顯性瓶頸,古文字單字量低,有效樣本密度低,機(jī)器學(xué)習(xí)樣本不足。最近,我所在的課題組參與開(kāi)發(fā)了“古文字線上書(shū)寫(xiě)系統(tǒng)”,旨在收集專(zhuān)家書(shū)寫(xiě)古文字的動(dòng)態(tài)路徑,將古文字字形轉(zhuǎn)換成有順序、有方向的矢量線段,為訓(xùn)練計(jì)算機(jī)識(shí)讀字形提供學(xué)習(xí)參考。
此前計(jì)算機(jī)識(shí)圖多從像素角度入手,受圖像質(zhì)量、樣本量、字形復(fù)雜性等影響,特征提取困難,識(shí)別率低。為了破題,我們課題組轉(zhuǎn)換了思路——并非讓模型分析靜態(tài)字形,而是通過(guò)動(dòng)態(tài)路徑數(shù)據(jù),捕捉專(zhuān)家的書(shū)寫(xiě)順序和對(duì)字形結(jié)構(gòu)的理解,幫助模型像人一樣“思考”如何書(shū)寫(xiě)古文字。我們希望通過(guò)提取人類(lèi)書(shū)寫(xiě)古文字的動(dòng)態(tài)特征,將人的經(jīng)驗(yàn)轉(zhuǎn)換成可訓(xùn)練的數(shù)據(jù)規(guī)則,從而彌補(bǔ)傳統(tǒng)方法在異體字處理上的缺陷,解決數(shù)據(jù)量不足等問(wèn)題。
目前,我們的研究已進(jìn)入初步試驗(yàn)階段,錄入了12825條字形書(shū)寫(xiě)數(shù)據(jù)進(jìn)行前期測(cè)驗(yàn)。眼下正在搭建機(jī)器學(xué)習(xí)的模型,相關(guān)代碼達(dá)到萬(wàn)余行,計(jì)算機(jī)累計(jì)運(yùn)行時(shí)間超過(guò)400小時(shí),模型迭代3個(gè)版本。從生成結(jié)果看已初見(jiàn)成效,計(jì)算機(jī)能成功模仿人類(lèi)書(shū)寫(xiě)的筆勢(shì)、筆順和大致輪廓,但在部件書(shū)寫(xiě)的準(zhǔn)確性、筆畫(huà)組合和構(gòu)件位置關(guān)系上,仍有很大的進(jìn)步空間。
例如甲骨文中“千”字有一類(lèi)形體作“[圖2]”形,是在側(cè)視站立人形“[圖3]”的基礎(chǔ)上,在其腿部加一橫筆分化而來(lái),其書(shū)寫(xiě)順序一般是先寫(xiě)出側(cè)視身體軀干和手臂,再寫(xiě)后加的一橫筆:
[圖4]
目前訓(xùn)練得到的機(jī)器書(shū)寫(xiě)路徑是:
[圖5]
可以看出,計(jì)算機(jī)已能再現(xiàn)字形輪廓和筆順,但對(duì)第二筆的起始位置把握欠佳:第二筆不應(yīng)與第一筆交叉穿出;二、三筆雖順序相接,但筆跡并不相連,即第二筆的終點(diǎn)并非第三筆的起點(diǎn)。
為修正結(jié)果,我們將在現(xiàn)有試驗(yàn)的基礎(chǔ)上,對(duì)機(jī)器學(xué)習(xí)方法和算法結(jié)構(gòu)進(jìn)行調(diào)試和整改。這項(xiàng)工作可能十分漫長(zhǎng),但也蘊(yùn)含著無(wú)限潛力。
(作者:聶菲,系南京大學(xué)文學(xué)院助理研究員)