廣韻字表
From Phonology
廣韻全字表(unicode 3.1 字符集)
Unicode 3.1版的廣韻字表。此表共收入cjk ideographs + cjk ideograph extension A/B 區中的漢字共計 20270箇。期中包含了廣韻的幾乎全部收字r1以及從集韻等韻書中蒐集到的廣韻未載的部分常用字,連同少許依諧聲聲符擬音的近代俗字。
- ↑ 共有十餘字,雖爲廣韻所載,卻因unicode3.1未收,且尚未找到形義均貼合的異體字來代替,姑且抱殘守缺,待來日補足。
廣韻全字表060526版說明
Contents |
緣由
《廣韻》,全稱《大宋重修廣韻》,乃是一部由陳彭年、丘雍等主持編纂的大型韻書。是書紹承隋陸法言《切韻》和唐孫愐《唐韻》的體制,規模齊楚、薪傳整備,不單是一部堪稱楷模的古代語詞工具書,更是研學漢語音韻不可或缺的繼往開來承前啟後的瑰瑋寶典。總之,該書意義之重大不是三言兩語就能說得周致的,況且如此論題也不是我這末學後進所當置喙的,但是爲了表達小可對先賢前輩的敬意,對這字表母本的緣由來歷還是不得不說上兩句。說到字書、韻書同計算機的結合—— 我看來一好似乾柴烈火始亂終棄——不對,始亂是情非得以了,終棄卻是萬萬不可!大家都知道computer這西洋舶來的奇技淫巧一直以來對中華文字十分抗拒,但是,那句話怎麼說來著——「造次必於斯、顚沛必於斯」,「有志者事竟成」——本字表雖然歷經了前跋後疐般痛苦的分娩過程,終於還是睜開眸子同大家照面了。本字表最初的骨架(小韻字頭)由Polyhedron構築,字頭所領同音字的GBK部分由Zgheng塡充,Unicode CJK Ext A/B部分由有女同車補足。沒想到這麼一個不起眼的小玩藝也要動用三箇臭皮匠的心智和願力纔能夠完成。「世上事有難易乎」——你不去做又怎能體味到期中的甘苦呢!
責權
本字表作為open software發佈,意思是說:使用是自由的,內容是公開的。您可以自由地對其進行複製、傳播、修改。但是小可亦稟承前兩位製作這的意志敦請諸位使用者切勿將其用於一切贏利目的。
體例
本字表的主文檔採用 MS Excel 97格式。每條記錄對應《廣韻》中的一箇小韻,從左至右的各字段依次是:
1,序號——反映此小韻在刻本《廣韻》中的實際位置。排號4000以後的小韻由小可參考《集韻》等韻書或完全出於一己私意徑行增補,其番號僅資區別,並無實質意義。
2,廣韻目次——《廣韻》原分五卷,分別是:平聲上、平聲下、上聲、去聲和入聲。每卷韻目皆屬以序號,該字段反映的就是原書的這些特徵。
3,聲母——分別為:幫、滂、並、明(兼非、敷、奉、微),端、透、定、泥,知、徹、澄、(娘),精、清、從、心、邪,章、昌、船、書、常(時),見、溪、羣、疑,影、以(餘:喻四)、云(喻三)、曉、匣。
4,等——說明略。
5,呼——古代韻圖對開合的劃分,各家出入迥異,我不清楚Poly君究竟依據的是哪一家的等韻說,兹具原文未作改動。對個別小韻於備注欄中提出了小可的意見。
6,韻部——舉平以賅上、去、入。
7,調——中古四聲,即沈約的平、上、去、入。
8,反切——據Poly言,該當是周祖謨《廣韻校本》中的反切。原書無切者,留白,我臆造的音也留白。
9,攝——十六攝。
10,字——小韻内的同音字。此欄内的符號說明如下:
- A)含!号的小韻筆者已將常用字提到左端,!後的單字是廣韻所用的小韻代表字,沒有!号的小韻代表字未做更動,亦即左起第一字。
- B)( )内是現行通用的字體。
- C)|後是集韻的內容。末字後標||的,意味著此小韻出自《集韻》。
- D)[]内是選自其他韻書、字書的增補字或《廣韻》所未見的古字今體、分別字、新字。
★注意,這些符號的用途是以前我作1萬字那箇版本時想出來的,這次update全字版的過程中我早已將其忘在腦後了,因此上此規則並未貫徹,好多原書並排的異體字也都被我括在了()内。
11,Polyhedron的中古漢語拼音v1.23
12,有女同車的羅馬字(也是最新版本,不過此獠作事向來馬虎,也不知他該安箇甚麼樣兒的版本號 )
13,備註——期中包括:
- A)對Zgheng字表的修正說明、意見、存疑
- B)number->number是小韻收字數的更改。
- C)「原作某某、从某某」之類是對《廣韻》原本錯字、Ms PMingLiU字體文檔錯誤字形或因Unicode 3.1 CJK字符集容量所限而不得不如此的,所改用的異體字(或者稱作異型^_^似乎更妥)的說明。★
- D)Unicode缺字說明。★
- E)雜七雜八的窮聊八卦。
★本表對漢字的結構描述大多使用 Unicode 的 IDS(Ideographic Description Characters),詳情見北大中文論壇·盛金标·「表意文字描述序列」一文(小生的回貼一定不要錯過唷!!呵呵,迷信Unicode積習難改了)。
14,推導拼音——普通話的,不知道如何,從來沒看過。;-)
15,小韻字數——别以為《廣韻》收字總數就是對這一欄求∑,呵呵,誰會這麼傻呢,好笑的是許多人寫書舉證時就是這麼幹的。
16,validation——我編字表的時候用到的,用來確認是否把相關小韻的同音字一網打盡了。還剩幾個false的,大夥都來幫忙吧。
17-22,shengOrder、toenkOrder、xuOrder、hiunnOrder、dewOrder、shapOrder——聲、等、呼、韻、調、攝的排序符號,依《方言調查字表》。要知道M$及其鷹犬所編的軟件都笨得要死,用來對漢字排序,除了按拼音就是按pinyin,它會把去聲安在平聲前,將開口挪到合口後,沒辦法還是得借助ANSI。 23,平水韻目——說明略。
附屬文檔,平txt版,字段以┊分隔,適合Linux、Mac的使用者和M$的堅決抵制者,可以很方便地轉換成database table或電子表格。
本字表採用Unicode3.1字符集,欲使所有字符得以顯示,請安裝Ms PMingLiU-ExtB字體文檔,它是目前唯一一個支持CJK ExtA/B全部漢字及和製、韓製漢字的font。要注意的是,該font中有相當多的碼位所對映的字形根本就是大錯特錯的。您如果對某字的字形存有疑慮,請參閱相關條目的備註,當然,條件允許的話最好還是參考印刷版的《廣韻》校本。
資料
飲水思源,應該交待一下製作本字表所用到的軟硬工具及參考書籍。我猜,大夥首先想到的是:你老兄到底是用甚麼東東來輸入ExtA/B漢字的呢,該不是Ms Word的特殊符號插入吧!呵呵,當然不是,我用的是阿勤的「第五代倉頡世紀版」 。那到不是因為倉頡輸入法好到如之何的地步,只是因為——據我所知,目前能支持7萬漢字大字符集的輸入法只有孫海峯的「海峯五筆」、阿勤的「世紀倉頡」和 SBSM的「夫子超集」(三者都是由富有Hacker精神個體戸獨立製作的freeware,這眞是對中文文字處理軟件商業集團的一個極大的嘲諷)。出於對童年的一些悲慘遭際的刻骨銘心,我對五筆字形及其對中國社會所造成的影響其情感可以用極端憎惡來形容,因此上雖然我對孫君的勤勉、毅力和奉獻精神十分敬佩,但五筆我是絕計不會用的。S君對其作品夫子碼一向保持低調,如斯風範某亦非常之欣賞,不過389箇字根,如此罕與匹敵的複雜度實在有點那個令人望而生畏則個,於是乎——扯淡,我之所以臨淵羡魚退而結网,茫不迭地選擇了倉頡,而且還是現炒現賣,九成是出於teenage似的逆反心理。如上這些都是廢話,我的目的在於提請諸位有志於古籍數字整理的朋友,花三、四十箇小時學一門形碼輸入法絕對是意義深遠的舉措。
下面鱸列小生所用到的幾款重要的軟件和文字處理的關鍵技術
- Babelpad
- Ms Access
- 易符 eForth IDS editor(由構字式生成相應字形,竝可轉換成對應的unicode編碼 and possibly)
- ConvertZ(各種CJK內碼轉換)
- 潘悟雲的廣韻查詢系統(雖然收字不夠完備,源代碼亦未公開,但對本字表的校覈還是頗多裨益的)
- SQL數據查詢語言
- IDS (見上文)
- 倉頡輸入法 (見上文)
- 四角號碼查字法
主要參考圖書及網絡資源
- 《廣韻》江蘇教育出版社(巾箱本)
- Zgheng GBK+描述式版字表、
- 《廣集韻譜》江蘇人民出版,顏森
- 《集韻》
- 《韻鏡校證》中華書局,李新魁
- 《說文解字注》上海古籍出版社,段玉裁
- 《康熙字典》影印版帶四角號碼檢字
PS:
如發現本字表的任何紕繆或對本表有任何疑問及建議歡迎請寫信到 blankego@163.com 或在主題貼下留言。竝歡迎同好者在此表的基礎上進一步地修補刊校。