文言文白话文互转:文言文转白话文(现代文),白话文(现代文)转文言文
前几天,看到了东北大学小牛翻译团队开源的语料项目:文言文(古文)-现代文平行语料(https://github.com/NiuTrans/Classical-Modern) ,这个项目整理了非常全的文言文(古文)- 现代文(白话文)对齐数据,基本涵盖了大部分经典古籍著作,并且对原始爬取的篇章级对齐数据进行了断句及人工校对,形成了共计约96万句对的文言文-白话文对齐(平行)语料。
这份语料数据很珍贵,看到的第一眼想到就是用这份文言文现代文对齐语料训练一个文言文白话文转换器:文言文转白话文,文言文转现代文,白话文转文言文,现代文转文言文,古文转白话文,白话文转古文,古文转现代文,现代文转古文。
刚好春节假期有点闲,于是训练了两个神经网络机器翻译模型:文言文(古文)到白话文(现代文),白话文(现代文)到文言文(古文),现在可以在AINLP公众号后台直接对话测试了,至于效果,基于语料和模型的水平,仅供一乐,关注AINLP公众号,对话输入"文言文转白话文:待转换内容"或者"文转白:待转换内容"测试文言文转白话文,输入"白话文转文言文:待转换内容"或者"白转文:待转换内容"测试白话文转文言文:
以下是我的一些测试结果,感兴趣的朋友可以关注AINLP公众号自行评测:
甚至可以先用AINLP写一段文言文,然后再翻译成白话文:
以下是AINLP目前支持的自动生成模块,之后将加入更多的领域生成测试模块,欢迎关注测试:
鼠年春节,用 GPT-2 自动写对联和对对联
用 GPT-2 自动写诗,从五言绝句开始
自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了
仅供娱乐,藏尾诗生成器来了
以下是关于这个语料项目的具体介绍,感兴趣的朋友可以直接下载测试:
文言文(古文)-现代文平行语料
非常全的文言文(古文)-现代文平行语料,基本涵盖了大部分经典古籍著作。
原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外,目录source下是文言文单语数据,target下是现代文单语数据,这两个目录下的文件内容按行对齐。
以下为数据统计信息。其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。
书名 | 句数 |
---|---|
短篇章和资治通鉴 | 348727 |
元史 | 21182 |
北史 | 25823 |
北书 | 10947 |
南史 | 13838 |
南齐书 | 13137 |
史记 | 17701 |
后汉书 | 17753 |
周书 | 14930 |
太平广记 | 59358 |
宋书 | 23794 |
宋史 | 77853 |
徐霞客游记 | 22750 |
新五代史 | 10147 |
新唐书 | 12359 |
旧五代史 | 11377 |
旧唐书 | 29185 |
明史 | 85179 |
晋书 | 21133 |
梁书 | 14318 |
水经注全 | 11630 |
汉书 | 37622 |
辽史 | 9278 |
金史 | 13758 |
陈书 | 7096 |
隋书 | 8204 |
魏书 | 28178 |
总计 | 967257 |
《短篇章和资治通鉴》中各书籍统计如下(此部分数据量不完全准确):
书名 | 句数 |
---|---|
资治通鉴 | 7.95w |
左传 | 1.09w |
大学章句集注 | 86 |
反经 | 4211 |
公孙龙子 | 73 |
管子 | 6266 |
鬼谷子 | 385 |
韩非子 | 4325 |
淮南子 | 2669 |
黄帝内经 | 6162 |
皇帝四经 | 243 |
将苑 | 100 |
金刚经 | 193 |
孔子家语 | 138 |
老子 | 398 |
了凡四训 | 31 |
礼记 | 4917 |
列子 | 1735 |
六韬 | 693 |
六祖坛经 | 949 |
论语 | 988 |
吕氏春秋 | 2473 |
孟子 | 1654 |
梦溪笔谈 | 1280 |
墨子 | 2921 |
千字文 | 82 |
清史稿 | 1604 |
三字经 | 234 |
山海经 | 919 |
伤寒论 | 712 |
商君书 | 916 |
尚书 | 1048 |
世说新语 | 3044 |
司马法 | 132 |
搜神记 | 1963 |
搜神后记 | 540 |
素书 | 61 |
孙膑兵法 | 230 |
孙子兵法 | 338 |
天工开物 | 807 |
尉缭子 | 226 |
文昌孝经 | 194 |
文心雕龙 | 1388 |
吴子 | 136 |
孝经 | 102 |
笑林广记 | 1496 |
荀子 | 3131 |
颜氏家训 | 510 |
仪礼 | 2495 |
易传 | 711 |
逸周书 | 1505 |
战国策 | 3318 |
贞观政要 | 1291 |
中庸 | 206 |
周礼 | 2026 |
周易 | 460 |
庄子 | 1698 |
百战奇略 | 800 |
论衡 | 1.19w |
智囊 | 2165 |
罗织经 | 188 |
朱子家训 | 31 |
抱朴子 | 217 |
地藏经 | 547 |
国语 | 3841 |
容斋随笔 | 2921 |
幼学琼林 | 1372 |
三略 | 268 |
围炉夜话 | 387 |
冰鉴 | 120 |
如果您使用该语料库,请注明出处:https://github.com/NiuTrans/Classical-Modern
感谢为该语料库做出贡献的成员:丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
建议继续学习:
- 《Linux/Unix 设计思想》的翻译细节讨论 (阅读:3916)
- 剖析Network、Internet与Web的中文释义 (阅读:3647)
- 公共场所英文译写规范 (阅读:3257)
- 怎样翻译更地道:so…that…的翻译 (阅读:2495)
- 怎样翻译更地道:It is…that…句型谚语的翻译 (阅读:2471)
- 怎样翻译更地道:“as somebody said…”的翻译 (阅读:2378)
- 怎样翻译更地道:无生物主语的处理 (阅读:2236)
- 怎样翻译更地道:翻译如铺路 (阅读:2205)
- 怎样翻译更地道:否定句的翻译 (阅读:2110)
- 怎样翻译更地道:当遇到when的时候 (阅读:2095)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:52nlp 来源: 我爱自然语言处理
- 标签: 文言文 神经网络 翻译
- 发布时间:2022-06-19 18:18:07
- [54] IOS安全–浅谈关于IOS加固的几种方法
- [54] 如何拿下简短的域名
- [54] Go Reflect 性能
- [53] Oracle MTS模式下 进程地址与会话信
- [52] android 开发入门
- [50] 图书馆的世界纪录
- [48] 【社会化设计】自我(self)部分――欢迎区
- [48] 读书笔记-壹百度:百度十年千倍的29条法则
- [39] 程序员技术练级攻略
- [31] 视觉调整-设计师 vs. 逻辑