当前位置: 华文星空 > 心灵

如果汉字失传了,释读它的难度有多大?

2021-10-22心灵

如果失传,就要假设只有文献,没有图片(有图就简单了),没有字典和说文解字之类,没有繁体字,没有任何多语对照。只要文本足够,使用计算机还是可以释读它的。下面我简单说说具体思路:

一、确定一条思路为主:以字为单位再结合语法进行分析。这个字的概念凭直觉就能看出来吧。这里所用的语法概念,如字、词、词组等,依然沿用现在的概念。另一条思路为辅:对字进行分解研究。

二、首先通过计算机选出高频字,这个不难吧。下面是选出的高频字,为了简单说明,按使用频率排列如下:1、的 一 是 了 我,2、不 人 在 他 有 这 个 上 们 来 到 时,3、大 地 为 子 中 你 说 生 国 年 着 就 那 和 要 她 出 也 得 里 后 自 以 会,4、家 可 下 而 过 天 去 能 对 小 多 然 于 心 学 么 之 都 好 看 起 发 当 没 成 只 如 事 把 还 用 第 样 道 想 作 种 开 ,5、美 总 从 无 情 己 面 最 女 但 现 前 些 所 同 日 手 又 行 意 动 方 期 它 头 经 长 儿 回 位 分 爱 老 因 很 给 名 法 间 斯 知 世 什 两 次 使 身 者 被 高 已 亲 其 进 此 话 常 与 活 正。(共计140字,网上找的,可能不是很准确。)

接着结合语言结构,对上述高频字进行分析。比如的字,它基本以 xx的 (句尾)或 xx的xx (句中)的方式出现,可以基本推测它就是一个助词。这里用到词的概念,为了行文简便,和我们现在用到的词的概念基本一致。 大约是衔接形容词和名词用的。至于名词和形容词的前后顺序,以后研究可以弄清的。至于 一二三 等由于用在文章的条款结构中,很容易破解。 是、了 的研究暂时放后,再看 ,我们会发现它一般出现在句子开头或前部位置,或者句子结束或尾部语位置,再看 有时和后面的 组成了一个高频词。使用位置不变,基本可以推测是个人称代词了。接着我们还会发现 你们、他们 这样的高频词与 的用法类似,而且会高频的成对出现,形成主语和宾语的呼应结构。那么 我你他/们 基本可以肯定是人称代词单数和复数了。回过头,从大量简单简单句子入手,就可以发现夹在人称代词之间的词,基本是动词了。那个动词 的独特性,它出了 字基本不和别的字组成高频词。而且出现大量的 xx是xxxx的 结构,也可以肯定 是是了。接着 字破解无悬念。 破解了, 接着破解 还有 子, 根据它的大量出现的 x子 组合 可以破解了,接着破解一大批名词形式。回过头,可以发现xx xx结构,形容词在前,名词在后。那么没有的的xx+xx组合也是前面是形容词,后面是名词了。这样大致可以确定所有名词。破解了一二三四等数字,接下来 年月日 也可以破解。数字后面的常用量词 也可以破解。沿着这思路,我们大致可以确定汉语的语法结构了。同时可以确定名词、动词的位置。继而开始研究名词。

三、接着,通过诗词、歌词,我们大致可以破解读音的韵母。大致按拼音方案分为35个韵母,但不好确定哪个字到底是什么韵母?但声母还不好破解。也就是说难以读出每个字完整的音。至于声调,除非有文献论述,估计可能想都想不到。

四、再看对汉字分解研究那一条思路。因为对韵母的研究,可以大致发现一些表韵母或读音部件。但很难发现为声母部件。也就是说字虽然也应该表音,但不是拼音结构。根据对汉字和部件形态研究,会发现一些【根字】(是临时造的概念)。所谓根字就是一个字可以单独使用,也可以成为另一个字的部件。比如车可以单独使用,也可以做轮、转的部件。而且,我们依然可以找到一些高频根字。比如车。我们可以发现很多高频词。前面说过我们根据词的位置大致可以区分名词和动词。那么,我们可以大致列出名词:汽车、货车、火车、小车、车门、车窗、车灯、车站、车牌等,动词(组):开车、坐车、骑车、洗车、修车、买车。而且比较手机、衣等词汇的使用频率。并且发现开车、坐车和到什么地方这个状语连用。大致可以确定 就是表示车了。确定了车,对 开、坐、洗、门 等有很强的辅助辨认功能。接着对轮、转、辆、轿估计可能与车有关。接着会发现 这个部件和水有关。毕竟江、河组成的词不少,而且在状语的位置不少,应该是地理位置。

五、开始研究时,可以假设一字多意,一字多种读音,一字多音节,2~3字合成一个音节,等等。随着研究深入,有些假设可能证实,有些基本否定。

六、这些需要海量的比较、计算。必须要上计算机程序。将第一次大量研究成果再放回文本中看句子的意思是不是自然流畅,又可以进行第二次调整。这样,反复几次。基本可以获得一本类似【新华字典】。

综合而言。如果只研究字义,汉字释读的难度不会很大。有AI,有一群人进行海量扫描输入,估计几个月到一年就可以意义释读。至少不会比拼音文字难度明显大。但释读语音,难度很大。拼音文字释读语音靠拟声词,可以读出几个元音,辅音。但全面读出音,也有相当难度。