中文和英文纠缠的理论与实践、连续与间断

王德奎 · 发表于: 2023-8-1 21:30:28

9、中文和英文纠缠的理论与实践、连续与间断

a、开辟中文和英文纠缠创新的第二战场

今后如果智能中文聊天手机普及，它是人工智能语音技术在软件和硬件上，都是超英文和英语世界的重大突破，又如何呢？

中文和汉语，英文和英语，作为一种纯粹、客观的自然、社会现象符号的记录、交流和保存的工具，本身是没有阶级性和意识形态的。但从几万年到几千来人类社会、民族、国家、制度、宗教、文化、经济、科技、社团、党政、战争等的分化，它们是文字和语言在全世界分为的两大群体，类似东西方有别。又因学文化，比自身自然掌握的会母语难，如中文是象形方块文字，看文字读不出语音，也还需要类似拼音去注音。英文是注音文字，读出英文，大体就明白英语的意思。

所以在华人群体中，历来不懂中文能自然说汉语的人，比认中文又能说汉语的人多得多。在英语世界，这种现象要少一些，因为懂英语学英文比学中文容易些。如为啥美国驻俄罗斯大使会说俄语，美国驻中国大使凭啥不说中文，就因中文起点比字母符号拼音文字高。

电子科技大学黄健教授2015年6月24日在“科学网”客人博客专栏，发表的《为科学交流的中文化与多元化尝试点赞》一文中说：“虽然对母语充满感情，但面对科学世界里英语‘千秋万代，一统江湖’的趋势，我似乎也只能默默地顺其自然，甚至随其流而扬其波……我从不认为中文只适合写诗或哲学研究，我也不认为英文或任何一门语言是天生的科学语言。一切靠实力说话。期待中文比肩英语，成为最重要的的国际语言，无论在经济文化还是科学研究领域”。

像黄健教授这样的有志之士的中国人很多，特别是中科院院士、著名海洋地质学家、同济大学教授汪品先。2023年7月15日在上海市科协、市教委主办的“大师课堂”活动第三场讲座，主题为《现代科学与传统文化》，他讲如何在世界科学舞台打出“中国牌”？现代科学和中国传统文化存在怎样的矛盾？汪院士说：“语言和货币一样也有‘币值’，随着其使用价值而升降。在科学领域，如果能让汉语成为英文之外的第二交流平台，就能提高汉语的‘币值’，让科学融入汉语……我们的大陆文明很伟大，但是确实有缺陷；海洋文明有它的毛病，但是现代科学是海洋文明的产物，这方面它赢了。所以，当前任务是要认真进行历史反思，分辨传统文明的优点和缺陷，扬长避短发展现代科学，把东西方的优势放在一起，打造一个新的文明”。

早在2015年《文汇报》发表，汪品先院士写的《汉语被挤出科学! 还是科学融入汉语？》一文中，他说：“当前学术刊物‘英高中低’的现状是历史产物，相当长的时期内不可能根本改变”。该文章引发了学术界的热议。汪品先院士说的事实是：在“高大上”的科技界，英语独大，汉语的地位却日渐式微。长此以往，中国会不会步上印度的后尘，方块文字被排挤在科学之外？

汪品先院士主张以中文汉语为载体，“开辟科学创新的第二战场”。

这实为中文和英文纠缠，“理论与实践、连续与间断”的最新最高举措。汪院士一贯道理说的是：物质产品的媒介是货币，交换智力产品的媒介就是语言。如果我们在用美元扩大国际贸易的同时，也在积极推进用人民币结算，那么在用英文加强国际交流的同时，是不是也应当考虑将汉语用作交流语言？讨论中国科学家的母语，一个绕不开的问题是方块字。方块汉字的前途，是我国知识界争论的百年话题。

对于汉语字的批评，首先来自其复杂难学。汪院士说：鲁迅先生把汉字比作“中国劳苦大众身上的一个结核”，“汉字不灭，中国必亡”。然而60年来的实践表明：通过汉字简化和义务教育，汉字完全可以为大众所掌握，本身并不是造成文盲的主要原因；相反，中国方言之间的差距不亚于一些欧洲语种的区别，方块汉字正是跨越方言阻隔的桥梁，是几千年民族统一发展的产物，也是维系民族统一的纽带。计算机技术的发展，为各种文字的前途提供了重新排队的机会。对于二进制的计算机编码，一个汉字只相当于两个拼音字母。

汉字承载的信息量远大于拼音文字，同一个文本，汉字的篇幅最短，汉字输入计算机的速度也最快。随着中国科学的发展和普及，随着世界科学力量布局的变化，为什么最多人使用的语言，就不该用作科学的载体？语言是文化传承的主角，以汉语作为载体的中华文化，在科学创新中应当具有潜在的优势。英文的全球化，是二次大战后美国建立全球优势后的产物。其实直到清朝早期的数百年间，汉字也曾是东亚文化圈的通用语。科学是世界性的，真理只有一条；但是走向真理的道路不应该只有一条，垄断不利于创新。

经验表明，用汉语的直接交流特别有利于学科交叉，有利于新兴方向的引入，有利于青年学者视野的开拓。如果我们同时也能坚持汉语在科学创新中的地位，就会呈现出一种崭新的局面：一些最初在国内提出的新观点，随后引起国际学术界的热烈议论；一些最初用中文发表的新概念，被译成外文在国外广为流传。发展的结果，必然是科学的精华渗入汉语，使汉语文化获得新生，并且产生出国际瞩目的新型文学和科普作品。对于一百年后的世界交流语言,今天谁也没有本事预测，可以肯定的只是信息技术发展将有深刻影响。“图文字”的拓展和人工智能对翻译的贡献，必将使不同语种之间的交流愈加容易，而不见得会有一种语言“一统天下”。我们希望，百年之后的国际语言交流中，华语将会获得重要的发言权。

汪院士讲得多好多清楚啊。上海交大李侠教授2015年3月5日在“科学网”客人博客专栏，发表的《文化需要的是开放与公平而不是特设性保护》一文中也说：“当下国内学界的一个主要关注点是汉语在某些领域的式微，是否会导致一场毁灭性的‘去中国化’现象的出现？如话语权之争或者文化霸权等很多吓人的话题。中国文化体量之大，是任何其他文化所无法完全同化的。仅就还不算久远的清朝来说，满族文化最后被汉族文化完全同化，而不是相反。有关‘去中国化’的担忧，是一个精致的伪问题。印度的高端科技，都是用英语表达的，但印度在国际上的影响力并不是特别大。中国科技界目前的评价体系，从制度设置上就存在缺失公平，甚至是存在明显歧视性的政策安排，从而导致用中国纳税人提供的科技投入所得到的最好成果，最先获得思想启迪的却是外国人，相当于在变相地丰富另一个文化子系统的影响力。原本这些思想产品，是最应该先让中国人获益并实现群体思想激励的，然而现实却是，我们需要把这些最新的知识产品再通过转手贸易输入进来，从而带来双重损失的局面”。

李侠教授以上说的话都对，但以下说的话还值得研讨。他说：“文化的话语权，是以文化的优质产出为基础的，不是简单争来的。没有大量的优质文化产品与高端科技产品作支撑而幻想话语权，那无异于缘木求鱼。相信拥有庞大受众的中国文化，会释放出长期被压抑的创造力，并焕发出勃勃生机。我们有过诸子百家、有过新文化运动，那时的繁荣都与文化的开放、公平、自由有关”。

这里他说的“没有大量的优质文化产品与高端科技产品作支撑而幻想话语权，那无异于缘木求鱼”，也对。科技产品要讲“优质”，是一个基本要求。但“优质”能跟英文、中文中的“霸权”无关吗？国家掌握政权不是一个真空地带，“社会主义”是一个“优质”产品，发达国家并不想要；美国打造的“谷歌”，搜索科技文献的能力很强，但它在我国不遵纪守法，已被请出国门。英文和中文纠缠之争，不是“优质”之争，是人类命运共同体方向创新开辟第二战场之争。

鲁迅先生至今都还我们尊敬的革命家，然而汪品先院士也提到他把汉字看作“汉字不灭，中国必亡”。但汪品先院士说：“中国方言之间的差距不亚于一些欧洲语种的区别，方块汉字正是跨越方言阻隔的桥梁，是几千年民族统一发展的产物，也是维系民族统一的纽带。计算机技术的发展，为各种文字的前途提供了重新排队的机会。对于二进制的计算机编码，一个汉字只相当于两个拼音字母”。

英文和中文纠缠之争，实际是拼音符号文字与方块象形文字之争。曾祖先跟随中国用中文的韩国、朝鲜和越南等国，现今已改成用拼音符号文字或字母拼音文字；日本已改成大半拼音符号文字+少量方块象形文字。华东师范大学传播学院新闻学系潘妮妮教授说：“《三体》反映了一个文明在面临危机时的众生相”。实际《三体》反映的正是，拼音符号文字与方块象形文字之争在开辟第二战场之争。刘慈欣教授在获2015年雨果奖的《三体》第一部书中，除了“叶文洁”还有一个敏感的人物“程丽华”。如第8章“寂静的春天”中，程丽华是文革时某地中级法院军管会的军代表，她类似解释“俄乌战争”和其泛滥的原因：“一次政治学习会上，我说我们应该并入苏联……幼稚啊”。

如果鲁迅说的“汉字不灭，中国必亡”，按“程丽华”说的“并入苏联，即用苏联俄罗斯的字母拼音文字，这和英文属字母拼音文字不同吗？我们读高中时外语俄文是必学课；读大学时外语俄文也是必学课。但现在已全忘光了。当然新中国早期，苏联确实帮助我国提升过工业化建设，这是至今没有忘记的。但“让穷人翻身得解放”、“实现共产主义”，不是“去中国化”的字母拼音文字化的“文化霸权”。

李侠教授不是说：“印度的高端科技，都是用英语表达的”。印度摆脱英国的殖民后，为啥要搞医药专利改革？说的是仿制药让穷人患者看到生存的希望。这类似“以苏解马”优质文化如“让穷人翻身得解放”、“实现共产主义”吗？“以苏解马”搞阶级斗争，即使高端科技都用苏联类似的字母拼音文字表达，我们“扶贫”仍需要今天的“改革开放”政策。那么英文和中文纠缠之争创新开辟第二战场，不妨了解一下印度的专利改革。因为印度宪法规定，药品没有知识产权。不论哪个国家的药品，都可以仿制。

这是1966年印度铁娘子英迪拉•甘地上台，推进专利法改革，发挥国家掌握政权的作用。这不是李侠教授说的“没有大量的优质文化产品与高端科技产品作支撑”，就是幻想；而类似有点“改革开放”，只保护药品生产过程中的专利，不保护药品的产品专利。即在印度，药品没有知识产权，后来还发布了强制许可政策。印度仿制药也确实价格低疗效好，让患绝症的穷人看到了希望。被欧美垄断的各类专利药，在印度基本可以找到仿制品。为啥印度可以搞仿制药呢？

王德奎 · 发表于: 2023-8-1 21:31:13

新药研发，有一个“双十定律”，即十年的研发时间和十亿的研发费用，实际上还会超过“双十”成本。研发药企承担了绝大部分成本，如果没有法律提供专利保护期，所有研发新药的药企都会赔不剩，专利药根本没法和仿制药竞争。上个世纪70年代之前，印度沿用英国的专利法，大量的专利药被国际药商垄断，药价高到普通人无法承受。英迪拉•甘地颁布的专利法，印度仿制一款新药只要稍微调整生产工艺，就不会违反印度的药品专利法。靠着专利法，印度仿制药产业经过50年的野蛮发育，已经拥有完整的仿制药产业链。

2020年的数据显示，印度制药企业多达16000多家。全球十大仿制药企业，印度就占了5家。印度每年供应全球20%的仿制药，60%的药品出口到欧美和日韩，美国超过40%的仿制药从印度进口。

2011年德国拜耳公司对印度药企提起诉讼，但是印度政府压根不予理会，直接以“专利强制许可”驳回拜耳的诉讼请求。而且联合国帮忙让专利法也显得有人情味，如出台对药品专利，制定新规则：只要满足人口众多和经济不发达这两个条件，就可以在法律中保留“专利强制许可”制度。印度满足以上两个条件，只要部分药品的价格超过民众承受的范围，印度就可以无视专利法，强制对该药品进行专利授权。这种不保护专利的行为，颇有一种劫富济贫的味道。

但是资本不讲人情，印度市场曾一度成为国际药企的禁区。为了持续推动仿制药产业的发展，印度政府在2005年放开了药物试验限制，这等于是给国际药企开出仿制药的交换筹码。

为了降低临床试药成本，欧美药厂重新进入印度市场，在当地进行活人临床药物试验。有人说，找不到理由去批判，是专利法的确是维护资本的利益，保证了医药技术的进步；但穷人买仿制药也没有错，他们只是想拥有活下去的权力。印度的专利法只保护药品的工艺，不保护药品的成分。采用不同工艺，稍微修改不重要的成分，在法律范围内是被允许的，从而制造出更低廉、更高效的药物。

其实很多药的制造成本，只有几百几千块钱，但在印度之外要卖上几万甚至几十万，主要的花费就是专利。正是因为高昂的专利费，造就了高昂的药品费。因此自从印度专利法改革以来，印度本土的一些仿制药药商如雨后春笋般不断出现。拆开来讲，说是印度民众买不起，印度本土仿制药公司可以仿制。即不管你的专利过没过期，不管你的专利在哪使用，也不管你的专利在不在法律保护范围内。只要印度仿制药公司盯上你，难逃被仿制的命运。西方国家抗议归抗议，基本上都无效──一是只要你敢来印度开公司，他们就敢仿制。二是就算你不来印度开公司，他们还是敢仿制。只要印度仿制药公司说你司制造的药物成本太贵，印度群众买不起，符合强制许可法。

照此逻辑，如果科技论文要大量优质，又对中文“去中国化”，那么我国政府也可以推行知识产权改革，为对不懂英文的中国民众做大语言模型训练，释放出长期被压抑的创造力，颁布保护国外发表的英文科技论文可以被中文自由翻译在我国介绍传播，及中文科技论文可以在全球传播的法令，以满足国内外普及科学的需求。

b、生成式AI为开辟中文第二战场合理作证

《生成式人工智能》一书作者丁磊教授，类似给“理论与实践，连续与间断”，用生成式AI为开辟中文创新第二战场的合理在作证。

2023年7月26日观察者网记者吕栋，发表的《专访丁磊：中国大模型厂商赶超美国，关键在这里》一文中说：“如今的生成式AI和前些年火热的AI概念有没有本质区别？催生生成式AI的关键技术有哪些？观察者网专访了美国俄亥俄州立大学人工智能专业博士、美国PayPal全球数据科学平台创始负责人丁磊”。

丁磊教授的分析是：AlphaGo不是一个普通的AI机器人，它以击败围棋世界冠军柯洁而名声大噪，背后依靠的主要是强大算力──围棋是比较复杂的棋类，但它是有规则的。AlphaGo这种AI机器人，通过大量的数据学习就能做到很优秀。所以在他看来，AlphaGo这种AI机器人，更像是在规则之下，通过大量数据不停地强化和迭代过程的数据学习，就能做到很优秀。那么英文和中文之争是什么？

是真正的通用人工智能（AGI）。以大模型为代表的生成式AI，可以说是今年全球科技圈最火热的概念，甚至没有之一。中国企业华为、科大讯飞、商汤科技等，这种本来就带有AI标签的公司，都在展示大模型能力。中英文的差距，人类的自然语言、文字相对的更复杂。英文聊天机器人ChatGPT所具有的知识和逻辑，从人脑学习的层面来看，跨越时空的尺度比AlphaGo更大，因为学习围棋相比于学习常识和逻辑，需要的时间更短。具有让一个人去学习的话，肯定比学习下围棋的时间要长。所以ChatGPT的里程碑式意义更大。

AlphaGo处理的主要是围棋数据，格式相对简单。虽然围棋中的内涵逻辑，包括取胜的规则也挺复杂，但它的底层数据结构更简单直白。而ChatGPT对应的是人类自然语言数据，存在的形式更为复杂、多样和多变，这也就从另一个角度印证了ChatGPT是AI领域更大的突破。从成熟程度看，AlphaGo类似决策式AI的应用，其更为成熟是已在互联网、零售、金融、制造等行业展开应用，极大地提升了企业的工作效率。而英文聊天机器人ChatGPT属于生成式AI，比AlphaGo “年岁更小”，是从2014年到至今才发展迅猛。

但应用方向来看，生成式AI也只是在文本和图片生成等应用内落地方面，指数级爆发类似决策式AI，只在人脸识别、推荐系统、风控系统、机器人、自动驾驶中都已有贴合日常生活的成熟应用。

智能中文聊天手机的普及，中美在AI领域的竞争，未来才会最引人关注。目前国内一些厂商，称自己的中文大模型部分能力已超越英文ChatGPT，并且很快将整体赶超英文ChatGPT。丁磊教授说：与其对比中美，不如对比中文和英文各自的科技训练模型。

不对比智能中文聊天手机这件事，就跟互联网思维模式的差别一样，各国企业其实没有本质差别，都可以做训练模型这件事，但谁能最终做出智能中文聊天手机的统一来，就需要一种新的思维方式。

比如，包括谷歌在内的互联网公司研发产品，采用的是“养鸡模式”，公司会将“养鸡”拆成不同的细分任务，多部门人员各自负责具体业务。而训练中文和英文GPT模型，是“养娃模式”，它类似反而不需要那么多老师、厨师。这不是说不需要14亿多中国民众来实践，而是说，它很难拆分成完全独立的任务，类似必须有固定父母站在全局角度，亲自教授培养孩子。

所以在这种模式下，美国谷歌没有最早做出智能中文聊天手机产品，原因是现有的分裂体系，很难在AI领域取得里程碑式的成功。训练中文和英文GPT模型，本质是一个很难拆解的事，需要公司领导层在技术、业务，甚至资本层都是专家。这能做到吗？

丁磊教授说：数据、算法和算力都很重要，但他认为，数据现在比较容易获得，很多数据都是互联网上的数据，可以很容易获得。最核心的还是算法，这关系到模型训练的效果。记者吕栋问：国内很多企业，现在训练中文模型需要使用中文语料，而中文可使用的语料，没有英文那么广泛，这会不会导致中美大模型之间产生差距？丁磊回答这确实是个问题──英文高质量的语料可能比中文要多，但这其中是不是也可以考虑做一些跨语言的翻译，然后再做模型训练。

但这里引发的争议也多。语料又称“语言材料”，作为语言研究的事实依据而收集的语音、词汇、语法素材及话语，通常是一定数量和规模的文本资源集合。语料规模可大可小，大至千万，甚至数亿句或更大，小至几百句。那么英文高质量的语料，比中文要多？

或者说：用英文进行过标注的数据集远，比中文标注数据集完善吗？那么是中文有什么问题吗？有人说：不是中文的问题，是中文互联网巨头们的短视。又有说：用什么文字去表达是一种习惯，即我们常常听说的“生态”，与必不必须毫无关系；面向普通消费者的指令集或操作系统是一种商业行为，与市场占有率或消费者接受度相关，与科研水平没多大关系。国内有的公办大学、研究所、科学院，是政府资助，又不是商业公司，更不是国家政府，有那么必要搞一套自己的操作系统或指令集，强行在市场中进行推广，从中赚钱吗？

联系丁磊自己，他跟李彦宏、马化腾，是被称为中国的“互联网三巨头”的人物之一。丁磊在1987年考入了浙江大学无线电系，在大学最后一年，他创办了一家公司，凭借着对互联网行业的热情和坚持，公司逐渐发展成为中国最具规模的互联网公司之一。即他是网易的创始人兼CEO，他创立的网易公司，是一家全方位的网络公司，涉及网游、门户、邮箱、新闻、音乐等多个领域。在丁磊的带领下，网易的不断发展和壮大，也让丁磊拥有了更多的机会，结识了许多业内的大佬，也越来越有话语权。但丁磊身在国外英语世界，会去中国化吗？

1）汉字怎样被边缘化？

2016年5月19日“红色文化网”，发表刘原教授的《汉字怎能边缘化？》一文中说：2006年7月5日的《中国青年报》发表题为《学术会议按惯例使用英语，汉语将沦为科学看客》的文章。说的是在中国召开国际会议，工作语言一律用英语，汉语靠边站，让好多参加会议的中国人听不懂，没有到达学术交流的目的。举例说两年前，在上海召开的“第四届全球华人物理学家大会”上，从印发的论文到演讲全是英语，部分海外华裔学者提出采用中英文双语，竟被组织者以国际惯例为由拒绝。对于这种科学会议上不使用汉语的现象，有一种惯常的解释：在这些领域领先的工作，主要是常常是美国人和英国人做的，所以外语常常是英语，几乎成了前沿工作者的通用语言，不用外语便无法进入最前沿。这个解释在某种程度上也不无道理。

王德奎 · 发表于: 2023-8-1 21:31:45

但有人说：这并不意味着使用外语作报告，就代表进入了科学研究的最前沿，而使用汉语作报告便是落后的。在与外国同行交流时主动使用外语，当然可以理解，但当面向国内同行或专业程度较低的听众时，为何不能大大方方使用母语呢？国内的科研进展，通过出口转内销才传到国内媒体，这种事并不鲜见。但现实当汉语被排斥于最新科技学术前沿之外，会无形中增加中国人学习科学和从事科研的成本。

还有人说：用什么文字去表达是一种习惯，即我们常常听说的“生态”，与必不必须毫无关系；面向普通消费者的指令集或操作系统是一种商业行为，与市场占有率或消费者接受度相关，与科研水平没多大关系。国内有的公办大学、研究所、科学院，是政府资助，又不是商业公司，更不是国家政府，有那么必要搞一套自己的操作系统或指令集，强行在市场中进行推广，从中赚钱吗？宪法还不是人定、人执行？宪法不是国家的必需品，世界是多样性的，教义和宪法的作用差不多；英国也没有宪法。一个领域研究的先进与落后，往往是动态的。落后，不是在所有方面都落后，也不应当甘于永远落后。

在学术研究领域，汉语要当多久的弱势语言？当中国最好的科研人员都放弃在专业上使用汉语发言，在科学话语权越来越重要的当代和未来社会，将对中国文化和汉语的前途产生怎样的影响？再说国家的冲突背后是文化的冲突，而文化是以语言为根基的，语言的推广统一才是千年大计。西方字母是纯符号。汉字的形音义是紧密联系的，何不按照特定的需求，编写自己的源代码或满足需求的基础操作系统，直接与硬件接口相连，输入计算指令？这种从源代码开始，即是自己开发的程序指令，用什么符号或文字还不是开发者自己说了算。

看来这里有一个误区──我们发对科技论文对中文“去中国化”，中文和英文纠缠创新开辟第二战场，没有一点要代替英文英语的意思，而是取长补短。或者不是说中国强大了，对其他使用拼音符号文字的国家就说，不同语言是国家冲突的原因，你们必须全部放弃本国语言，改学中文。这种第二战场我们不愿意，他们也是不愿意的。

在科技领域研究的先进与落后，只是一种“连续与间断”的表现，是任何一个国家历史都有的“连续与间断”的体现。行路难，多歧路，承认这一点是一个国家的自知之明。中国早在“立足山海时期（约公元前5070--4170年）”，就使用过古卦爻文字。计算器也最早开始使用算盘。现代进步英文计算机超越中文计算器算盘，这是人类社会共同的进步，中华民族没有一点要自卑的。如bilibili（哔哩哔哩），是中国领先的年轻人文化社区，被粉丝们亲切的称为“B站”，即使它没有设定语言的功能，但把英语定位在官方语言上，如新加坡走的的路：最早计算机不能显示汉字，那么只有掌握了英语才能使用计算机。早在1919年签订《凡尔赛和约》，为对一战最大赢家美国的尊重，该和约成为世界上第一份正文用英语书写的国际条约。

即英语崛起的最大动力，并非来自英语母语者，而是来自母语不是英语但讲英语的人。这标志着英语的崛起，法语的衰落，此后英语逐渐成为全球通用语言，至今104年。104年对于人的生命而论太久，但对于一个民族却很短。这也是中文和英文纠缠“理论与实践连续与间断”的一类体现。今天以英语为官方语言的国家有70多个，以英语为母语的国家有12个。但今天有超过98%的科学论文，是用英语发表的。使用非英语发表的文章，被视为对其国内交流。

科学的霸权，就隐藏在看似中立的英语之后。

2）中文能成为下一个科学语言文字吗？

bilibili（哔哩哔哩）如果今后能作为世界各国年轻人的文化社区软件，即使它没有设定语言的功能，但各国也有可能把中文定位在官方语言上，成为下一个科学语言文字吗？这也是我们说的没有一点要代替英文英语的意思，而是取长补短。像印度官方使用英文，也保留国内各民族有说本民族说自己语言的权利一样。

如此科学英语将被中文科学中文所取代，在这种情况下，科学仍然将继续使用单一的语言，只是改为了一种不同于英文的语言。推翻一个国家的政局有，推翻世界已成的局势难。中文汉语，显然是指统一各地方言的中国普通话为基础，成为未来唯一的科学语言的观点，当然主要是基于14亿多说中文人口数量集中于一地和地缘文明连续5000多年不断的检验力量。回顾一下中国悠久的自然知识的历史，中文汉语在整个亚洲从韩国和日本到中亚，再到东南亚，一直都是科学交流的重要语言文化。在这些地方，同样出现了为了适应中文汉字，偶尔也需要适应汉语口语的压力。中文汉语的实力毋庸置疑。

当然，中文汉语的这些推论存在两个问题：一个是经验上的，另一个是理论上的。经验上显而易见的是，尽管中国科学家和工程师的数量迅速增加，但他们实际上是当代英语发展的一个重要组成部分，因为他们高层的大多数投到国外的出版物，都是用英语发表的，而不是用中文汉语，有说是类似“黄皮肤的白人”。理论上的问题更为尖锐：究竟为啥要期望科学在未来只使用中文汉语一种语言来统领众多其他语言？推翻一个国家的政局有，推翻世界已成的局势难。即使是拉丁语，除了文艺复兴鼎盛时期外，它在欧洲也不是唯一的科学语言。

说实在的是因有了人工智能（AI），中文和英文完全可以一起使用，编程语言不就是用语言文字表达0和1二进制吗，为啥不可以规范一套中文加数字字符的标准，一定要一直用英文加数字字符，如太极26卦爻？国家也许应该适应时代颁布一套基于中文的逻辑严谨编程基础语言体系，这样更有利于维护中文的文化根基。而且有人说计算机中文编程早有吴涛开发的“易语言”──吴涛还不是科班出身，没有名校背景，没有留学经历。然而他却完全依靠个人，开发出了这款功能完备、配套工具齐全的编程语言。你可以试试把易语言和中文编程Python（蟒蛇）同时给周围人推荐，看他们最终会选哪一个？

只是后来“易语言”管理专注收费，锁死了它的发展。而在今日，唯一活下来的中文编程语言，正在程序员社区语言鄙视链的底端艰难生存，垃圾、骗子、病毒、从入门到入狱是它的代名词，它就是“易语言”──语言要推广发展就得开源；除非初创的，但后来想超越、想建立生态圈，就得靠群体智慧，就得开源，不然怎么争得过？

有人说：最近两年一个活跃于知乎等社区，叫吴烜的硅谷工程师，宣扬他的中文编程理念，就是基于主流编程语言开展中文编程实践。他认为程序员社区对中文编程有两大误区：第一是“只有中文编程语言才应该用中文命名标识符”；其次是“中文编程语言只要完成中文语法设计就行”。吴烜的理念是否得当？能否实现也难以预料。即便是全民英语的今天，英文命名、英文注释、英文文档，依然困扰着许多程序员。另一方面，在流行语言已经拥有巨大的标准库和第三方开源项目的情况下，这个轮子是否值得造？也值得商榷。

所以国内80后的程序员，都得要学英文。但几十年前“文革”时的计算机，输出来的都是在纸条上打孔，现在那就不是计算机了。但计算机只有开关表达0与1，哪认得什么英文还是中文？英文还是中文，只是被固化显示的字库，对芯片来讲，就是调用多少个开关比特显示特定的图像，方便使用者操作。但学习英文先进的东西，英文还没办法给你帮忙，这种学习方式有效吗？然而如果说中文基本上天生不适合做程序语言，因为同义词过多了，与“汉字不灭，中国必亡”的逻辑相连。还说做一个直接从0和1的二进制，转换成1万多个汉字的指令集出来，但这不是一句话就能实现几十年的跨越式发展？

西方字母是纯符号。汉字的形音义是紧密联系的，何不按照特定的需求，编写自己的源代码或满足需求的基础操作系统，直接与硬件接口相连，输入计算指令？这种从源代码开始，即是自己开发的程序指令，用什么符号或文字还不是开发者自己说了算？是的，英文ChatGPT挺火吧，GPT 1.0 2.0 都是开源的。它里面有个关键模型 transformer，用中文表达大概叫“转换器”。现在为了学习跟进，假设把 GPT 开源代码都改写为汉字编程语言，除了中国的程序员，怎么跟全世界的程序员交流？怎么让他们帮忙找软件缺陷（bug）？

还有计算机编程基本上是数学和逻辑的关系，把编程语言汉字化，软件服务贸易怎么走出国门？然而中文不能提取逻辑严谨的汉字定出标准，配合数字符号替代英文+数字符号，那数学书怎么不是全英文？即如果一种替代没有，为了中文而中文，不会有多大市场的，注定是小众的。这样的编程语言，有多大的发展前景呢？

还有，键盘要不要换成汉字的呢？编程语言不就是用语言文字表达0和1二进制，为什么不可以规范一套汉字加数字字符的标准，一定要一直用英文加数字字符？编程底层是基于数学逻辑没错，但计算机编程语言，绝大部分只是表层，要不那来哪么多种编程语言？但最底层的还是0与1，用中国话说就是开-关。

3）科学中文成功早有王选院士的成功作证

中文能成为下一个科学语言文字，中国有信心。早先的例子如“汉字激光排版之父”王选。1975年北大王选教授，开始领导研制计算机汉字激光照排系统。他从夫人北大数学系教师陈小那里，得知此时已有5人从事相关研究工作。在王选汉字精密排版系统中，他将汉字输入计算机仅仅是第一步。中国研制的汉字激光照排系统，不仅价格便宜，而且比国外企业产品先进、实用，还不比国外企业产品差。

国产激光照排系统到90年代，甚至开始大举进军海外华文报业市场。我国不仅能够自主研发和发展自己的核心技术并实现产业化，而且还能将我国的高新技术产品打入发达国家市场。即1991年，王选带领北大科研集体，发明的计算机汉字激光照排技术，解决了汉字排版问题。到2017年，中文代码团队发明了中文代码编程技术，解决了汉字编程难题，结束了编写程序只能用英文的历史。

王德奎 · 发表于: 2023-8-1 21:32:23

4）再论生成式AI助力中文聊天手机

未来用生成式人工智能完成整篇论文不是一个好主意──例如学生利用英文或中文ChatGPT写论文、做作业，就会形成一股势不可挡的浪潮。但生成式AI可以承担简单但耗时的任务，来提升科研效率，如编写摘要和生成代码。但它也能再助力中文聊天手机的打造。

中文聊天手机的打造，能否学习中国核工业──从秦山一期起步，经历引进美国、法国、俄罗斯、加拿大核电技术的“万国牌”阶段，并在这一阶段完成了技术消化和产业升级，为国之重器—“华龙一号”的诞生创造了基础，中国民用核技术，也终于实现了从跟跑到领跑“迎头赶上”的历史性跨越。智能中文聊天手机科研、生产能力的消长变化，或许也能证明这样一个道理：科学、产业、文化社会紧密耦合正向循环的“盛世”，并不属于某种特定的意识形态或社会制度。

智能中文聊天手机的内在生命力，蕴藏在发展战略之中──科技发展战略的耗散、磨损与老化，导致产业现象层面外显的诸多现象。而如何塑造与维护良好的发展战略，智能中文聊天手机后发赶超这一发生在当下的工业化奇迹，将为全世界各国提供丰富的解析样本。

对此各抒己见，有人说如果科学，多半只是外语的事，与中文无关，那么智能中文聊天手机，肯定会介入与主人“聊天”的一些内容中的──如果当中文被排斥于最新科技学术前沿之外时，会无形中增加许多中国人学习科技和从事科研的成本；当最好的科学家在谈论前沿研究时，竟连中文都不会使用，好的中文原创科学文本难觅踪影，也就是必然的结果了。英文的互联网巨头，花钱做基础工作，我们的在沉迷于类似“抢菜贩饭碗”，智能中文聊天手机会无动于衷吗？。

英文或中文chatGPT没有那么神奇，需要动脑思考的工作统统替代不了，无脑的工作才能替代。程序员也有动脑的，也有无脑的。智能中文聊天手机哪天普及很难说──国内华为的盘古大模型，都发布几年了，现在也开源给很多企业，让企业根据自己的需要来训练。

基于工业上的应用，也在几个行业上落地。不要一个劲地吹国外的，先做智能中文聊天手机AI芯片，打造成国产的，再说其它，否则所谓的成果，很可能贡献给西方国家。这不是杞人忧天，英文或中文ChatGPT的ToC生成式，其应用有多大前景？长久看跟元宇宙、NFT等等一样，风头很快会过去。但生成式AI结合大模型用于中文聊天手机，解决具体的科学、生产、生活问题却是实实在在的新风口。

华为老早就布局AI底座，比肩谷歌等系统，位列世界前三；华为的盘古大模型，好几年前就发布了，比英文chatGPT早。华为没兴趣做英文ChatGPT类的东西，而是专注工业应用。但像气动设计、气象预报、矿山管理、自动驾驶聊天类的东西，可以基于华为的底座，其他，让如科大讯飞的星火厂家来搞，这才是AI的正确发展方向。

1）中文聊天手机属于通用人工智能

英文或中文chatGPT这种大模型，可以被看做是通用人工智能（AGI）吗？智能中文聊天手机出现，将推动社会产生极具颠覆性的发展吗？因为真正的AGI还需要跨越大语言模型大量训练这种门槛。

基于14亿多说中文人口数量集中于一地和地缘文明连续5000多年不断的检验力量，智能中文聊天手机不仅能够执行AGI技术这种中长期目标的特定任务，而且能够像大量中文主人一样，通盘理解和处理各种不同的信息。由此真正的AGI才能成为具有与人类类似或超越人类智能的计算机程序。所以虽然英文或中文ChatGPT等模型，在自然语言处理方面取得了一些进展，但仍然需要进一步研究和发展，才能逐步向着AGI的方向发展。

有人说，真正实现AGI须满足的要素，有点与“药物双盲实验”要求做一期、二期、三期……类似：首先是跨模态感知，将主人平时接触到的每个信息来源域称为一个模态，这些来源可以是文字、声音、图像、味觉、触觉等等。主人天然具有跨模态感知能力，能够对来自多种感官的信息进行整合和理解。

但当前绝大部分的人工智能系统，只能单独运用其中的一项作为传感器来感知世界，对于不同模态，需要设计不同的专有模型。其次是多任务协作，如给机器人发一条指令，让它帮忙拿一杯茶，它就会进行指令的理解、任务的分解、路线规划、识别物体等一系列动作，现在像英文或中文ChatGPT这种大模型，还不具备多任务协作能力。

第三，除了这种多任务协作的“通用性”，体现不仅能够同时完成多种任务，还能够快速适应与其训练情况不同的新任务外，还有自我学习和适应。智能中文聊天手机的主人具有学习和适应能力，能够通过不断的学习和经验积累来提高自己的能力。因此，研究如何让人工智能系统具有自我学习和适应能力，也是实现AGI 的必要步骤。

第四，除了这其中主要包括增量学习、迁移学习和领域自适应三个方向外，还有情感理解──能够理解并表达情感，是手机主人最重要的特征。AGI在交流协作中甚至常常影响事件的下一步走向，当前不少生成式对话系统的工作，将关注点集中在提升生成语句的语言质量，忽略了对人类情感的理解。第五是超级计算能力。实现AGI需要庞大的计算资源和超级计算能力。从不同角度出发为提升这一能力，英文或中文ChatGPT采取多种方法不断推进，它只是像一辆汽车，主人不断升级油箱的容量、提高燃料的效率，以实现更远的行程。

丁磊教授的《生成式人工智能》一书中，提到一个词“transform”，是“转换”的意思；英文或中文ChatGPT与“转换”密切相关。智能中文聊天手机成为深度学习最亮眼的“转换”目标之一，即就是它们的“转换器”的意思。为啥智能中文聊天手机技术模型要叫“转换器”？其实这也正是“转换”的核心，也就是“转换”能实现的功能。

类似拓扑学几何中，球面与环面不同伦一样有区别，可以区分为球面序列与环面序列，如果也类似称为“拓扑序”，那么人工智能拓扑序，从序列到序列，其谓“序列”，指的其实是文本数据、语音数据、视频数据等一系列具有连续关系的数据。

在人工智能拓扑序的序列到序列模型中，只要能编码成序列，输入和输出的可以是任何形式的内容。而序列编码形式非常广泛，人们日常做的大部分工作，都可以编码成序列，因此智能中文聊天手机这种模型可以解决很多问题。即智能中文聊天手机在序列到序列模型基础上有两大提升：是采用多头注意力机制，和引入位置编码机制，能够识别更复杂的语言情况，从而能够处理更为复杂的任务。

在智能中文聊天手机“转换”模型中，能输出或生成的内容更加广泛，包括文本、图像、语音、视频以及更广义的内容。如可以生成报告、策划方案、代码以及程序等，是生成式AI通用型的模型，可以生成任何主人需要的内容。目前国内外的机器人大厂，都在基于“转换”技术推出自己的模型，而且“转换”模型底层是开源的，每个主人都可以利用“转换”技术，然后就是看谁可以设计出更加精巧的模型结构。即主人首先能改变模型结构，其次主人有没有更多更好的数据去训练模型，第三如何去训练一个类似中英文ChatGPT的模型？

这三点首先要有一个类似人类大脑的框架在那里，也就是模型的结构；其次是训练模型的数据，第三是训练的方法。这三点决定了主能训练出什么样的模型。这也叫深度，即是指模型在某一领域解决问题的能力更强，比如解决数学问题的能力更突出，或者在具体行业应用中，能把某一行业的问题解决的更专业，这就叫模型更深。如果一个AGI模型只是够大，并不能解决相应的业务问题，或者是只能解决部分问题，给不出完全正确的解决方案，在很多情况下就会失去用处。因此AGI除了关注参数规模之外，还要看重模型的深度。

大部分的中小企业，并不会去参与中英文ChatGPT大模型的竞赛，相反会基于开源的大模型去研发，甚至中英文ChatGPT也都支持在线的训练和迭代。即这些中小企业会利用一些开源的AGI大模型，或者在线可以训练迭代的大模型，去解决业务场景来构建相应的“深模型”。当然这也是大部分中小企业，应该走的路。

2）中文聊天手机的端到端优化之争

智能中文聊天手机“转换”涉及生成了“非常准确的摘要”，这只有接受针对它们主人的训练后，才“有可能生成这些摘要”。

智能中文聊天手机，正是通过大量的文本数据进行训练的，而且它的主人一般不会透露用于训练的具体数据。但中英文ChatGPT的训练，生产厂家和使用单位，通常是通过抓取网络数据进行的，包括使用存档的图书和维基百科的数据。大数学家丘成桐院士给出坚定的回答：“人工智能不会代替人类思维”──目前人工智能无法识别几何背后的定律，更无法识别数学与其他科学之间的关联。

美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沉向洋教授也表示赞同：人工“智能”并不清晰，碰到挑战，很大可能是没有找到正确的数学工具和方法。沉向洋教授提到，比尔•盖茨直到2022年8月份，用英文ChatGPT大模型，做60道数学题，其中59道都对了，才相信英文ChatGPT的“智能”这件事真发生了。

但沉向洋教授说：有了这样的成功，也不代表接下来马上会继续不断地成功。走智能中文聊天手机这种需要有组织的科研的道路，把10多亿中国人组织起来，各方的配合，只有社会主义的中国能办到，其他任何国家都是困难的。这也指，利用AGI技术来辅助科学研究，发现自然科学的新规律，解决复杂的科学问题。

AGI技术已经在物理、化学、生物、医学等领域，取得了一些令人瞩目的成果。人工智能AGI技术，主要包括机器学习、深度学习、强化学习、神经符号系统等。数据驱动这类技术，都是通过从大量的数据中学习模式和规律，而不是依赖于预先设定的规则或假设。

这也使得智能中文聊天手机能够适应复杂多变的环境，捕捉细微的信号，发现潜在的联系。即数据驱动这类技术，都是通过从大量的数据中学习模式和规律，而不是依赖于预先设定的规则或假设。智能中文聊天手机10多亿部发行，类似分布式表示。这也是一种“超大量技术”，即是通过多层次、多维度、多模态，类似神经网络，在表示数据和知识，而不是像中英文ChatGPT使用传统的符号逻辑或数学公式。这使得智能中文聊天手机能够表达丰富多样的语义和概念，处理不确定性和模糊性，实现泛化和迁移。

王德奎 · 发表于: 2023-8-1 21:33:46