4)再论生成式AI助力中文聊天手机 未来用生成式人工智能完成整篇论文不是一个好主意──例如学生利用英文或中文ChatGPT写论文、做作业,就会形成一股势不可挡的浪潮。但生成式AI可以承担简单但耗时的任务,来提升科研效率,如编写摘要和生成代码。但它也能再助力中文聊天手机的打造。 中文聊天手机的打造,能否学习中国核工业──从秦山一期起步,经历引进美国、法国、俄罗斯、加拿大核电技术的“万国牌”阶段,并在这一阶段完成了技术消化和产业升级,为国之重器—“华龙一号”的诞生创造了基础,中国民用核技术,也终于实现了从跟跑到领跑“迎头赶上”的历史性跨越。智能中文聊天手机科研、生产能力的消长变化,或许也能证明这样一个道理:科学、产业、文化社会紧密耦合正向循环的“盛世”,并不属于某种特定的意识形态或社会制度。 智能中文聊天手机的内在生命力,蕴藏在发展战略之中──科技发展战略的耗散、磨损与老化,导致产业现象层面外显的诸多现象。而如何塑造与维护良好的发展战略,智能中文聊天手机后发赶超这一发生在当下的工业化奇迹,将为全世界各国提供丰富的解析样本。 对此各抒己见,有人说如果科学,多半只是外语的事,与中文无关,那么智能中文聊天手机,肯定会介入与主人“聊天”的一些内容中的──如果当中文被排斥于最新科技学术前沿之外时,会无形中增加许多中国人学习科技和从事科研的成本;当最好的科学家在谈论前沿研究时,竟连中文都不会使用,好的中文原创科学文本难觅踪影,也就是必然的结果了。英文的互联网巨头,花钱做基础工作,我们的在沉迷于类似“抢菜贩饭碗”,智能中文聊天手机会无动于衷吗?。 英文或中文chatGPT没有那么神奇,需要动脑思考的工作统统替代不了,无脑的工作才能替代。程序员也有动脑的,也有无脑的。智能中文聊天手机哪天普及很难说──国内华为的盘古大模型,都发布几年了,现在也开源给很多企业,让企业根据自己的需要来训练。 基于工业上的应用,也在几个行业上落地。不要一个劲地吹国外的,先做智能中文聊天手机AI芯片,打造成国产的,再说其它,否则所谓的成果,很可能贡献给西方国家。这不是杞人忧天,英文或中文ChatGPT的ToC生成式,其应用有多大前景?长久看跟元宇宙、NFT等等一样,风头很快会过去。但生成式AI结合大模型用于中文聊天手机,解决具体的科学、生产、生活问题却是实实在在的新风口。 华为老早就布局AI底座,比肩谷歌等系统,位列世界前三;华为的盘古大模型,好几年前就发布了,比英文chatGPT早。华为没兴趣做英文ChatGPT类的东西,而是专注工业应用。但像气动设计、气象预报、矿山管理、自动驾驶聊天类的东西,可以基于华为的底座,其他,让如科大讯飞的星火厂家来搞,这才是AI的正确发展方向。 1)中文聊天手机属于通用人工智能 英文或中文chatGPT这种大模型,可以被看做是通用人工智能(AGI)吗?智能中文聊天手机出现,将推动社会产生极具颠覆性的发展吗?因为真正的AGI还需要跨越大语言模型大量训练这种门槛。 基于14亿多说中文人口数量集中于一地和地缘文明连续5000多年不断的检验力量,智能中文聊天手机不仅能够执行AGI技术这种中长期目标的特定任务,而且能够像大量中文主人一样,通盘理解和处理各种不同的信息。由此真正的AGI才能成为具有与人类类似或超越人类智能的计算机程序。所以虽然英文或中文ChatGPT等模型,在自然语言处理方面取得了一些进展,但仍然需要进一步研究和发展,才能逐步向着AGI的方向发展。 有人说,真正实现AGI须满足的要素,有点与“药物双盲实验”要求做一期、二期、三期……类似:首先是跨模态感知,将主人平时接触到的每个信息来源域称为一个模态,这些来源可以是文字、声音、图像、味觉、触觉等等。主人天然具有跨模态感知能力,能够对来自多种感官的信息进行整合和理解。 但当前绝大部分的人工智能系统,只能单独运用其中的一项作为传感器来感知世界,对于不同模态,需要设计不同的专有模型。其次是多任务协作,如给机器人发一条指令,让它帮忙拿一杯茶,它就会进行指令的理解、任务的分解、路线规划、识别物体等一系列动作,现在像英文或中文ChatGPT这种大模型,还不具备多任务协作能力。 第三,除了这种多任务协作的“通用性”,体现不仅能够同时完成多种任务,还能够快速适应与其训练情况不同的新任务外,还有自我学习和适应。智能中文聊天手机的主人具有学习和适应能力,能够通过不断的学习和经验积累来提高自己的能力。因此,研究如何让人工智能系统具有自我学习和适应能力,也是实现AGI 的必要步骤。 第四,除了这其中主要包括增量学习、迁移学习和领域自适应三个方向外,还有情感理解──能够理解并表达情感,是手机主人最重要的特征。AGI在交流协作中甚至常常影响事件的下一步走向,当前不少生成式对话系统的工作,将关注点集中在提升生成语句的语言质量,忽略了对人类情感的理解。第五是超级计算能力。实现AGI需要庞大的计算资源和超级计算能力。从不同角度出发为提升这一能力,英文或中文ChatGPT采取多种方法不断推进,它只是像一辆汽车,主人不断升级油箱的容量、提高燃料的效率,以实现更远的行程。 丁磊教授的《生成式人工智能》一书中,提到一个词“transform”,是“转换”的意思;英文或中文ChatGPT与“转换”密切相关。智能中文聊天手机成为深度学习最亮眼的“转换”目标之一,即就是它们的“转换器”的意思。为啥智能中文聊天手机技术模型要叫“转换器”?其实这也正是“转换”的核心,也就是“转换”能实现的功能。 类似拓扑学几何中,球面与环面不同伦一样有区别,可以区分为球面序列与环面序列,如果也类似称为“拓扑序”,那么人工智能拓扑序,从序列到序列,其谓“序列”,指的其实是文本数据、语音数据、视频数据等一系列具有连续关系的数据。 在人工智能拓扑序的序列到序列模型中,只要能编码成序列,输入和输出的可以是任何形式的内容。而序列编码形式非常广泛,人们日常做的大部分工作,都可以编码成序列,因此智能中文聊天手机这种模型可以解决很多问题。即智能中文聊天手机在序列到序列模型基础上有两大提升:是采用多头注意力机制,和引入位置编码机制,能够识别更复杂的语言情况,从而能够处理更为复杂的任务。 在智能中文聊天手机“转换”模型中,能输出或生成的内容更加广泛,包括文本、图像、语音、视频以及更广义的内容。如可以生成报告、策划方案、代码以及程序等,是生成式AI通用型的模型,可以生成任何主人需要的内容。目前国内外的机器人大厂,都在基于“转换”技术推出自己的模型,而且“转换”模型底层是开源的,每个主人都可以利用“转换”技术,然后就是看谁可以设计出更加精巧的模型结构。即主人首先能改变模型结构,其次主人有没有更多更好的数据去训练模型,第三如何去训练一个类似中英文ChatGPT的模型? 这三点首先要有一个类似人类大脑的框架在那里,也就是模型的结构;其次是训练模型的数据,第三是训练的方法。这三点决定了主能训练出什么样的模型。这也叫深度,即是指模型在某一领域解决问题的能力更强,比如解决数学问题的能力更突出,或者在具体行业应用中,能把某一行业的问题解决的更专业,这就叫模型更深。如果一个AGI模型只是够大,并不能解决相应的业务问题,或者是只能解决部分问题,给不出完全正确的解决方案,在很多情况下就会失去用处。因此AGI除了关注参数规模之外,还要看重模型的深度。 大部分的中小企业,并不会去参与中英文ChatGPT大模型的竞赛,相反会基于开源的大模型去研发,甚至中英文ChatGPT也都支持在线的训练和迭代。即这些中小企业会利用一些开源的AGI大模型,或者在线可以训练迭代的大模型,去解决业务场景来构建相应的“深模型”。当然这也是大部分中小企业,应该走的路。 2)中文聊天手机的端到端优化之争 智能中文聊天手机“转换”涉及生成了“非常准确的摘要”,这只有接受针对它们主人的训练后,才“有可能生成这些摘要”。 智能中文聊天手机,正是通过大量的文本数据进行训练的,而且它的主人一般不会透露用于训练的具体数据。但中英文ChatGPT的训练,生产厂家和使用单位,通常是通过抓取网络数据进行的,包括使用存档的图书和维基百科的数据。大数学家丘成桐院士给出坚定的回答:“人工智能不会代替人类思维”──目前人工智能无法识别几何背后的定律,更无法识别数学与其他科学之间的关联。 美国国家工程院外籍院士、粤港澳大湾区数字经济研究院创院理事长沉向洋教授也表示赞同:人工“智能”并不清晰,碰到挑战,很大可能是没有找到正确的数学工具和方法。沉向洋教授提到,比尔•盖茨直到2022年8月份,用英文ChatGPT大模型,做60道数学题,其中59道都对了,才相信英文ChatGPT的“智能”这件事真发生了。 但沉向洋教授说:有了这样的成功,也不代表接下来马上会继续不断地成功。走智能中文聊天手机这种需要有组织的科研的道路,把10多亿中国人组织起来,各方的配合,只有社会主义的中国能办到,其他任何国家都是困难的。这也指,利用AGI技术来辅助科学研究,发现自然科学的新规律,解决复杂的科学问题。 AGI技术已经在物理、化学、生物、医学等领域,取得了一些令人瞩目的成果。人工智能AGI技术,主要包括机器学习、深度学习、强化学习、神经符号系统等。数据驱动这类技术,都是通过从大量的数据中学习模式和规律,而不是依赖于预先设定的规则或假设。 这也使得智能中文聊天手机能够适应复杂多变的环境,捕捉细微的信号,发现潜在的联系。即 数据驱动这类技术,都是通过从大量的数据中学习模式和规律,而不是依赖于预先设定的规则或假设。智能中文聊天手机10多亿部发行,类似分布式表示。这也是一种“超大量技术”,即是通过多层次、多维度、多模态,类似神经网络,在表示数据和知识,而不是像中英文ChatGPT使用传统的符号逻辑或数学公式。这使得智能中文聊天手机能够表达丰富多样的语义和概念,处理不确定性和模糊性,实现泛化和迁移。
|