三年天工,开箱即用</p> 当愈来愈多的大模型涌入市场,人们似乎也会面临选择困境:怎样的大模型能够快速应用到工作和生活中,并带来切实的好处?
答案也是显然的:在所有玩家正朝着AGI跋涉时,对本土文化、使用场景理解更深的模型,在应用落地上有着天然的优势。
通过模拟面试,人们也能直观地感受到AI是否对业务场景和中文提问有充分的理解能力,进而判断其是否能够成为足够智能的生产力。比如:
“帮我答一个算法题:给你一个升序数组,再给你一个数字x,问你数组里比x大的数中最小的是几?”面试官提问道。
天工的回答是:“好的,根据题目描述,我们需要找到数组中比给定数字 x 大的数中最小的数。我们可以使用二分查找算法来解决这个问题。具体来说,我们可以先将数组从小到大排序,然后从数组的第一个元素开始,每次将当前元素与 x 比较,如果比当前元素大,则更新最小值;如果比当前元素小,则继续查找下一个元素。具体的实现可以使用以下代码:”
“时间复杂度是多少?”面试在继续。
“这个算法的时间复杂度为 O(n),其中 n 是数组的长度。具体来说,算法的时间复杂度主要取决于二分查找的实现方式。如果使用线性搜索的方式来实现二分查找,那么时间复杂度就是 O(n)。但是,如果使用快速排序或堆排序等优化算法来实现二分查找,时间复杂度就会相应地降低。”
化身为算法工程师应聘者的天工,顺利地通过了技术面试。
出色的语言和场景理解能力,得益于天工自诞生起就立足的“AI智能助手”定位。这也让天工往更长的对话和更多轮的交互方向上提升实用性。目前,天工最高能支持1万字以上的文本对话,实现20轮以上的用户交互。此外,针对应用范围广的文案写作和知识问答场景,天工也在持续进行模型迭代与性能提升。
而优秀的中文模型,也需要优秀的中文培育土壤。但中文语料的数量和质量问题,已经成为中文大模型训练的难点之一。OpenAI披露的数据显示,在其训练语料中,作为世界第二大语言的中文仅有5%的占比。
天工研发团队从数十万亿的数据中清洗、筛选出了3万亿个中文单词数据作为训练天工的养料。从实测情况来看,天工对中文的理解堪称“国货之光”。