山海大模型发布:11年的积累,云知声如何翻越“山海”

通向大模型彼岸的方法不止一种,正如爱因斯坦在1905年就推导出质能转换公式,但中国制造原子弹的“596工程”就不是完全照搬美国的“曼哈顿工程”。

作者丨史林

编辑丨董子博

2022年,刚刚试用了ChatGPT,黄伟的第一感觉是懵的。

和不少 AI 行业的同行一样,看到已经有人把大模型做到了如此程度,黄伟有些惆怅:“就如同一个打了很多年马蹄铁的匠人,第一次见到汽车时的震撼——之前的优势和积累,在这一次技术变革面前几乎全部归零。”

自创立云知声,已有十年光景匆匆过去,这十年里苦练的武功,难道一朝就全部失效?

沉浸在这种冲击里,黄伟有差不多一个星期的时间,没缓过劲来。

但很快,这种焦虑,就转化成了一种“亢奋”。在今天,不少人把这个时点称作 AI 的“iPhone Moment”,但在黄伟看来,这样的说法,未免显得“野心太小”。

“十年前,我创业的时候,还没有移动互联网,也没有深度学习,那时我也没有商业化的背景和经验——但今天我的心情,比起十年前更激动。”黄伟这么对AI科技评论表示道。

抱着改变世界的梦想,云知声也很快加入了大模型的追逐战中——做自己的大模型,用技术力量打通更多场景,赋能更多的客户和使用者。

而随着巨头纷纷下场、明星IP抓人眼球,这场战斗对于云知声来说,算不上轻松。

国内的大模型,在今天发展还远未完全;对于创业公司,投资机构也大多谨慎。不少人都说,大模型是大公司的生意,中小公司的机会很可能比较渺茫。

这也让黄伟想到了那句“所爱隔山海,山海皆可平”。5月24日,云知声发布的大模型,名字“山海”就是从中而来。

踏平“山海”,黄伟和云知声在大模型之路上求索,正带着人工智能走向2.0时代。

1

山海大模型

怎样在同类赛道里脱颖而出?

从3月文心一言发布以来,国内已有不下十个大模型产品,先后发布。个个“能文能武”,但表现出来的能力,却相差不多。

对这个趋势,有不少人说,泛化大模型的能力再强,没法落进场景,也就无法产生生产力甚至行业格局的变革。

大模型落不了地,诗写得再好、对联对得再工整,也不过是“自娱自乐”。而云知声对待大模型,不仅要“山海”在这些“基础课”中达到及格,更要让它能够在B端落地生根,产生实际的价值。

而这些能力,不只源于大模型自身的能力。“我觉得现在的云知声可以类比为一座金矿,我们的真实能力和技术水平是隐含在交付的产品以及营收数字背后的。”云知声创始人&CEO黄伟如是说道。

在物联场景下,云知声面向物联网的智能交互芯片,将作为“神经元”把大模型联通起来,给万物互联提供更好的条件。在物联网场景里,任何一个玩家都需要让自己的产品在尽可能多的场景,尽可能多的用户以及尽可能多设备上,以足够低的成本跑起来。

像过去常常被人诟病“人工智障”的智能音箱,用户不能和 AI 产生深层次的交互——一聊天,天就被聊死了。而在生成式 AI 的加持下,无论从体验还是效率上,智能设备都能获得巨大的改善。

同样的情况,不仅音箱,从消费电子到车机,都是山海大模型所覆盖的领域。

在2016年,云知声就开始组建专业团队,自己动手打造智能交互芯片。截止目前,芯片和模组出货量已经超过2000万片,这也给山海大模型搭建了一个足够大的舞台,让大模型能够更充分地发挥云知声在硬件层面上,给物联网提供的互联优势,把过去已有的产品结构打通,甚至是重构。

而在医疗场景中,山海大模型更是轻车熟路。

云知声2016年就进入医疗行业,当时主要利用AI技术,解决病历的语音录入、缺陷检查、医保控费等问题。山海大模型几十亿规模的参数,对比现在的主流产品并不算大,在接入生成式 AI 后,医生对病人的问诊,如最近饮食情况等等,这样的问题就很像对大模型的 prompt 提问,几分钟内问过几个问题后就逐步收敛,通过医患对话提取关键信息,结合专业医学知识后最终生成病历。相比传统问诊,这种方式的效率高得多,也会开拓新的商业模式。

“我们做大模型其实并不是为了PR,也并不是说我们只是为了炫技或者展示自己有这样的能力,”黄伟说道,“公司其实最终还是要靠商业化能力去活着,对吧?所以我们的大模型一定是服务我们这个已有场景里面的一些老客户。”

除了物联和医疗,山海大模型的优势场景还有不少,而这都要得益于云知声“U+X”战略的顶层设计——即以 U(AI架构及全栈技术),深度结合X(行业应用场景),解决行业深层问题。

这也让山海大模型在落地层面上的广度(物联,尽可能多链接场景、用户和设备)和深度(医疗,知识密集型行业),都得到了巨大的提升。

另一方面,在过去的11年里,深耕 To B 的云知声,也积累了大量行业的 Know How,以及核心高质量的训练数据。

先前,云知声挑选的落地场景,大多是医疗、保险等严肃性很高,容错率较低的行业——大模型要在这些行业能生根发芽,就容不得一点闪失,胡说八道的问题解决不了,就没法被行业所认可。

而云知声在过去为这些行业打造的知识图谱,就成为了提升“山海”生成内容正确率的重要保证。

还是以医疗领域举例,在过去,云知声提供的知识图谱可以帮助医生,完成对患者病历的审核;与此同时,公司积累的语音识别技术,也能让用户在一个很嘈杂的环境里(比如人来人往的诊室),完成相当准确的自然语音交互。

“如果把GPT-4比作一个不偏科,每门都能考到80分的学生;我们要做的,则是一个可以在某一两门学科,考到95分甚至更高的学生。”黄伟如是说。

诚然,大模型的发展路径不止一种,目前见到成果的路径,是如GPT采用的一样——更大的模型规模+更多的数据参数,做泛化大模型,再进行行业调优。而黄伟也相信另一种路径的机会——更高质量的数据+规模适当的数据参数,做行业“中模型”。

老话说“博观约取,厚积薄发”,很多人都对看得见的“薄发”津津乐道,却对看不见的“厚积”必要性和重要性置若罔闻。

云知声在AI 2.0时代的办法是两条路子都在走,现在第一条路基本上已经走通,并且效果有目共睹。今年Q3云知声还会发布对标GPT-3.5的“山海2.0”,数据参数也将达到千亿级。

而在Q3,云知声的“中模型”也即将发布,而具体的成果,还要看到产品,再等待市场检验。

2

踏平“山海”

只是“顺水推舟”

黄伟经常对团队讲:“能得到好的结果,一定是你做对了什么。”

不少国内有意做大模型的厂商,都是从12月开始组建团队,用2-3个月训练模型,再用2-3个月完成调优——起跑线相对一致。但云知声的山海大模型,却“抢跑”了。

说山海“抢跑”,是因为云知声早在不少人还没注意到大模型的可能性之前,就已经在为 AI 2.0 时代未雨绸缪。

我们云知声在过去做 AI 技术积累的时候,恰恰都是外部环境不是最好的时机。”回忆过去的发展历程,黄伟如是说道。

近几年国内相当一部分高新科技企业,最终都落入了To B项目制的窠臼:产品跟着甲方需求走,自己毫无话语权;等到甲方的问题解决了,投入也随之降低,企业却在核心技术和通用性解决方案上难有积累,只能再去找下家接方案,形成恶性循环。

然而,云知声看得却更远。成立伊始,公司的英文名字Unisound,就包含了创始人们对于公司发展的期许:

“Sound”是云知声的主要技术——声音、语音;而“Uni”则代表着,公司要用相对统一的技术,去服务不同的行业的普通客户。

此后,“统一技术标准+具体行业场景”,就成为了云知声坚定不移的战略。不被外界纷扰,不被风口诱惑,成为了云知声在路径规划上的坚守。

从“感知”到“认知”的技术转型,尽管已经被普遍认为是必然的趋势,对于不少当时的 AI 公司,是眼前的“苟且”与“诗和远方”之间的进退两难。

先挣到钱,还是先为未来布局,黄伟和云知声选择了后者。做认知智能,是公司技术发展的必选项,率先在医疗行业实现认知智能,成为了云知声在当时的目标。

因此,现在也不难发现,“山海”在医疗场景中积累的种种能力,完全不足为奇,一切都是顺理成章,顺水推舟。

2017年,另一件决定了“山海”命运的大事,是云知声开始筹建属于他们自己的超算中心——Altas。

一年前,AlphaGo 击败一众围棋高手时,深度学习+超算平台的连携思路,也让云知声深受启发,很快展开第二次技术升级,涉足超算中心——一个团队当时还完全陌生的领域。

“能同时调度上千块GPU去完成一个任务的能力,将会是一家AI公司的重要壁垒。”黄伟和云知声的高层如此判断道,但外界大多对他们不抱信心。

决定做超算中心,不仅是公司的新股东,甚至连老股东都在质疑:这笔巨大的投入,如何能让他们见到成效。而当时,对于驱动 AI 的计算能力,大多数人还没看到它的价值。

“当时甚至几个月前,还能听说大机构在市场上卖 A100 显卡。”黄伟回忆道,“但今天一家公司,要从零开始做高性能计算平台,没有两三个月的工夫是搞不定的。”

对技术路径的判断,AI科技评论在和不少 AI 从业者的交流中,都听到过一个相似的概念——“技术直觉”,即基于有限的信息和样本,能够对未来技术路径做出正确规划的能力。

这种直觉越强,就能越早走上正确的技术路径,为未来趋势作准备,也能越少在没有前景的项目上走弯路。

此前曾有投资机构的合伙人考察过云知声,最终却因为种种原因放弃了投资。

巧合的是,云知声有位合作专家与这位合伙人是同学,在得知此事后,意味深长地说:“你的问题,在于你认为云知声只是家语音处理技术公司。

当问到黄伟时,他自谦道,自己并没有很敏锐的“技术直觉”。但是,黄伟却可能是中国 AI 圈子里,最早一批发现 GPU 重要性的创业者。

2011年,在意大利佛罗伦萨,黄伟受邀参加了一次学术会议。在会上,黄伟与微软前首席人工智能科学家邓力,微软研究院前首席研究员、今天腾讯AI Lab副主任俞栋结识,畅谈 AI 在当下的发展。

在交流中,三人都有想法,当时应用比较广泛的统计学习,不过是“绣花”的功夫,研究已经接近了天花板。然而,要做当时还相当冷门的深度学习,则需要有更大算力的支持。

也是受了此二人的影响,第二年,黄伟创业后,第一件事,就是把深度学习作为公司的立根之本;而第二件事,就是买了两块英伟达显卡,来处理深度学习的计算。

在当时,显卡甚至还没有 GPU 这个响当当的名字;而十多年过去,做 AI 的人,谁又离得开 GPU?数年后,云知声力排众议建设超算中心,也算是与这两块显卡一脉相承。

3

结语

事实上,早在2月,云知声就跑通了自研大模型闭环的产品流程——从预训练,到任务对齐、指令增强等等,模型本身也出现了涌现能力。

但黄伟和云知声不想让“山海”以一个半成品的形态面世,总觉得对产品不够满意,便生生地,把发布日从2月拖到了5月底。

“其实,二三月份国内厂商们做出来的 Alpha 版本,大家无论是进度上还是能力上,都相差不多。”黄伟对AI科技评论说道,“这几个月来,真正能够开发布会,而且做现场演示的厂商少之又少了——我们可能听到很多大模型的名字,但真正能看到的其实并不是特别多。”

5月24日,云知声山海大模型暨成果发布会在北京举办,现场实测山海大模型十大核心能力,并发布一系列面向不同行业需求的产品应用。

北京金隅智造工场的发布会现场,台下座无虚席,现场宾客盈门。黄伟站上演讲台时引来一阵欢呼,衣着干练简洁,气质温和,这个打扮走在街上并不起眼,但在此刻却与主人的从容不迫,踌躇满志相得益彰。

发布会现场,围绕山海大模型的十大核心能力,即语言生成、语言理解、知识问答、逻辑推理、代码能力、数学能力、安全合规能力七项通用能力及插件扩展、领域增强、企业定制三项行业落地能力,云知声通过语音输入、实时互动的方式进行讲解演示。

黄伟在台上讲,身后的大屏幕上实时展示山海的语音输入并转换成文字,既展示自身实力,又方便了现场观众。

也是在发布会上,云知声与中建电子、京东科技、360达成战略合作,与各合作伙伴展开深度合作,推动山海大模型在各领域的落地应用,一道迈入AGI时代浪潮。

在这个 AI 技术几乎日新月异、每周都有新技术面世的时代,一定是“几家欢喜几家愁”。

某些技术产品和业务模式,正不可避免地被生成式 AI 淘汰;而对于云知声,AI 大模型给了他们升级已有商业模式的机会,正直面着再一次扩大规模的重要机会。

山海大模型的发布,对于云知声来说,并不是终点,而是公司迈向 AI 2.0时代重要的起点。至于“山海”这个名字,“山”是高山仰止,大智知止,象征大模型符合社会与人类的道德和价值观。“海”是海纳百川,有容乃大,象征对人类庞大知识体系的理解与总结,也象征着AI的无限可能性。

此外,“山海”也代表着云知声的坚持,所爱隔山海,山海皆可平。几个月前外界都说大模型是巨头才能做的,现在大家都看到了山海大模型。

“对于今天的我们,一定是幸福大于烦恼的——而且 AI 在今天的机会,甚至远远大出我在四个月之前的想象。”在说出这句话时,黄伟脸上满是压抑不住的兴奋。