循环智能AI负责人：“教会”大模型行业知识是当前大模型落地行业的最关键步骤

2023-12-13
演讲与活动

近日，循环智能（Recurrent AI)参加了 AICC 2023人工智能计算大会，并且发表了主题演讲《AI大模型在企业服务场景下的探索与实践》，与现场观众分享了循环智能在大模型企业应用上的最新成果。

与此同时，循环智能AI负责人陈虞君博士受邀出席本次大会的大模型创新主题圆桌论坛，与新智元创始人&CEO杨静、中国科学院自动化研究所研究员张家俊、浪潮信息人工智能软件研发总监吴韶华围绕大模型时代的智算机遇、痛点与破局之道展开了思想碰撞。

与会嘉宾指出，中国大模型发展与应用落地仍处于探索时期，需要在算法、数据、算力三方面进行创新，通过用户反馈和实践创新反哺大模型，进一步夯实基础大模型技术，推动大模型的场景化落地。

以下是圆桌问答实录整理：

杨静（主持人）：百模大战各显神通，头部的玩家结合自己的优势布局大模型，也想请各位分享一下各自的大模型业务布局。

陈虞君（循环智能）：“提升大模型长文本能力，降低幻觉问题”

循环智能基于ToB的服务经验，我们发现企业应用中，长文本的理解能力能够带来巨大的价值。因此，我们研发基础大模型时，非常关注大模型的长文本能力，同时尽可能降低大模型幻觉问题。我们的千循零样本AI平台基于模型超长文本理解能力和低幻觉水平展开业务，希望利用这两个特性产生一些针对企业的更好用的大模型应用。

张家俊（中科院）：“打造多模态大模型，解决实际问题”

我们暂时还没有成立工程实体，业务布局更多的是ToB和ToG。除此之外，我们在做多模态大模型，可以更容易地落地行业场景。我们不强调是大语言模型或者多模通用，而是在实际场景当中解决实际问题，通过我们的探索，确实比以前降本增效了，之前解决不了的问题能够解决了。

吴韶华（浪潮信息）：“筑基基础大模型，助力行业落地”

浪潮信息始终把精力投入在基础模型创新层面，全面的赋能应用层的开发者、元脑生态伙伴去触达最终的用户。我们认为当前在大模型领域，只有先把基础模型能力真正提上去了，大模型在行业应用层面才能真正解决碎片化的问题，才能更好的支撑行业场景的落地。

杨静（主持人）：基础大模型发展的技术突破口是什么？我们应该如何破局，才能创造出高性能的大模型，尽快追赶上GPT4？

陈虞君（循环智能）：“以终为始，加强用户共创，发现模型局限性问题，实现创新突破”

大模型不存在一个确定的突破点，需要根据不同场景具体分析。不同的问题会有不同的临界点，我们需要具体分析，有些问题可能大模型可以直接解决，而有些问题则可能需要长时间的迭代。其次，我们不应只追求如何追赶或者超越GPT4，从构建、训练一个大模型的角度来说，我们更应该去思考怎么样让大模型理解人类的意图，让大模型真正帮助我们完成任务。

我们以终为始去看这个问题，发现当前的大模型在实际应用时会存在很多局限性，比如不能支持长文本、存在幻觉、语义理解输出不稳定，包括GPT4也存在一些局限。这块我们做了两方面努力，一方面，所以我们孵化了一家ToC的公司——Moonshot AI，与所有使用模型的用户进行共创。另一方面，我们也广泛的和我们B端的合作伙伴进行共创，让模型在合作伙伴身上产生价值。我们相信，只有尽可能多的使用模型，才能知道模型的局限点在哪里，才能够有所创新突破。

吴韶华（浪潮信息）：“算法数据双创新，打造内部飞轮”

如果想接近甚至超越GPT4的能力，一定要同时考虑算法和数据。首先是算法，不能一味的使用LIama结构或者Transformer结构，而不做任何创新。其次是数据，OpenAI的数据飞轮效应是非常显著的，他们可以通过各种途径收集非常多的实际用户的真实反馈。在这种情况下，想要接近甚至超过GPT4的核心是创新，尤其是算法和数据两方面的创新。

基于源2.0的实践，为了获取高质量的中文数学数据，我们清洗了从2018年至今约12PB的数据，最后仅得到10GB的中文数学数据。而这不到10GB数据还有很大的质量提升的空间。对此，我们选择用大模型合成数据，构建了内部的数据清洗工具和平台，利用工具快速实现了内部获取非常紧缺的数据、高质量的数据。

张家俊（中科院）：“跟随无法超越，大胆创新、大胆尝试，利用专长能力解决实际问题”

在追赶和超越GPT4的过程中，我们面临着不知道它的算法，不知道用了哪些数据的问题，这使得我们无法跟随和全面验证GPT4，只能在某些数据集上，在某些能力上超越了GPT4，没有一个全面的、公认的度量标准。所以跟随它永远超越不了，我觉得应该是创新。一方面要从数据配比层面创新，另外从模型算法创新，在模型结构上大胆尝试、大胆变化，跟随是解决不了根本问题的。

值得注意的是，我们并不一定需要达到GPT4的能力才能将技术应用于实际场景中，比如我们解决了模态方面的理解问题，解决了可控性，安全性的问题，很多领域都可以用，没有必须达到GPT4的能力。

杨静（主持人）：目前堆算力一直被认为是驱动大模型进化的有效手段，但是算力荒已经成为业界共有的问题，从贵公司的发展状况来看，对于创新基础设施，提升大模型训练效率层面有哪些可以分享的经验？

陈虞君（循环智能）：“用尽可能少的真实的数据实现尽可能好的训练效果”

算力荒现在是普遍存在的问题，OpenAI也会存在算力荒。我们能够做的就是在尽可能少的资源的情况下，能够通过算法、数据上的创新，来应对这一问题。我们可能可以利用尽可能少的真实数据，在算法创新的基础上实现尽可能好的效果，这样就可能可以大幅降低算力成本，将宝贵的算力用到更合适的地方。从算法上来说我们借助非常好的训练方法，让模型尽可能需要少的算力的情况下达到尽可能好的效果。

张家俊（中科院）：“算力是重要因素，但算力荒不会阻碍创新”

算力在训练大模型时确实是一个重要因素，OpenAI使用大算力训练出的模型表现确实优于小算力训练出来的小模型，这是公认的事实。然而，这并不意味着我们必须拥有与OpenAI相当的算力才能进行创新，算力不会阻碍我们的创新。尽管我们可能需要训练更长的时间，比如OpenAI训练两个月的时间我们需要训练半年，但只要我们拥有适当的算法和数据，我们仍然可以实现创新。

吴韶华（浪潮信息）：“大模型结构，分布式训练算法，数据协同优化，降低算力需求”

这个问题的本质在于大模型训练时，大家普遍认为算力越大模型性能越高，但实际上这个观念主要来自于早期的研究，当模型参数量和数据量增大时，模型的精度会有所提升。但这种提升会被折算到算力上，导致形成了算力越大模型性能越高的观念。但现在的大模型训练范式已经发生了变化，引入了指令微调，几千条高质量的数据就可以提升模型能力，所以是否需要在预训练阶段投入大量算力成为了一个问题。

杨静（主持人）：大型预训练模型已经展现出了强大的性能，但在行业中的应用仍然面临一些挑战，如部署、定制化、数据隐私和安全性等问题。那么，大家认为大型预训练模型应如何走向行业并发挥其潜力呢？

陈虞君（循环智能）：“携手合作伙伴、行业专家教授大模型行业知识”

循环智能从2018年开始做商业化落地，一直在思考如何实现AI模型落地行业，所以在推出相关产品的时候，也关注了一些包括银行、保险、汽车、房产等在内的大量行业需求。

今年在使用大模型去解决各个行业问题的时候，我们发现大模型落地一个比较有挑战的点是每个行业都有不一样的专业知识和knowhow，比如法律公司对模型的输出准确性要求非常高，需要模型读懂整篇的法律法规，并且必须一字不差地输出法规内容，同时需要模型记住法律法规对应的章节号；而在房地产营销的场景，会存在很多特殊的地方。例如，我们发现类似于“200的500”这种的行业“黑话”，代表了房子面积是200平米，对应的是500万的价格；而对于金融行业需要理解财报表格信息，这些都是大模型落地行业过程中我们遇到的问题。

所以实现大模型落地行业的最重要的一个步骤，就是和合作伙伴、行业专家一起去教授大模型行业知识。同时，我们也在构建一个合作的形式，能够让尽可能多的合作伙伴加入一起打造大模型，通过大量的客户反馈，发现模型当前存在的问题，找到下阶段的进化方向。

张家俊（中科院）：“放低姿态，用户预期管理，多接触，多耐心”

第一，放低姿态。我们的大模型是让大家拿去直接用的，很多场景下我们要放低自己的姿态。第二，用户预期管理。我们需要给出一个解决问题所需时间的预期，因为不同行业会有各种不同的问题需要解决，我们要避免给客户过高的预期，实事求是地解决问题。第三，多接触。让大家多使用，发现问题、解决问题，从用户反馈的角度会越来越好。第四，多耐心。不管做大模型，还是作为用户，培养大家多耐心，未来肯定越来越好。

吴韶华（浪潮信息）：“大模型共训，赋能开发者触达应用场景”

对于源2.0模型来说，我们推出大模型共训计划，这个计划的核心出发点希望能够让我们的研发团队，能够接触到所有的开发者。开发者提出自己的应用或场景的需求，提供1~2条示例，由我们来准备训练数据并对源大模型进行增强训练，训练后的模型依然在社区开源。同时，我们还有另外一种形式，浪潮信息会赋能合作伙伴，把我们在模型能力上的经验提供给他们，助力伙伴们把这些应用到行业当中。

杨静（主持人）：现如今大家都面临着算力紧缺的问题，大模型训练也离不开充足算力的支持。所以请问各位嘉宾，目前看到或者正在做哪些工作来适应算力多元化的时代趋势的？

陈虞君（循环智能）：“避免算力重复和浪费，集中行业知识合作共训”

大家的训练应该是合作共训的逻辑，不同的行业会有不同的知识，我们应该尽可能地汇聚这些知识，利用有限的算力资源共训，这样就能够达到节省算力的地步，避免大量算力的重复和浪费。

张家俊（中科院）：“不会把鸡蛋放在一个篮子里，走自己的大模型之路”

我们的做法是不会把鸡蛋放在一个篮子里，我们也会用到国内外的各种算力。我们从2020年开始走自己的大模型道路，一直坚持这条路，几乎所有的芯片算力都适配过，这样可以保证我们有能力保留训练大模型的方案。

吴韶华（浪潮信息）：“从系统层面应对算力多元化趋势”

浪潮信息开发了一套框架，利用这套框架里面的一层，可以专门管理各类算力，我们从系统的角度为业界面向多元算力提供一个方案。

欢迎联系循环智能（Recurrent AI）交流探讨，共同解锁AI大模型在toB领域的更多应用场景。

循环智能

AI赋能每一次沟通

循环智能（Recurrent AI）是一家会话智能和私域大模型产品及解决方案提供商，致力于让企业与客户的每一次沟通有更好的成效。循环智能借助领先的自然语言处理、语音识别、机器学习、AI大模型等核心技术开发了销售会话洞察、客户心声分析、智能辅助系统、智能合规质检和智能工牌等产品，在银行、保险、证券、汽车、零售、房产、教育、消费金融、B2B等行业得到广泛应用。循环智能的产品和解决方案致力于赋能一线业务人员、客户洞察、销售过程管理，帮助企业降本增效，获得新增长。

行业之选，有迹可循

■ 日均赋能近百万一线业务人员

■ 日均分析处理超1亿次对话

■ 积累了超过50TB行业文本数据