当前位置 > 优阅达大数据生态首页 > 活动回顾 > 产品方案 > 北极九章

DataGPT 升级发布会 | 主题演讲:可信的 AI 数据分析师

11月24日,北极九章 Aurora Day 暨 DataGPT 升级发布会在线上举办。

北极九章创始人兼 CEO 刘沂鑫发表主题演讲,分享“可信的 AI 数据分析师”。

👉 点击进入 DataGPT 免费试用通道



以下基于演讲内容整理,enjoy:


一年前 OpenAI 发布了 ChatGPT,这一年以来我们一直有焦虑,我们看到未来技术发展的不确定性:大语言模型已经可以如此好地生成文字,那它未来会是什么样子?

其实这个焦虑的核心是边界的不确定,到底有什么事情是大语言模型能做或者不能做的。当我们跟很多超级企业的 CIO 或数字化转型负责人交流的时候,我们发现,这不只是我们的困惑,而是整个行业大家共同的一个问题:

当我们不确定发展非常快的 AI 能力,我们到底能怎么样去使用它,我们怎么样在企业里应用这些看起来非常激动人心的产品。


我们发现,个人应用和大型、超大型企业应用之间,有个巨大的区别,即,超大型企业的核心考虑在于“可信的 AI”。

大语言模型最大的优势来源于它会说胡话、会自我发挥。但是,大企业需要准确,不能在一些场合乱说、不能向我的数据消费者提供不准确的内容。

当新的 AI 到来的时候,我们之前控制的安全发生了变化,我们需要重新研究解决怎么能控制大语言模型,通过安全的输入和输出,确定大语言模型生成的文字是没有被篡改过的。

另一个问题是可控。一方面,大模型的输出怎么样可以变成输出的可控;另一方面是成本可控。

我们的一个客户引入大语言模型分了两个方案:

  • 一个方案成本大概 400 万有个大语言模型,再花 500 万去把这个约 30 亿训练数据的模型变得符合企业的需求;

  • 另外一个方案是一个成本500万的模型,再花 300 万调参。模型越大成本越高,大语言模型的成本是非常高昂的。

另外,当我们在企业本地化部署了一个成本非常高昂的语言模型的时候,我们怎么样可以应用起来,让它更准确、更安全,以及让它更可控的在企业的各个方面的应用。


▎大模型如何赋能全员数据分析?

北极九章作为一家数据分析软件公司,我们一直在思考,当一项新的技术出来后,我们怎么样可以让全员都更好地自助分析数据。

当企业已经在数据的基础设施上投入了大量的资金和资源,我们如何更好地利用这些资源?

现在,企业里很多 BI 工具并用不起来,业务人员只能看一些规定好的看板,并不能灵活地使用它分析。未来,当我们有了大语言模型的时候,我们怎么样去应用它?

这些不只是国内企业的关切,也是 OpenAI 遇到的问题。

OpenAI 的 CEO Sam Altman 曾说到,世界 500 强企业找到 Sam,他们也会关心这些问题。包括 OpenAI 怎么保证企业自有数据的安全,怎么在企业里面更好地部署和使用。

以及,引入大模型不仅是 CIO 或者是 CTO 的工作,当 CEO 牵头过后,企业上上下下如何配合,一起应用这个如此领先的模型。

解决这些问题的核心在于,我们到底怎么理解大模型?发现它的边界,有助于让我们更好地理解并与之配合。

  • 概率型产品

我想跟大家先介绍一个概念,美国著名风投机构 a16z 提出,大语言模型是一个“概率型产品”。简言之,我们每一次不指望概率型产品输出的内容是一致的。

例如抖音,每一次我向下滑视频的时候,我们不会知道下一条视频是什么,又如电商,我并不知道它会给我推荐什么样的产品供我选择。同理,ChatGPT 让我们觉得如此之好用、如此像人,是因为我每一次得到的输出是不一样的。

对概率型产品来说,它的输出越多变、越不可确定越好。跟概率型产品相反的就是一些需要准确输出的产品,比如数据分析,或者税务。

  • 指数型投入

一直以来用线性的规律看待科技的发展,比如摩尔定律,每 24 个月 CPU 的算力翻一翻。但是,在大语言模型上,这个定律变成指数型的增长。今年 OpenAI 训练一个大语言模型的成本是一亿美金,明年,我们会看到十亿美金训练的模型。

当科技公司对于大语言模型的投入开始指数级增长的时候,我们会看到一个完全不一样的世界。比如大模型未来会装在每一个手机当中,可能会有更大的模型理解更多的事情。

在企业运用场景上,大模型还是会碰到瓶颈。当前,我们很多企业只是把大模型应用在传统 NLP 技术解决的问题,例如智能客服、自助问答,它只是比传统 NLP 做得更好。

最重要的是,大模型部署到企业当中,可以理解企业的经营知识。它可以知道企业在什么情况下,做出了什么样的经营决策。

基于此,还有什么场景,能够让大模型如此庞大的投入发挥价值?


▎我们如何理解大模型?

我们认识到大模型的边界过后,再去想一想,在数据分析领域大模型擅长什么和不擅长什么。

  • 首先,大模型不擅长一致性。如刚才所说,它是一个概率模型,很难产生一致性强的结果。当我问一个数据问题,它可能两次给我的是不一样的结论。

  • 其次,大模型不擅长企业级的可信分析。我们的很多客户反馈,大模型在绝大多数企业生成代码最多只有 70% 到 80% 的正确率。这意味着我每 50 次分析就有 10 次是错误的,并且我不知道哪 10 次是错误的。

所以,在国际上的实践中,大模型也是更多地是帮助有一定数据分析能力的人把 SQL 更好地写出来。

大模型擅长语文的归纳和总结,甚至超过人的能力。


▎可信的AI数据分析师:数据分析如何结合大模型

我们认为,数据分析与大模型的有效结合是“可信的 AI 数据分析师”。

  • 第一,我们需要复刻一个分析师的能力。我们通过 AI 来模拟人类分析师的思维,怎么一步步得出数据结论。

  • 第二,我们通过自己的算法,生产可控的企业级内容。

  • 第三,和大语言模型结合,解释数据、提出行动建议,帮助那些并不是非常了解如何应用数据的业务用户,更好地去理解和应用数据。

当大语言模型出现的时候,未来已经发生了改变。未来,有了 DataGPT 的辅助,每个业务用户都可以轻松地分析数据、理解数据、做出数据驱动的决策。


视频信息

语言 :中文

时长 :13分钟

完成注册,可观看完整视频

只需 15 秒便可填完,如果您已注册,请

填写您的个人信息吧~

为您的账户设置一个密码吧~