过去很多年,我们在数据应用方面只是做一些漂亮的统计报表,没有深入挖掘数据的内在价值。大部分数据一直沉睡在云端服务器上,没有转化为企业真正的资产。日前,在第四届创业创新数字经济生态论坛上,此论坛由上海复旦大学校友会创业创新俱乐部主办。复旦大学计算机科学技术学院的教授肖仰华,他同时是博导且为上海市数据科学重点实验室主任。在主题演讲过程中,他直言,当下,数据价值变现面临着诸多挑战。
复旦大学计算机科学技术学院的教授肖仰华,他是博导,同时也是上海市数据科学重点实验室的主任。
肖仰华觉得,这类现象产生的困境有着多层原因。目前阶段,数据管理处于多主体的状况,像今天或许在生产者那里,明天或许在采集者那里,接着还会流转到加工者、使用者、运营者手中。这种多主体的状态,让数据的确权以及数据安全是否能够可控面临着较高的要求。
此外,数据运行的环境与生态变得极为复杂。肖仰华指出,数据运行的形态存在多种情况。数据既可能在传统数据库中运行,也可能在关系数据库中运行,还可能在云数据库中运行;同时,数据可能存在于文件里,甚至有可能成为大模型的语料。
随着数据管理的复杂性与多样性不断增加,肖仰华表示,对于企业而言,发展统一且标准化的数据管理以及操作方法,也提出了新的需求。在数据价值实现变现的层面上,怎样去唤醒那些“沉睡的数据”呢?怎样去盘活那些“沉睡的数据”呢?
肖仰华觉得,在人工智能时代,大模型或许能够成为激活沉睡数据资产的重要工具,大模型有助于把数据转变为商业价值。
肖仰华称,大模型被各行各业积极拥抱的原因在于它极大地简化了传统的商业变现流程。如今甲方只需提前提供数据,大模型便能自动从数据中学习到领域知识以支撑下游应用,进而形成商业价值,无需再与资产方进行复杂的沟通。这种端到端的方式给商业应用带来了极大的便利。
此外,在多模态数据的统一价值变现方面,以前收集到的数据库服务器所存储的数据格式多样,有文本格式的,有图像格式的,还有语音或表格格式的。不过现在,只要把这些数据统一转换成序列数据,就能够利用大模型进行训练,进而实现统一的数据价值变现方式。
大模型在数据库的智能化运维方面发挥了重要作用。传统数据库应用系统运营需大量人力和资金投入,而大模型的自动化运维能力能显著提升运维效率,还能解放人力资源。
大模型为释放企业和各类行业数据价值带来了全新机遇,不过,它仍面临诸多挑战。
肖仰华认为,目前的通用大模型存在一些挑战。其一,这类模型以聊天或开放性任务为主,存在“幻觉”现象,专业知识不足,专业思维能力也较弱。其二,大模型在可控性和编辑能力方面较弱,无法像传统数据库那样精准地进行删除或更新操作,这在行业应用中构成了较大的挑战。
在私域数据和专业数据的理解上,大模型也有待提升。不同行业的数据有两个基本特点。其一,专业性很强,像工业传感器数据,倘若没有专业背景知识,就很难理解其数据背后的含义。其二,私域数据的表达具有自身的独特性,比如在不同的数据库中,对“性别”的编码可能完全不一样(像 0 代表男,1 代表女),这类私域数据编码,通用大模型能否直接理解,是大模型在行业落地时需要解决的关键问题。
肖仰华在演讲中提到,企业利用大模型进行数据处理与价值变现相关工作时,要关注成本问题。因为大模型的运行有成本,所以通常会采用大模型蒸馏小模型的方式来降低成本。大模型主要在关键场合使用,或者在小模型以及人工难以处理的复杂场景中发挥作用,这样就能优化整体方案的成本。
我们相信,大模型和人工智能技术能够提供助力。在这样的助力下,数据价值将会很快被激活。并且是被彻底激活。肖仰华如是说。