作者:何晓宇
近几个月以来,美国人工智能(AI)实验室OpenAI 发布的聊天机器人ChatGPT火爆全网,并带动了相关概念股的上涨。除了资本市场的热炒外,IT领域头部企业也纷纷跟进。各互联网巨头也透露了相关项目的布局和进展。
近年来,人工智能技术的进步迅速,特别是在Natural Language Generation(自然语言生成)领域取得了巨大进步。与此同时,人工智能在内容生成、写作、翻译等多个领域的应用也越来越广泛。AIGC(人工智能生成内容)就是人工智能在内容生成领域的重要应用之一。AIGC可以帮助用户快速生成大量内容,包括文本、图片、视频等多种形式。AIGC的兴起,改变了传统内容生产方式,推动内容生产效率的提高同时也带来了新的安全和法律风险。
AI布局初现雏形
在算力方面,短期而言,中国AIGC发展的核心问题不仅仅是研发和人才的差距,在硬件上还面临美国的进口限制,导致构成算力的高功率芯片供给不足,这反向抑制了国内研发能力的提高。
在数据方面,首先,数据规模和质量将在垂直领域遇到“天花板”。目前在数据保护及数据本地化的大背景下,数据孤岛的趋势越来越明显,要做到共享行业数据进行AI模型训练有一定困难。其次,AIGC的数据采集方式可能存在合规风险。最后,对于AIGC当下的担忧还包括如何保护其收集的海量数据的隐私问题。
ChatGPT的爆火,直接影响的是大语言模型赛道的竞争格局。在此之前,国内厂商在NLP技术上已颇有建树,但ChatGPT的出现显然为国内厂商注入了加速剂。正如百度总裁李彦宏在百度推出的大语言模型文心一言产品发布会上所说,文心一言的推出是因为“市场需要”,而非技术已做到真正的“完美”。
大语言模型方面,目前市场上主要关注百度推出的“文心一言”及阿里推出的“通义千问”大模型,经测试,二者均未达到海外GPT-4的文本理解程度,甚至与ChatGPT背后的GPT-3.5都仍有些微差距。但如果将训练出大语言模型的效率计入考虑范围的话,国产大语言模型的未来表现仍值得期待。
大语言模型的训练过程,需要算力、数据,和算法的三重支撑,而这显然是只有“头部玩家”们才可以烧得起的竞赛。对于大多数应用层玩家来说,基于某一大语言模型进行商业化落地的探索,才丰隆银行本次的溢价转股行为是目前的重中之重。
未来的创业方向应该是寻找ChatGPT无法解决的问题,并通过技术手段对抗AIGC,从而开拓出新的市场空间。例如,可以考虑开发一些可以识别和防范AIGC威胁的技术产品,或者利用人工智能技术来支持社会治理和政府智能化决策等等。
当然,要想成功地跟AIGC对抗,并不是一件容易的事情。需要创业者们具备深厚的技术实力、敏锐的市场洞察力和持续的创新能力。同时,还需要有更多的行业合作和政府政策的支持,才能真正开拓出新的市场空间。
在未来,随着人工智能技术的不断发展,对抗AIGC的需求也将越来越高。因此,如果创业者们能够紧抓机遇,不断创新,寻找新的市场空间,就有可能在这个领域取得成功。
应该加强对人工智能治理的监管,使其服务于社会公众,而非成为少数人垄断权力的工具。因此,政府和科技企业应该共同努力,制定出更加完善的人工智能治理制度,保障人工智能技术的发展既不会损害个人利益和隐私,也会为社会带来更大的贡献。
个人信息保护与数据的法律基线
在AIGC产品中,用户对话的过程就是被收集信息的过程,可能存在个人信息泄露、提供虚假信息等隐患。
我们知道网络安全法中的实名制是指发布信息阶段的实名认证,也就是说如果只是单纯的浏览模式,原则上是不需要用户实名的。用户开始使用AIGC时是否需要实名认证,这是一个需要讨论的问题,如果用户没有实名制的话,AIGC并不会直接或间接的识别这个特定的人,很可能不存在个人信息保护的问题;但如果有实名认证,用户提供的信息就可能构成个人信息,AIGC产品提供者应按照个人信息保护法遵守个人信息保护义务。
作为生成式人工智能产品的基础,数据的重要性不言而喻。但如何合理设定数据的法律基线,仍有待进一步研究。
首先,要研究数据质量和数据合法性的矛盾。为了尽可能提升生成式人工智能产品的能力,胜任各种自然语言处理任务,其必须“识遍天下字,读尽人间书”,如果将合法性作为数据的前提,提供者在海量的数据面前,为了避免承担法律责任,必然采取“宁可错杀,不可放过”的原则,不但导致大幅限制输入的数据源,还损害了数据的客观性、多样性。
其次,要研究数据训练和信息生成的矛盾。从风险预防和监管目标看,生成式人工智能产品的风险集中在信息生成阶段,在底层算法的作用下,开始训练的数据和最后信息的生成内容并不是一一映射的关系,其中间经过了预测、分类、聚类、关联等复杂的变换,因此,训练数据的合法性并非信息生成合法性的必要条件。
最后,要研究责任承担者涉及的矛盾。按照征求意见稿,AIGC服务提供者须对预训练数据承担合法性义务,但实践中,大量提供服务的主体并非生成式人工智能技术的开发者,其事实上并不参与数据的预训练和优化。从自己责任的原理出发,这里的责任主体应限定在生成式人工智能技术的开发者为宜。
AIGC技术层面就是要用用户的输入内容作为训练语料对算法进行优化的,因此很难避免使用A用户的输入信息来回答B用户的问题。而用户画像的情况,如果是用户同意应该也允许画像,一方面画像是很多AI提供个性化服务的前提,另一方面画像也是后续在AI中进行广告、推荐等商业盈利的必要措施。
作者简介: 政信投资集团首席经济学家、中国证监会首批成员、资深证券金融专家,著有《财富之争》、《互联网金融逻辑》、《个人理财》、《证券投资学》等多部金融作品,主编《新共赢生态》、《新时代金矿》、《政信金融业教程》《政信行业概论和实务》,在金融证券领域具有深厚的理论造诣和丰富的实践经验。