回顾过去一年,ChatGPT在人工智能研发领域的亮眼表现,尤其是其撰写代码的能力,让人震撼。尽管ChatGPT大多数都用在自然语言处理,但其在音乐创作上的尝试也显示出了一定的潜力。然而,真正让人工智能在音乐领域大放异彩的是2024年涌现出的大量实际生成音乐的系统,如Suno、Udio等,这些AIGC模型从最初的粗制滥造发展到如今已经在一些范围内达到了完美。
正如一个多世纪前照相技术的诞生对绘画领域造成了冲击,当下人们对AI的“抗拒”实则是对新变革的传统反应。然而,美术作品依然保持着其无法替代的价值,摄影作品也已开辟了独特的艺术领域。将此视角转向当前AI生成音乐与人工创作音乐的竞争,能预见,未来AI生成音乐或将同样开辟出一条崭新的道路。
在创作与生产层面,AI作曲家可以依据用户偏好创作个性化音乐,极大地丰富了音乐多样性,同时AI技术也使音乐制作更加高效精细,实现了艺术与技术的完美融合。在传播与消费方面,智能算法精准推荐音乐内容,增强了音乐的传播力与影响力,智能化的消费体验也让音乐更加触手可及。
在2024年中国数字音乐产业大会上,“人工智能赋能数字音乐产业创新发展论坛”成功举办,本次分论坛由中国传媒大学音乐与录音艺术学院主办,中国传媒大学音乐与录音艺术学院教授、音乐传播教研室主任李小莹担任主持人。
“然而,面对技术的双刃剑,我们也需要审慎前行,保护音乐创作者的权利,维护创作生态的健康发展,确保AI音乐创作符合伦理规范,促进文化多样性和智能化浪潮中坚守音乐人的文化精神与艺术价值,是我们共同的责任与使命。”李小莹在分论坛开场时表示,大家共同探索音乐产业转型升级的新路径与新模式,坚信通过共同努力,数字音乐产业将在数字时代绽放更耀眼光芒,让音乐成为连接心灵、传承文化的桥梁。
实际上,众多音乐行业从业者已开始与AI和谐共存,他们清晰界定了AI的角色,视其为辅助创作的得力工具,显著提升了工作效率。在此基础上,他们不断探索并扩展AI的界限,对其功能与训练提出更高要求,旨在让AI真正成为推动行业发展的强大动力。面对AI不可阻挡地融入音乐行业的现状,如何将AI转变为一种积极有益的存在,成为一个值得深思的问题。
“人工智能技术在音乐创作、制作、分发和消费等领域的广泛应用,不仅极大地丰富了音乐的形式与内容,还为音乐产业带来了新的商业模式和增长点。从人工智能作曲、智能编曲到虚拟歌手、音乐推荐系统,这些新兴应用展示了AI的巨大潜力。” 中国传媒大学音乐与录音艺术学院院长付龙教授表示,随着5G、大数据、云计算等技术的快速发展,正推动数字音乐平台向智能化、个性化、社交化方向演进,为用户提供更丰富的音乐体验。
然而,在享受人工智能带来的便利的同时,行业也面临着版权保护、数据安全、伦理道德等一系列新问题。从初级的人工智能作曲到如今大火的Suno程序,人工智能在音乐创作上的能力不断颠覆人们的认知,付龙提出了一系列的问题,譬如,如何在保护创作者权益的同时促进音乐作品的广泛传播?如何在确保数据安全的前提下实现音乐产业的数字化转型?如何在尊重艺术、创作规律的基础上发挥人工智能的创新潜力?这些难题都需要行业共同面对和解决。
中央音乐学院音乐人工智能与音乐信息科技系教师、青年作曲家巩子晗回应道,从技术方面分析,人工智能系统已经学会了抓住动机发展音乐这样一种专业作曲手段,使得生成的音乐更加统一和成熟。人工智能还能根据古文等不同类型的输入生成音乐,显示出其强大的适应性和创造力。
“Suno在把握材料、风格统一,的配置方面基本正确,因素结合较为到位,段落过于套路化,反而是它的弱点,从来不遵循任何套路,都是作曲家自由的发挥。”巩子晗在现场播放了一段人工智能生成的纯音乐作品,这段音乐中,增音程的进行方式被巧妙地运用,使得音乐效果独特且引人入胜。
巩子晗在现场又展示了另一次有趣的尝试——用古文来测试音乐人工智能。在播放了根据古文生成的音乐后,大家发现这段音乐具有很强的套路感,从轻柔的伴奏开始,逐渐加入低音和鼓点,与ChatGPT的生成方式类似。然而,中文的念白在这段音乐中显得不太自然,这主要是因为人工智能的数据库中英文内容更多,中文内容相对较少。这一尝试不仅展示了人工智能的多样性,也揭示了其在处理不同语言和文化背景时可能面临的挑战。
人工智能生成的音乐也存在一些问题,如段落过于套路化等,在处理中文等特定语言时仍存在一定的局限性。巩子晗总结道,虽然人工智能会取代相当一部分艺术工作的从业人员,但完全取代人类尚需要时间,不必害怕人工智能,而是应该将其融入到专业创作中。
王斌来自世界超高清视频产业联盟(UWA),担任产业研究总监。据了解,UWA由央视总台、华为、腾讯、爱奇艺、优酷等知名企业及终端厂家共同组建,旨在推动超高清视频产业的做大做强,联盟涵盖国际与国内会员,致力于创新标准的制定,特别是在音频领域,如三维声Audio Vivid,以提升用户的沉浸感和真实还原度。
“超高清产业的五个纬度中,音频是其中重要一环,但目前在产业体验上相对落后于视频技术。”王斌表示,从石器时代,大家敲石头发出声音,到现在已经进入三维声时代,在声音技术的发展历程中,三维声相较于传统声音,提供了位置、方向和距离等动态信息,为艺术创作者提供了更多表现纬度。
通过在现场播放三维声的简单DEMO,王斌展示了三维声的空间感、临场感和现场感。三维声标准体系的框架包括编码、解码和渲染等技术纬度,支持通用全码率和无损编码,并强调原数据的重要性,以真实还原声音的位置、空间、距离和方向信息。
腾讯音乐娱乐集团推荐算法总监黄昕探讨了音频表征大模型在音乐推荐系统中的应用,特别是在AI和大模型时代背景下,如何融合生成式大模型与传统的推荐判别式模型,以优化用户体验和音乐人的分发效果。
在现场,黄昕回顾了推荐系统的技术迭代发展历程,指出传统方法(如基于用户协同和深度学习)在描述和理解歌曲时,过度依赖用户交互行为,导致新歌曲和中长尾优质歌曲被低估。因此提出了利用音乐的音频表征大模型来提取特征,以更全面地理解音乐和用户偏好。
黄昕介绍了音频表征模型的构建方法,包括监督/半监督方案、无监督方案(对比学习和自编码)以及跨模态方案,并详细解释了自编码方案的原理,即通过token化音频并使用transformer结构进行表征提取,再通过随机掩码和encoder还原的方式训练模型。
如何将音频表征与推荐系统有效结合?黄昕表示,由于音频特征和用户行为空间的不对齐,直接将音频特征输入推荐模型可能导致性能下降。因此,技术团队提出了在通用音频表征基座模型基础上,通过PPO和DPO等方法进行微调,以对齐用户反馈空间。两种微调方法——歌曲与歌曲的对比学习和用户到歌曲的交互微调,并发现用户到歌曲的交互微调效果最佳。
“有了音频表征之后,我们会去构造更多的特征输入到我们的推荐模型里面,帮助我们去提升推荐模型的性能。特别是对于一些新歌中长尾的歌曲,它的理解能力大大加强了,很自然地帮我们提升了这部分歌曲的分发量,并且同时给我们带来了一些用户体验的正向的帮助。”黄昕表示,无论是歌曲的整体播放时长还是收藏量都提升了一个点以上,在这个基础上,一些新歌的中长尾歌曲数据也提升了10%以上。
幕后圈作为一家为音乐人提供服务的公司,十年来积累了丰富的经验和资源,逐渐将业务拓展至音乐教育领域。幕后圈创始人李泳彬在论坛上分享了《2024年中国音乐产业发展报告》的数据,指出虽然整体规模有所增长,但数字音乐的增长并未达到预期,且与美国等发达国家相比,仍有较大差距。特别是在音乐演出、音乐版权以及数字音乐规模等方面,中国仍有很大的提升空间。
中国的音乐教育培训成为音乐产业中最大的细分市场,规模达1616亿,占整体规模的三分之一。乐器市场出现下滑,尤其是传统乐器下跌幅度较大(超过50%),而智能乐器则上涨40%以上,反映出消费者偏好的转变和音乐教育方式的革新。在李泳彬看来,中国音乐教育市场规模超过美国,但乐器销售下滑、版权收入不高、音乐人平均收入低(仅为世界同等收入的9%)以及人均音乐消费低(仅为世界平均水平的0.9%)等问题凸显。
李泳彬回顾个人在英国读研究生的亲身经历,对比了欧美和中国的音乐教育现状,他发现欧美在2000年之前就已经开始音乐创编的普及教育,而中国在这方面仍显滞后,“中国的琴童3000万人,但90%都在小学毕业之后放弃了。”
国家将“音乐创编”正式提到艺术课标里,这意味着音乐产业和音乐教育正式开始衔接的过程,当小朋友从一年级开始就要学音乐创编,这可以帮助他们尽早与流行音乐接轨,与音乐产业接轨。李泳彬表示,AI音乐教育作为门槛更低、更有趣味性的教育方式,将成为未来音乐教育的重要方向,有望推动音乐产业的结构优化和发展。
浙江音乐学院教授、数字音乐智能处理技术文旅部重点实验室主任谢秉元分享了交互音乐的多维媒介探索以及与人工智能结合的发展趋势。
所谓交互音乐,即用户或环境能够实时影响或控制音乐的表现和生成,这种双向的互动体验打破了传统音乐聆听的单向模式,为用户提供了更多的参与度和创造性。交互音乐的实现方式,包括实时生成、感应装置和互动软件等关键要素。这些技术支撑了交互音乐的多样性和灵活性,使得用户能够通过身体动作、声音输入等多种方式与音乐进行互动。
谢秉元在现场重点介绍了三种交互方式:物理交互、文本交互和沉浸式交互。物理交互通过身体、动作等物理方式与设备或系统交流,文本交互则通过输入文字或符号来控制音乐的生成和表现,而沉浸式交互则利用虚拟现实技术搭建特定空间内的三维音效环境与系统交互,为用户提供身临其境的体验。
在现场,通过展示学生作品和实验室项目,谢秉元帮助大家看到了交互音乐在实际应用中的丰富多样性和创新性。譬如,名为《绿洲》的学生作品里面就用了很多类型的传感器,比如触摸传感器,包括超声波测距等多种传感器,跟植物进行互动然后产生视听和视觉效果,体验人类与自然的和谐共生。
谢秉元在现场还介绍了实验室与浙江大学合作的一项由国家文化重大工程支持的数字化项目,通过虚拟现实引擎与游戏声音引擎的双轮驱动,构建了一个沉浸式的音画空间。作品时长12分钟,分为五幕,每一幕都通过精心设计的视觉效果、声音效果以及物理特效,项目的核心在于其技术创新与多维度感官体验的结合,利用32台4K投影仪实现高分辨率的视觉呈现,结合空间成像技术,为观众讲述了一个引人入胜的故事。
传统影视配乐工作面临着音乐库规模庞大、信息不对称、选取效率低下以及主观理解差异等挑战。为了克服这些难题,音乐行业引入了元数据系统,通过为每首曲目设定关键词或标签集合,提高了音乐检索的效率。雅量音乐文化公司副总经理李文松在现场讲解了AI技术在数字音乐平台中的应用,特别是在解决传统影视作品配乐工作中的作用。
李文松表示,元数据系统仍存在局限性,如主观理解差异、音乐专业词汇掌握程度不一以及关键词设定偏差等问题。李文松表示,为了进一步优化背景音乐选取的工作流程,行业内提出了由专业音乐编辑配合影视制作用户进行音乐推荐的方案。尽管这种方式在一定程度上提高了选取效率和准确性,但仍存在沟通理解偏差和表达差异等挑战。
随着人工智能技术的崛起,这些问题迎来了新的解决方案。AI技术能够理解自然语言描述,按照每个用户的需求和描述在音乐库中快速筛选出符合要求的曲目,大大提高了选取的效率和准确性,同时减少了沟通中的误解和反复调整的时间成本。此外,AI技术还能够通过分析图片中的视觉元素来推荐合适的背景音乐,特别适用于那些难以用言语准确描述的场景。
李文松在现场借助视频演示直观地呈现了如何通过自然语言描述以及图片分析来选取背景音乐的创新方法。
AI如何通过自然语言描述进行背景音乐的选取?用户只需在搜索框内直接输入对目标音乐的想法和需求,AI技术便能理解这些描述,并在庞大的音乐库中迅速筛选出符合要求的曲目。
AI如何通过对图片的理解来选取背景音乐?用户可以通过上传视频截图或相关参考图片,AI会分析图像中的视觉元素,如色彩、构图、主题等,并根据这些信息推荐与图片情感和氛围相匹配的背景音乐。李文松表示,目前正在对这两项技术进行测试和改进,将为用户更好的提供更加准确、高效的背景音乐选取体验。
生成式AI改变了制作音乐的方式,无论是用文字对话还是图片输入,都可以制作歌曲。创作的门槛降低使得越来越多的人参与到音乐之中,每天都有十几万首新歌涌现出来。人工智能的飞速发展对音乐行业的多方面多维度都产生了大大小小的冲击,同时也带来全新的可能性与挑战。
腾讯音乐研究院秘书长王优酉认为,AI音乐对行业的最大影响是可能会把行业撕裂为两个分行业:一个是原来的音乐,一个是产生音乐的工业机制。“大家如果去故宫看皇帝的龙袍,那个是非常精美的工艺品,我们看到商场里卖的东西就是工艺品。这是两个产业。”
看见音乐联合创始人邹小曼提到了AI音乐出现的积极之处。生成式AI应用的本质是生产工具的变革,然而,生产工具随着技术发展一直处在变革的进程中,创作量的变化并不是AI出现才有改变。生产关系也随之发生了改变——只要能有创作热情,做出音乐作品,任何人都可以成为音乐人。
邹小曼则从实际应用的角度阐述了AI的价值。她表示,AI的出现有效提升了音乐内容资产管理、歌曲审核入库以及版税结算机制的效率,与看见音乐成立时追求的“效率”高度一致。AI解放了生产力,使人力可以投入到更具创造性的工作中去。
人工智能音乐的出现伴随着不可忽视的忧患。出人意料的是,最令人担心的不是作品的质量,而是作品的数量爆炸增长,在这种情况下,能否沿用原来的价值判断、艺术判断和美学判断都有待商榷。
就AI和创作人之间的关系,科大讯飞研究院副院长、讯飞音乐首席科学家江源进行了更进一步的探讨,他认为AI需要和创作人做深度的绑定和深入的互动,走端到端的路线。随着语义大模型的不断进化,AI与创作人之间能够形成更有效的合作模式,例如对话、渐进式的评判甚至是围绕创作的思路命题进行讨论,AI可以成为一个创作助理、创作制作人或引导者的角色。“AI工具并不是危险的,相反,若是运用得当,它也可以成为一把创作利器。”
尽管生成式AI在音乐制作层面对各级别的音乐人都产生了冲击,但我们也应看到其带来的机遇。江源对生成式AI的未来创新趋势持乐观态度。他认为,AI的生产力比人高出十倍百倍,短期缺陷也很明显,AI没有温暖人心的力量,“如果通过AI广阔的想象空间,去提升AI作品的实验性和先锋性,也许可以打破眼下模仿抄袭、随大流的局面。”
新鼎博成音乐有限公司董事长丁博表示,“我个人觉得在这个阶段AI对音乐产业的冲击比大家想象的还严重,只不过没有表现出来,在孕育很强的势能。”生成式AI音乐“没有灵魂”的缺点时常为人诟病,然而处在当下信息化时代的洪流中,多数网络热歌也存在着这种“没有灵魂”的问题,目前看来,这样的作品越堆越多,问题也就越来越大。
那么,音乐的价值来自哪儿?如丁博所言,源自音乐人对世界的独特见解、情感的抒发以及价值观的传递。它不仅是技术与艺术的结合,更是情感与情感的桥梁。然而,当AI遇上数字音乐,如何在追求流量的同时保持音乐的情感与初心,成为了一个亟待解决的问题。若是丢弃了音乐的情感,不能回归初心,AI在音乐制作的其他技术层面又有着超越性的创作效率,产出的作品就会真正“失去高光”。
对于未来AI音乐平台是否会取代现有音乐平台的问题,丁博分析道,这并非一个简单的替代关系,而是行业结构随着技术和社会进步所做的适应性调整。在反垄断政策的指引下,平台放弃了独家版权合作模式,转而发展艺人经纪业务,以此作为适应行业变化的一种策略。这一转变表明,现在音乐平台也正在积极调整自身业务模式,以应对AI技术带来的挑战。
中国传媒大学作曲系冯金硕教授则深入剖析了生成式AI对作曲人或音乐制作人的冲击,将这一群体分为初、中、高三个层次。对于初级作曲人或新入行的学生而言,AI的兴起无疑是一个巨大的挑战,它改变了传统音乐创作的基础,从音乐理论转向了以提示词为起点的创作模式,大大降低了创作门槛,但同时使得正在学习乐理、和声、配器等高难度知识的学生感到困惑和挫败。
对于中级层次的音乐人,如职业作曲家,AI的影响虽然相对较小,但也带来了新的挑战。尽管AI在音乐创作上展现出了一定的能力,但在处理复杂音乐结构时仍显不足。然而,AI的普及使得音乐图文化程度加深,给音乐人带来了新的难题,如“洗稿”问题,即利用AI生成与已有音乐相似但又不构成侵权的新作品。
至于高级作曲家,他们目前受到AI的影响较小。这是因为他们不仅具备出色的音乐才华,还擅长调控人心,掌握音乐的情绪与人类的情感。然而,随着AI技术的不断进步,特别是大模型对人类心理和情感的探测与掌控能力的增强,未来AI可能会对高级作曲家也产生较大的影响。
从培养产业人才出发,作曲家无可避免会受到AI的冲击,但音乐创作这个行业始终会存在,如何与AI共同发展,在不得已要换新赛道的时候,能够继续掌握主动权,去建设新赛道,而不是被迫兼容,这很重要。冯金硕感叹道:“中国传媒大学从去年开始也在转型,从课程的建设到人才培养上,各个学科都在拥抱AI,为迎接更大的人工智能时代做好准备。”
8月1日,欧盟的《人工智能法案》真正开始实行,体现了欧盟对AI的态度。江源和邹小曼则强调了版权保护的重要性。他们认为,在AI浪潮下,对数字音乐的版权保护需要以国家立法为基石,在行业规范层面上做高层次的指导,去规范具体的行为。同时,他们也表达了对现有版权保护机制的担忧,认为AI生成的音乐使得抄袭、洗稿的判定更加困难。
最后,丁博呼吁大家将技术的发展用在行业的进步上,而不是冲击创作者。他强调,通过AI和区块链技术来公开、公平、公正地统计音乐数据,远比简单地利用这些技术制作大量歌曲来得更直接、更明显、更快速。只有这样,音乐行业才能在AI的助力下更好地发展下去。
总的来说,面对洗稿抄袭难以界定、大量作品爆发式增长冲击创作者群体、音乐人才教育培训体系发生变化以及AI冲击现在的音乐流媒体商业模式等。这些都是AI带来的问题,为了音乐产业的健康发展,与会嘉宾们纷纷呼吁在技术上采取实际行动,洗稿,保护版权。
AI平台是否会替代或迫使现有音乐平台转型?这个疑问目前看来也并非易事。重点是AI为核心的数字平台能否形成明确且有效的商业变现模式。只有当AI平台能够在商业上展现出足够的吸引力和可行性时,才可能对传统音乐平台构成实质性的挑战。
然而,无论是学界还是业界的分享,我们大家可以看到,尽管AI工具和技术目前应用在创作、音乐分发、曲库管理以及音频体验等方面起到了及其重要的作用,但在应用层面尚未得到足够多的探索和展示,商业变现模式也仍在摸索中。