机器之心专栏
机器之心编辑部
近期,字节跳动发布全球最大的古典钢琴数据集 GiantMIDI-Piano,包括来自 2,784 位作曲家 10,854 首作品的 MIDI 文件,总时长为 1,237 小时。研究者为完成该数据集的构建,开发并开源了一套高精度钢琴转谱系统。
钢琴转谱是一项将钢琴录音转为音乐符号(如 MIDI 格式)的任务。在人工智能领域,钢琴转谱被类比于音乐领域的语音识别任务。然而长期以来,在计算机音乐领域一直缺少一个大规模的钢琴 MIDI 数据集。
近期,字节跳动发布了全球最大的古典钢琴数据集 GiantMIDI-Piano [1]。在数据规模上,数据集不同曲目的总时长是谷歌 MAESTRO 数据集的 14 倍。
论文地址:https://arxiv.org/abs/2010.07061
项目地址:https://github.com/bytedance/GiantMIDI-Piano
字节跳动研究科学家表示:「GiantMIDI-Piano 将所有古典钢琴作品转录成 MIDI 格式,并向全世界开放,此举旨在推动音乐科技和计算机音乐学的发展」。
GiantMIDI-Piano 的用途包括但不限于:音乐信息检索、自动作曲、智能音乐创作、计算音乐学等。下图展示了 GiantMIDI-Piano 中前 100 位不同作曲家的曲目数量分布:
GiantMIDI-Piano 的特点是使用钢琴转谱技术,通过计算机将音频文件自动转为 MIDI 文件,并通过该技术转谱了大规模的 MIDI 数据集。
研究者首先从开放的国际音乐数字图书馆 IMSLP 获取了18,067位作曲家的143,701首作品名信息,并通过 YouTube 搜索到60,724个音频。然后,研究者设计了基于音频卷积神经网络(CNN)的钢琴独奏检测算法,筛选出来自 2,786 位作曲家的 10,854 部钢琴作品。最后,研究者开发并开源了一套高精度钢琴转谱系统(High-resolution Piano Transcription with Pedals by Regressing Precise Onsets and Offsets Times)[2],将所有音频转谱成 MIDI 文件,进而构建了 GiantMIDI-Piano 数据库。
数据集特点
GiantMIDI-Piano 数据集具备以下特点:
包含来自 2,784 位作曲家 10,854 首作品的 MIDI 文件。
包含 34,504,873 个音符。
所有的曲目都是不同的,MIDI 文件的总时长为 1,237 小时。
由高精度转谱系统转谱音频而成。转谱的 MIDI 文件包括音符的起始时间、力度和踏板信息。
GiantMIDI-Piano 的转谱相对错误率为 0.094,在 Maestro 钢琴数据集上的转谱 F1 值为 96.72%。
所有 MIDI 文件都有统一的格式,文件名格式为「姓_名_曲目名_youtubeID.mid」。
包含作曲家国籍和出生年份信息。
数据集大小为 193 Mb。
使用许可为 CC BY 4.0。
钢琴转谱
钢琴转谱是一项十分具有挑战性的任务,原因之一在于钢琴是复音乐器,存在多个钢琴按键同时被按下的情况,不同音的组合方式多达上万种。针对此任务,字节跳动开源了一套高精度钢琴转谱系统 [2]:
论文地址:https://arxiv.org/abs/2010.01815
项目地址:https://github.com/bytedance/piano_transcription
该转谱系统的特点包括:
能够将任意声部数目、任意复杂度,甚至双钢琴、多钢琴的钢琴音频转谱为 MIDI 文件。
实现了任意时间精度的音符检测,突破了之前算法 32 毫秒识别精度的限制。
对每个音符实现了 128 个粒度的力度识别。
同时包含了钢琴音符和钢琴踏板的识别。
在 MAESTRO 评测数据集上取得 96.72% 的 F1 值,超越了 Google 系统的 94.80%。
预训练模型的代码以 Apache 2.0 协议开源。
在钢琴中,琴键的触发(onset)、抬起(offset)、按下的状态(frame)和力度(velocity)是钢琴发声的重要因素。字节跳动研究者提出了一种通过预测触发、抬起绝对时间进行钢琴转谱的方法。在训练中,网络的训练标签不再是二值 0 或 1,而是和绝对时间有关的连续值 g(△),以此实现任意精度的钢琴转谱:
训练的标签能够表示毫秒级别的触发和抬起偏移:
研究者搭建了基于深层神经网络的转谱模型。一段音频波形首先被转换成对数梅尔谱图(Log mel spectrogram)作为输入特征。卷积循环神经网络被用作声学模型,分别预测触发、抬起、按下的状态和力度。每个声学模型包含 8 个卷积层用来提取高层抽象特征,2 个双向循环神经网络层(GRU)用来学习音频的长时依赖性。每个声学模型的输出都是 0 到 1 之间的连续值。
模型训练完毕后,在推断阶段,研究者提出了一种计算绝对触发和抬起时间的算法,可预测任意时间精度的音符触发和抬起:
转谱结果
00:00/00:00倍速
下图显示了郎朗演奏《爱之梦》片段的音频对数梅尔谱图、音符转谱结果和踏板转谱结果:
此外,研究者使用一款名为雅马哈 Disklavier 的自动演奏钢琴播放转谱的 MIDI,重构了伟大钢琴家们的历史演出。业内人士分析,这项工作无疑是令人振奋的,字节跳动可能会将这项技术应用于后疫情时代的线上音乐直播、智能音乐创作中。
示例参见:
自动演奏钢琴重构李云迪《钟》:https://www.bilibili.com/video/BV1JD4y1d7Pn
自动演奏钢琴重构古尔德 1981 年《哥德堡变奏曲》:https://www.bilibili.com/video/BV1M541177x4
参考文献:
[1] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." arXiv preprint arXiv:2010.01815 (2020).
[2] Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, and Yuxuan Wang. "High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times." arXiv preprint arXiv:2010.01815 (2020).
代码&数据集:
https://github.com/bytedance/piano_transcription
https://github.com/bytedance/GiantMIDI-Piano
- HE
- 变量
- IN
- in
- 转换
- 游戏
- 功能
- 文字
- 警方
- he
- 文件
- 修改
- me
- 系列
- 视频
- 大全
- 模式
- 硬件
- 求生
- 钥匙
- 还有
- 居然
- 而且
- 英雄
- Be
- id
- And
- 直播
- 我们
- 技术
- 脚本
- 操作
- 录制
- 点击
- 模拟
- 分数
- 作弊
- 测试
- 画面
- 过程
- 一下
- 对面
- 前期
- 能力
- 技能
- 民警
- 网站
- 发现
- 钢琴
- ID
- 数据
- 音乐
- 金币
- 下载
- 玩了
- 什么
- 也不
- 服务
- 市场
- 越南
- 火线
- 穿越
- 赌博
- 网络
- 机器人
- 人员
- 武器
- 这个
- 皮肤
- 交易
- 方法
- 购买
- 第三方
- 平台
- 开发
- 诈骗
- 民族
- 资产
- 扶贫
- 解冻
- 订单
- 信息
- 系统
- 角色
- 记得
- 上校
- 好友
- 信号
- 异常
- 突破
- 新浪
- 枪战
- 助手
- 培训
- 企业
- 课程
- 有限公司
- 可以
- 不会
- 任何
- 内存
- 高频
- 经验
- 颜色
- 设置
- 常用
- 精英
- 装备
- 套装
- 属性
- 效果
- 屏幕
- 地铁
- 奔跑
- 茅台
- 集团
- 贵州
- 上市
- 经销商
- We
- 来说
- 性能
- 配置
- 好评
- 填报
- 志愿
- 机构
- 官方
- 大哥
- 拳头
- 大厂
- 代理
- 制作
- 工作
- 里面
- 火柴
- 以及
- 这里
- 团团
- 透视
- 辅助
- 关注
- 航海
- 也会
- 只有
- 地图
- 非常
- 未成年人
- 疫情
- 风险
- 成都市
- 成都
- 雷达
- 显示
- 手机
- 打开
- 怎么
- 被告
- 原告
- 律师
- 证据
- 电话
- 公司
- 中的
- 时空
- 战场
- 奖励
- 蚕豆
- 免费
- 一个
- 银行
- 记者
- 沉迷
- 攻击
- 动作
- 战斗
- 不过
- 永久
- 领取
- 活动
- 兑换
- 建造
- 智能
- 铁路
- 先生
- 公安局
- 教程
- 现在
- 受害者
- 伤害
- 挑战
- 世界
- 一次
- 深海
- 敌方
- 信任
- 需要
- 蚂蚁
- 它们
- 动物
- 犯罪
- 程序
- 9月
- com
- http
- 修复
- 更新
- 生化
- 罗马
- 周边
- 定制
- 救世主
- 人机
- 小时
- 专用
- 一千
- 蔷薇
- 这一
- 麒麟
- 速度
- 增加
- 敌人
- 厨房
- 空间
- 真的
- 声音
- 安全
- 获取
- 非法
- 抓获
- 怪物
- 获得
- 就是
- 大家
- 经典
- 可能
- 一种
- 分辨率
- 稳定
- 适应
- 这位
- 帝国
- 重返
- 航线
- 键盘
- 机械
- 产品
- 个人
- 买卖
- 中文
- 最新
- 论坛
- 回复
- 没钱
- 幸好
- 你的
- 通信
- 创新
- 区域
- 响应
- 对手
- 还是
- 它的
- 机枪
- 子弹
- 人称
- 联盟
- and
- 道歉
- 租借
- 隐患
- 消费者
- 录音
- 方案
- 减肥
- 科技
- 模型
- 窃取
- 作品
- 小说
- 描写
- 删节
- 所有
- 周年
- 邀请
- 恢复
- 创作
- 艺术
- 版画
- 语言
- 基地
- 北极
- 节日
- 小区
- 没有
- 居民
- 喇叭
- 等级
- 12月
- 收入
- 部落
- 儿童
- 适龄
- 招生
- 学校
- 学位
- 职称
- 贵州省
- 证书
- 查询
- 价格
- 作用
- 软件
- 售价
- 电脑
- 用户
- 她的
- 自己
- 这种
- 幽灵
- 发育
- 容量
- 大城市
- 问题
- 同时
- 娱乐
- 商报
- 北京
- 那些
- 因为
- 地下
- 很多
- 销售
- 僵尸
- 无尽
- 四项
- 国际
- 方式
- 甚至
- 进行
- 样本
- 钩子
- 抽奖
- 福利
- 咱们
- 瞄准
- 扫射
- 所以
- 体验
- 其实
- 竞争
- 不正当
- 责任
- 感染
- 落实
- 组合
- 掌握
- 爆裂
- 神圣
- 裂缝
- 工具
- 虚拟
- 厂商
- 寒潮
- 气温
- 天气
- 开始
- 直接
- 接触
- 拍摄
- 更加
- 逍遥
- 转为
- 预测
- 面板
- 许多
- 使用
- 空格
- 规则
- 儿子
- 互助
- 治疗
- 招聘
- 聘用
- 油耗
- 年轻人
- 城市
- 有着
- 搭载
- 版本
- 之后
- 晴空
- 人生
- 接口
- 电源
- 技艺
- 位置
- 冰雪
- 职业
- 传奇
- 战机
- 航空
- 中国
- 精神
- 宠儿
- 比赛
- 决赛
- 单机
- 对于
- 2月
- 梦境
- 副本