;

人工智能能通过声学表现认知移情吗?

发布时间: 2024-04-08 11:34




人工智能能通过声学表现认知移情吗?


一项研究表明,人工智能可以从音频片段中识别恐惧、喜悦、愤怒和悲伤。


要点


  • 一项新的同行评审研究表明,人工智能如何检测出与人类表现同等的情绪。

  • 科学家们使用三种不同的人工智能深度学习模型对短音频片段中的情绪进行分类。

  • 人工智能和数据科学的心理学方法显示了机器在认知移情任务中的潜力。


    截屏2024-04-08 11.28.12.png理解和正确识别人类的情绪状态对心理健康提供者来说很重要。人工智能(AI)机器学习能否展示人类的认知移情能力?一项新的同行评审研究表明,人工智能如何从短至1.5秒的音频片段中检测出与人类表现相当的情绪。


    该研究的第一作者、马克斯·普朗克人类发展研究所寿命心理学中心的Hannes Diemerling与德国心理学研究人员Leonie Stresemann、Tina Braun和Timo von Oertzen合作写道:“人声是表达情绪状态的强大渠道,因为它提供了关于发送者处境的普遍可理解的线索,并可以远距离传播。”。


    在人工智能深度学习中,训练数据的质量和数量对算法的性能和准确性至关重要。本研究使用的音频数据来自1500多个独特的音频片段,这些音频片段来自英语和德语开源情感数据库,来源于Ryerson情感语音和歌曲视听数据库,德语录音来自柏林情感语音数据库(Emo DB)。


    研究人员写道:“录音中的情感识别是一个快速发展的领域,对人工智能和人机交互具有重要意义。”。


    为了进行这项研究,研究人员将情绪状态缩小到六类:喜悦、恐惧、中性、愤怒、悲伤和厌恶。录音被整合成1.5秒的片段和各种功能。量化的特征包括音调跟踪、音调幅度、频谱带宽、幅度、相位、MFCC、色度、Tonnetz、频谱对比度、频谱滚降、基频、频谱质心、过零率、均方根、HPSS、频谱平坦度和未修改的音频信号。


    心理声学是声音心理学和人类声音感知科学。音频频率(音高)和振幅(音量)极大地影响了人们对声音的体验。在心理声学中,音高描述了声音的频率,并以赫兹(Hz)和千赫(kHz)为单位进行测量。音高越高,频率就越高。振幅是指声音的响度,以分贝(db)为单位测量。振幅越高,音量就越大。


    频谱带宽(频谱扩展)是高频和低频之间的范围,由频谱质心导出。频谱质心测量音频信号频谱,并且是频谱的质量中心。频谱平坦度测量相对于参考信号的跨频率的能量分布的均匀度。频谱滚降在信号中找到最强的频率范围。


    MFCC,即梅尔频率倒谱系数,是语音处理中广泛使用的特征。


    Chroma,或音高类档案,是分析音乐基调的一种方式,通常是一个八度音阶的十二个半音。


    在音乐理论中,Tonnetz(德语翻译为“音频网络”)是新雷曼理论中和弦之间关系的视觉表现,以现代音乐学创始人之一、德国音乐学家雨果·里曼(1849-1919)的名字命名。


    音频分析的一个常见声学特征是零交叉率(ZCR)。对于音频信号帧,过零率测量信号幅度改变符号并通过X轴的次数。


    在音频制作中,均方根(RMS)测量声音波形随时间的平均响度或功率。


    HPSS,谐波冲击源分离,是一种将音频信号分解为谐波和冲击分量的方法。


    科学家们结合Python、TensorFlow和贝叶斯优化,实现了三种不同的人工智能深度学习模型,用于对短音频片段中的情绪进行分类,然后将结果与人类表现进行对比。评估的人工智能模型包括深度神经网络(DNN)、卷积神经网络(CNN)和组合DNN处理特征与CNN分析频谱图的混合模型。我们的目标是看看哪种型号表现最好。


    研究人员发现,总体而言,人工智能模型情绪分类的准确性超过了偶然性,与人类表现不相上下。在三种人工智能模型中,深度神经网络和混合模型的表现优于卷积神经网络。


    人工智能和数据科学的结合应用于心理学和心理声学特征,说明了机器如何有潜力执行基于语音的认知移情任务,与人类水平的表现相比。


    研究人员总结道:“这项跨学科研究,将心理学和计算机科学联系起来,突出了自动情绪识别及其广泛应用的潜力。”。




jaasqeig_400x400.jpg

Cami Rosso writes about science, technology, innovation, and leadership.

psychology today