马斯克称上周完成预训练的 V7 基础模型具备原生多模态能力,该模型可直接处理视频、音频比特流,无需转换为其他形式就能理解,比如最终能捕捉人们说话时传递情绪和强调意味的细微差别。