想象一下,只需拍摄一个人的照片,几秒钟内就能看到他们说话、做手势,甚至表演——无需录制真正的视频。这就是 字节跳动的 OmniHuman-1最近走红的人工智能模型通过生成高度逼真的视频为静止图像注入了生命,视频中包含同步的唇部动作、全身手势和富有 ...