site stats
LEGO:一个由字节跳动和复旦大学研发的多模态理解和图像定位模型。LEGO能够处理和理解多种类型的输入,支持图像、音频和视频输入,并对这些信息进行分析和理解。模型还具备精准定位的能力。例如在图像中标识出物体的具体位置,在视频中指出特定事件发生的时间点,在音频中识别出特定声音的来源。…
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多