简单介绍一下作者从视频生成文章的思路,还是有些可以学习借鉴的地方,主要是能生成插图和从视频中提取代码。
1. 输入YouTube视频地址后,下载视频
2. 基于视频需要分别处理文本和视频帧
2.1 音频处理成文本
2.1.1 使用Whisper从音频获取带有时间戳的文本
2.1.2 将文本合并
2.2 视频帧处理
2.2.1 对视频抽帧并上传到服务器获取到可以访问的图片URL(GPT-4V需要用到)
2.2.2 对视频帧的图片提取信息(借助GPT-4V)
2.2.3 根据提取的图片信息决定是否使用该图片到正文,或者要使用截图中的文本信息(例如代码块)
3. 根据时间戳信息将图片的信息、文本和插图混合在一起
4. 生成带有Markdown的文章信息(需要长上下文的GPT-4)
5. 生成目录(不需要LLM,很多现成代码可以从Markdown生成目录)
最终成品可以看:https://t.co/BvzEJtqRwJ
图片并茂效果还是挺不错的,另外很多人肯定关心2小时的视频生成这么一篇文章成本多少?
答案是$4-6美元,比我预想的便宜一点,因为如果抽帧比较频繁的话应该要花费不少。
另外生成这么长的文章,估计要用到32K的GPT-4。
作者没有开源,但是根据上面的流程自己实现一个也不复杂,关键还是抽帧和从视频帧提取信息那部分需要做好平衡。
点击图片查看原图
点击图片查看原图