pip install openai-whisper
就能完成安装。安装好之后,还需要下载模型。Whisper 有多种模型可供选择,比如 tiny
、base
、small
、medium
和 large
等。模型越大,识别的准确率越高,但所需的计算资源也越多。如果你的电脑配置一般,base
或 small
模型就比较合适;要是追求高精度,那就选 large
模型。下载模型的命令是 whisper download-model [模型名称]
,比如 whisper download-model base
。ffmpeg -version
来验证是否安装成功。video.mp4
的视频文件,你可以在命令行中输入以下命令来提取音频:ffmpeg -i video.mp4 -vn -acodec copy audio.aac
-i
后面跟着的是输入视频文件的路径,-vn
表示只提取音频,忽略视频流,-acodec copy
表示直接复制音频流,不重新编码,这样可以保持音频的原始质量。输出的音频文件名为 audio.aac
。whisper audio.aac --language [原语言] --task translate --output_format srt --output_dir ./subtitles
--language
后面跟着的是视频中原始语音的语言,比如 zh
表示中文,es
表示西班牙语等。--task translate
表示将语音翻译成英语,--output_format srt
表示输出 SRT 格式的字幕文件,--output_dir
后面跟着的是输出目录的路径,这里设置为当前目录下的 subtitles
文件夹。import whisper
model = whisper.load_model("base")
result = model.transcribe("audio.aac", language="zh", task="translate")
with open("subtitles.srt", "w", encoding="utf-8") as f:
for segment in result["segments"]:
start = segment["start"]
end = segment["end"]
text = segment["text"]
f.write(f"{start:.3f} --> {end:.3f}\n{text}\n\n")
00:00:00,000 --> 00:00:05,000
这是第一句字幕。
medium
或 large
,以获得更高的识别准确率。transcribe
方法时,可以提供一些上下文信息,比如音频的主题、说话者的身份等,这有助于 Whisper 更好地理解语音内容,提高识别准确率。现在做内容创作的,谁还没接触过 AI 工具啊?但问题来了,好多人拿着 AI 写的东西,稍微改改就说是自己原创的。这对我们这些坚持原创的人来说,也太不公平了。所以,怎么准确检测出那些人工处理过的 AI
最近总听到有人说 “现在用 AI 排出来的东西,看着都像一个模子刻出来的”。确实,打开十个公众号文章,八个的封面字体、段落间距甚至配图风格都差不多;刷五个短视频,字幕排版和转场特效几乎能串成连续剧。这
裂变活动的底层逻辑:从流量思维到用户价值驱动 很多人做裂变活动容易陷入一个误区,就是只想着怎么快速把用户拉进来,却忽略了用户的真实需求。就像有些公众号搞活动,送的东西和目标用户根本不搭边,结果吸引来一
🌟 2025 年值得对标学习的几个头部情感故事公众号分析 在互联网内容竞争白热化的当下,情感故事类公众号始终占据着用户心智的重要位置。这类账号通过细腻的叙事和情感共鸣,不仅能留住高粘性用户,还能实现