如何将视频转录为文字

更新于 2026 年 4 月 12 日

摘要

Doc2Lang 可以将视频和音频文件(包括 MP4、MOV、MP3、WAV 等)转录为带时间轴的字幕文件。无论是视频片段、播客节目还是录制的采访,Doc2Lang 都能自动将语音转换为文字,同时保留原始语言。这使得查看对话、创建字幕和准备翻译内容变得轻松简单。


本指南将以 Blender Studio 的《Sprite Fright》示例片段为例,带您了解如何使用 Doc2Lang 的转录功能将视频或音频文件转换为文字。

1

打开转录页面

前往 Doc2Lang Transcribe 开始新的转录任务。

您会看到一个上传区域,可以添加音频或视频文件进行转录。支持的格式包括:

  • 音频: MP3、WAV、M4A、FLAC
  • 视频: MP4、MOV、MKV、WebM 等
Doc2Lang 转录上传页面,带有音频和视频文件的拖放区域

上传音频或视频文件以开始转录。

2

上传您的音频或视频文件

点击上传区域或将文件拖放到框中。

没有文件大小限制,但较大的文件上传时间会更长。例如,100MB 的文件通常需要 1-2 分钟上传。选择文件后,Doc2Lang 会上传并准备进行转录。

Doc2Lang 上传视频文件时的进度弹窗

Doc2Lang 在转录开始前上传所选文件。

3

等待转录预览加载

上传完成后,Doc2Lang 会打开转录预览页面并开始处理您的媒体文件。

处理时间取决于文件长度和音频复杂度。大致参考:10 分钟的视频通常需要 1-2 分钟处理。较长的文件或有多个说话者的文件可能需要更多时间。

字幕内容仍在处理中的 Doc2Lang 视频转录预览页面

字幕内容生成期间会显示转录预览页面。

4

查看生成的字幕

处理完成后,您可以预览视频并逐行查看生成的字幕。

Doc2Lang 自动提取口语对话并将每个字幕片段与时间戳对齐。这使您可以轻松地:

  • 跟随视频播放查看转录内容
  • 检查每个字幕块的准确性
  • 在导出前发现并纠正识别错误的词语

免费预览: 免费预览显示文件前 60 秒的字幕。这让您在处理完整文件之前可以检查转录质量。

在此示例中,字幕从 Blender Studio 的《Sprite Fright》中提取,并显示在播放预览旁边。

Doc2Lang 字幕预览,在视频播放器旁边显示带时间轴的字幕行

每行字幕都与时间轴对齐。免费预览覆盖前 60 秒。

5

解锁完整转录

如果您对预览质量满意,点击「转录整个文件」来处理剩余的媒体内容。您会看到一个购买对话框,提供两种付款方式:

Doc2Lang 购买对话框,显示积分支付和直接支付选项

选择积分支付或直接支付。

选项 1:用积分支付(推荐)

点击「用积分支付」使用您的账户余额。这是最具性价比的选项,特别是如果您计划转录多个文件——积分的每次转录费用低于一次性付款,您可以随时从侧边栏的积分页面充值。

如果积分不足,系统会提示您在继续之前购买更多积分。

选项 2:直接支付

更喜欢一次性付款?点击「直接支付」,无需使用积分即可支付此次转录费用。您将被引导到安全的结账页面完成付款。

Doc2Lang 直接支付的 Stripe 安全结账页面

付款通过 Stripe 的安全结账处理。

安全支付: 所有付款均由全球最受信赖的支付提供商之一 Stripe 处理。Doc2Lang 绝不会查看或存储您的卡片信息——Stripe 处理一切,您的支付信息受银行级加密和 PCI-DSS 合规保护。

付款确认后,Doc2Lang 会处理整个文件并解锁完整的转录内容。

6

下载字幕文件

当您对结果满意时,点击下载按钮导出字幕文件。

Doc2Lang 目前以 SRT 格式导出字幕,适用于大多数视频播放器和编辑器(VLC、Premiere Pro、Final Cut Pro、DaVinci Resolve 等)。

即将推出: VTT(用于网页视频和 HTML5 播放器)和 TXT(无时间戳的纯文本)格式支持即将推出。

7

转录后可以做什么

转录完成后,您的带时间轴字幕文件可用于:

  • 创建原始语言的字幕
  • 查看口语对话,生成会议或采访笔记
  • 准备翻译成其他语言的源文本
  • 在视频编辑器中编辑字幕时间
  • 将视频或音频内容转换为可搜索的文本

与纯文本转录不同,带时间轴的字幕在视频工作流程中更容易复用。

8

获得更好转录效果的技巧

一些简单的做法可以显著提高转录准确性:

  • 使用清晰的语音。 录音清晰、声音质量好的文件能产生最佳效果。
  • 减少背景噪音。 尽可能减少音乐、重叠的声音和环境噪音。
  • 推荐使用单声道音频,采样率 16kHz 或更高 (适用于以语音为主的内容)。
  • 注意多人说话的场景。 多人同时说话时准确性可能会下降。
  • 检查名称和专业术语。 品牌名称、技术术语和专有名词是最常见的错误来源——导出前请检查。

常见问题

这个工具会将字幕翻译成其他语言吗?

不会——此页面专注于转录,字幕保持原始语言。

如果您想将视频字幕翻译成其他语言,可以使用 Doc2Lang 的视频翻译字幕翻译功能。

除了视频文件,还能上传音频文件吗?

可以。您可以上传 MP3、WAV、M4A、FLAC 等音频格式,以及 MP4、MOV、MKV、WebM 等视频格式。

Doc2Lang 生成什么样的输出?

Doc2Lang 目前生成 SRT 格式的带时间轴字幕文件,可在大多数字幕和视频编辑工作流程中查看、编辑和复用。VTT 和纯 TXT 输出支持计划在未来版本中推出。

为什么时间对齐很有用?

因为每行字幕都与时间戳匹配,转录内容易于查看、编辑,并可直接导入视频编辑器或播放器——无需手动同步。

我可以上传任何视频进行转录吗?

您可以上传任何有权使用的视频。本教程使用 Blender Studio 的《Sprite Fright》片段,该片段以知识共享许可证免费提供。处理第三方内容时,请确保在上传前获得版权持有人的许可。

转录一个文件需要多少费用?

免费预览(前 60 秒)始终免费,让您在付费前检查质量。要转录完整文件,您可以选择用积分支付(多个文件时最划算)或直接支付一次性转录费用。确切价格取决于文件长度,在确认前会显示在购买对话框中。

在 Doc2Lang 上支付安全吗?

安全。所有付款由全球数百万企业信赖的支付提供商 Stripe 处理。您的卡片信息永远不会存储在 Doc2Lang 的服务器上——Stripe 以银行级加密直接处理一切,完全符合 PCI-DSS 标准。

为什么有 60 秒的预览限制?

预览让您在提交完整转录之前,验证特定文件的转录质量——音频清晰度、说话者口音、背景噪音。这样,只有在您确信输出满足需求时才需要付费。

本指南展示了什么?

此示例使用 Blender Studio 的《Sprite Fright》示例片段来演示如何从视频文件中提取字幕。您可以下载相同的片段自行尝试——请参阅下方的版权信息。


示例视频:《Sprite Fright》© Blender Foundation | studio.blender.org | 以 CC BY 4.0 许可证授权

准备好转录您的视频了吗?

上传您的视频或音频文件,几分钟内即可获得带时间轴的字幕。