请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
查看: 8028|回复: 186

硬字幕提取工具6.2 - 超好用

  • TA的每日心情
    开心
    2021-4-1 21:31
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    1

    主题

    107

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    10350
    hx168 发表于 2021-3-3 21:34:09 | 显示全部楼层 |阅读模式
    本帖最后由 hx168 于 2021-4-19 01:25 编辑

    一、 目前为止可行的硬字幕(hardsub)提取方案
    这里只说“可行”的方案,那些不成熟的、按时收费的,用过就删的,不在此列。
    1. 人工手提,用手来提取时间轴和文字。
    优点:
    准确率高(废话)。
    缺点:
    费时费力,不能常做。
    2. esrXP + IdxSubOcr(MODI OCR)
    esrXP提取带时间轴信息的字幕图片,打包成一个idx文件,然后导入IdxSubOcr用MODI ocr识别文字。
    优点:
    用了计算机图像技术判断字幕出现和消失的时间点,从而提取时间轴信息,准确率较高。
    缺点:
    老掉牙的微软MODI ocr识别引擎准确率较低,为了照顾MODI ocr,esrXP需要做较多设置、试验、调整参数的工作,以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说识别率不高、工作量较大。虽然esrXP已经停更多时,但是苦于没有更好的选择,长期以来字幕爱好者只能将就着用。
    3. VideoSubFinder_5.50_x64 + ABBYY FineReader 15
    VideoSubFinder_5.50_x64做类似esrXP的工作(区别是保存每个字幕图片,不打包成一个idx文件),ABBYY FineReader 15做类似IdxSubOcr的工作,将每个jpg字幕图片ocr识别为一个txt文件,然后回到VideoSubFinder_5.50_x64将所有txt文件合成一个srt文件。
    优点:
    跟esrXP类似,采用了更先进复杂的计算机图像技术判断字幕出现和消失的时间点,从而提取时间轴信息,更好的去重算法,更好的分辨率适应,可用性更高(人家叫Finder嘛,从2011年做到现在)。ABBYY FineReader 15除了能ocr中英文,还支持其他语种。
    缺点:
    ABBYY FineReader 15号称地表最强离线文字ocr引擎,虽然比MODI ocr好得多,但在实际使用效果上,对比经过数年AI人工智能训练的云识别引擎(例如百度OCR通用文字识别引擎),识别准确率还是差了一大截。
    4. 硬字幕提取工具6.2
    采用VideoSubFinder_5.50_x64 + 百度搜狗有道讯飞OCR通用文字识别引擎,整合多个工具APP(为什么不好好利用别人的成果呢?),从开始到结束,整个字幕提取流程一气呵成,识别率高、省时省力。


    6.2最新版下载地址:
    提取码:2021
    复制这段内容后打开百度网盘手机App,操作更方便哦

    6.2版本对比6.1版本的提升,包括:
    1、重写了删合窗,增加了动画滚动体验(python用tkinter能做到的极限了),去掉了翻列设置,现在滚动一下步进3列(滚多少列都可能觉得眼花,密集阵无法避免,不喜欢动画可以关闭动画,界面上有开关)。
    2、删合窗,合并操作增加了组间分隔标记(Ctrl+鼠标右键),爱心标记改为鼠标右键双击,更加方便(谢谢@xqyd  提醒
    3、删合动作,程序改为先合,再删,不会因为先删导致本来紧挨的两组合,因为删而可能变成挨在一起,变成一组合(除bug)。
    4、文本输入支持undo(ctrl+z)、redo(ctrl+y)
    5、更新了6.2使用手册
    另:如果界面不正常,请联系我Q726947858,我将跟你一起来调整界面参数(发给你,你截图给我就可以了,来回几次),做出一个在你机器上界面正常的版本。

    2021-04-19更新:
    1、清除一个校对窗删除图片时,如光标在其他文本框中,会连带delete一个字符的bug(谢谢@xqyd 提醒
    2、清除校对窗多选不正常的bug(谢谢@xqyd 提醒
    3、优化了校对窗翻页响应,更迅速


    6.1版本对比6.0版本的提升,包括:
    1、增加讯飞OCR,目前空格识别率最高(实测讯飞93%,有道80%,百度G 65%,百度A 0%)
    2、删空窗改为删合窗,增加了合并功能,
    布局由3列改为4列,增加左右键浏览翻页,增加了翻列(滚动一下步进一列)
    原页内删除合并操作继续支持,同时删除合并选择标记翻页不会丢失,所有页标记完最后可做一次总体删除合并,不用每页单独操作(感谢@xqyd 的建议
    3、重新布局截图窗,改进使用体验,大图识别、截图识别,以后都到这里来做。
    4、增加更多告警错误信息打印,出问题时用户不再‘一头雾水’
    5、更新了6.1使用手册

    2021-04-13更新:
    1、在@shadowxiao 小姐姐的帮助下,调了界面参数,于是这个工具软件终于有了正常的界面了!它再也不是一个徒有内涵、没有外表的使唤了!再次感谢!以后更新版本都会有两个进度条长度版本exe,功能完全一样。如果其中一个界面显示长度不对,就用另外一个
    2、删合窗组数调整为 28、36、44,原来的56界面太高,完全超出了屏幕。
    3、删合窗,用户可以选择合并时保留哪张图片。
    4、调教截图窗缩进、行距等参数,识别结果更接近大图真实排版。


    2021-04-12更新:
    主要是增加了讯飞OCR,记住要选‘文字识别-- 印刷文字识别(多语种)’,服务接口认证信息为三项:APPID、APISecret、APIKey,其他三种包括手写识别,对空格识别率都不高,只有这种高。虽然讯飞文字识别率没有百度高(毕竟讯飞语音识别才是强项),但是胜在空格识别率高很多,同时0元购送10W次(没错是100000),不用叠图都用不完。如果发现讯飞对文字识别率不高,可以开启增强魔棒,并将对比度设为99
    同时改进了删合窗,使用更方便了。。。


    2021-04-04更新:
    1、增加‘删空窗’,用于清理空字幕图片。(合并功能?技术上可实现,但是怎么知道两个同样的字幕一定就是没有去重的呢?例如‘啊’‘啊’‘啊’(嗯!有开车嫌疑)可能是重复的,也可能是正常的,扔到SubtileEdit或Aegisub中借助时间轴和波形来判断不更好吗?)
    2、将‘删空窗’、‘校对窗’移到主界面上,不需要来回切换。
    3、更新了6.0使用手册

    2021-04-02更新:
    1、优化了校对窗的使用体验,输入法输入时不用担心鼠标指针不在文本框中了(谢谢@xqyd  @394730122 提醒
    2、增加了校对窗组数设置,以适应不同分辨率的屏幕。
    3、更新了使用手册

    2021-03-29更新:
    修复了操蛋的百度OCR在纯英文字幕且较模糊选中英混合语言模式容易叠图错位-间隔标记丢失的问题,导致小概率叠图识别失败,过后程序会自动采用单图识别做补识别!而搜狗有道OCR则完全没有这种问题。。。这种情况下百度如改用半叠则很难出现问题。。。这种极限情况下的改进,让程序更加Robust了。。。
    结论:
    虽然能补识别,还是建议纯英文字幕采用半叠或不叠,仍旧选中英混合语言模式百度语言英语识别纯英文字幕会在标点前添加空格,紧接下来的断句空格会丢失,这是个烦人的bug!中英混合语言模式却没有这个bug!晕。。。看来百度把主要精力放在这个模型上了,总之大家多做试验,选自己满意的设置吧,国产OCR对英语和拉丁语系的支持肯定没有中文强,这是必然的。实际测试纯英文字幕识别率:搜狗>有道>百度
    感慨:
    同样是检测和识别,不同厂家的机器学习模型在某些方面表现差别挺大的,就好像小孩学习,给他灌输的知识不同,灌输的方式不同,开悟得就不同,不仅要喂巨量数据以便找到规律,还要防止过拟合训练出怪癖,深度学习虽然模式简单,却不是单单有深度就可以的,挺考验科研人员的。。。


    使用过程中有任何问题,请先阅读用户使用手册,如果觉得可能是bug,请在这里留言,作者会一一答复,
    如果您有好的建议,非常恳请您不吝提出来,一起探讨,可行的话会做进去,感谢您的支持!

    如果您在使用微软defenders时遇到报毒,请不用担心,因为本工具采用python+pyinstaller打包,很多防毒软件会误报(除非购买白名单证书或申请鉴定)

    另:工具目前支持百度搜狗有道讯飞OCR,一直想集成更多可用的OCR,
    第一梯队:
    百度搜狗有道讯飞,已集成。
    google云双币信用卡注册都过不了,没法试呢。
    腾讯云太贵,不想试。
    第二梯队:
    包括商用的德国OCR.Space、京东云、华为云、阿里云、好未来、薪火,实际测试过效果(主要是识别率,特别是繁体)都不太行。
    第三梯队:
    几种开源OCR例如:Tesseract OCR、EasyOCR、PaddleOCR、PaddleHub、chineseocr_lite, 离能用(主要是识别率和速度)还有较大距离。

    如果大家有听说过能用的OCR,请告知,能用的都会集成进来。
    看来AI还是中美引领全球的,生在中华家也挺不错呢。。。

    TODO:
    删合窗目前能用了,不够完美,看看能不能做得更好。


    免责声明:
    本工具仅供个人使用,为业余提取字幕的朋友提供方便,不可用于商业目的,不可侵犯他人知识产权。
    同时,作者建议有长期大量需求的用户,请购买OCR服务商的额度,支持国家高科技发展。

    作者并非百度广告代言人,不过目前百度有1元购1W次通用文字识别(高精度版)优惠活动,忍不住要推荐给大家:
    https://cloud.baidu.com/campaign/annual_sale_2021/index.html?showView=welfare&track=cp:otheronline-media|pf:pc|pp:qitaxianshangmeiti-huodong-21kainiansh



    评分

    参与人数 8活跃度 +9536 收起 理由
    paul + 1600 很给力!
    jiheidemifan + 666 很给力!
    CHAO1356 + 70 很给力!
    pasanonic + 600 很给力!
    shadowxiao + 200 很给力!好用,还持续改进细节,赞!.
    luo + 640 很给力!
    LIONBING + 5120 超级好用!!!
    outman654 + 640 很给力!

    查看全部评分

    回复

    使用道具 举报

  • TA的每日心情
    擦汗
    2021-4-7 21:34
  • 签到天数: 24 天

    [LV.4]偶尔看看III

    0

    主题

    15

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    2746
    fuyouquan 发表于 2021-3-3 22:19:58 | 显示全部楼层
    还能断句加空格,是根据videosubfinder截图断的还是根据语音断的?我之前用https://bbs.vcb-s.com/forum.php? ... ight=videosubfinder,思路和工具都跟这个差不多,但前些日子抄的几集动画的字幕,本身空格很多,只能后期一个个补;然后有一些又是句子其实是前后间隔很长的,但为了句子的流畅合在一句里。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-4-1 21:31
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    1

    主题

    107

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    10350
    hx168  楼主| 发表于 2021-3-3 22:33:39 | 显示全部楼层
    fuyouquan 发表于 2021-3-3 22:19
    还能断句加空格,是根据videosubfinder截图断的还是根据语音断的?我之前用https://bbs.vcb-s.com/forum.ph ...

    是利用百度实现的,支持空格重现,特别是字幕清晰工整的情况下,重现效果较好
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2021-4-7 21:34
  • 签到天数: 24 天

    [LV.4]偶尔看看III

    0

    主题

    15

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    2746
    fuyouquan 发表于 2021-3-3 22:44:27 | 显示全部楼层
    本帖最后由 fuyouquan 于 2021-3-4 11:45 编辑

    那还有,像TVB的字幕,如图
    我记得百度识图对问号啊、逗号啊都是识别成英文的,
    那TVB这种,它也是用英文标点,然后后面我不确定是不是补了一个半角空格,但要是没有这个空格的间距就会不明显,像这种空格能补上吗?
    但这个问题绝对不大,有标点的话再在Subtitle edit或aegisub里批量替换还不简单
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2021-4-7 21:34
  • 签到天数: 24 天

    [LV.4]偶尔看看III

    0

    主题

    15

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    2746
    fuyouquan 发表于 2021-3-3 22:44:48 | 显示全部楼层
    那还有,像TVB的字幕,如图
    我记得百度识图对问号啊、逗号啊都是识别成英文的,
    那TVB这种,它也是用英文标点,然后后面我不确定是不是补了一个半角空格,但要是没有这个空格的间距就会不明显,像这种空格能补上吗?
    但这个问题绝对不大,有标点的话再在Subtitle editr或aegisub里批量替换还不简单
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    1

    主题

    24

    帖子

    0

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    241942
    yjyz1011 发表于 2021-3-3 23:07:48 | 显示全部楼层
    好用,感觉文字逐行校准功能在这个软件这里做更好。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-4-1 21:31
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    1

    主题

    107

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    10350
    hx168  楼主| 发表于 2021-3-3 23:09:11 | 显示全部楼层
    fuyouquan 发表于 2021-3-3 22:44
    那还有,像TVB的字幕,如图
    我记得百度识图对问号啊、逗号啊都是识别成英文的,
    那TVB这种,它也是用英文标 ...

    发的图片看不到你可以下载运行试试看有没你说的这种问题
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-4-1 21:31
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    1

    主题

    107

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    10350
    hx168  楼主| 发表于 2021-3-3 23:10:39 | 显示全部楼层
    yjyz1011 发表于 2021-3-3 23:07
    好用,感觉文字逐行校准功能在这个软件这里做更好。

    有人喜欢就好。
    请多反馈意见,谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-4-1 21:31
  • 签到天数: 5 天

    [LV.2]偶尔看看I

    1

    主题

    107

    帖子

    0

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    10350
    hx168  楼主| 发表于 2021-3-3 23:17:56 | 显示全部楼层
    yjyz1011 发表于 2021-3-3 23:07
    好用,感觉文字逐行校准功能在这个软件这里做更好。

    如果VSF不漏轴,的确不需要subtitleEdit做校对,就怕有漏
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    1

    主题

    24

    帖子

    0

    VC币

    至尊会员

    Rank: 16Rank: 16Rank: 16Rank: 16

    积分
    241942
    yjyz1011 发表于 2021-3-3 23:33:48 | 显示全部楼层
    hx168 发表于 2021-3-3 23:17
    如果VSF不漏轴,的确不需要subtitleEdit做校对,就怕有漏

    不是漏轴的问题,主要问题是百度OCR不是100准确的,每行文字其实都需要人工核对,这个软件没有人工核对修改,保存的功能,不太方便。
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    快速回复 返回顶部 返回列表