请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
楼主: NoobNeo

为了更便捷的手抄字幕, 我搞了一个新玩具(更新 0.0.1-4-Alpha 版)

  • TA的每日心情
    开心
    2019-4-4 17:54
  • 签到天数: 2 天

    [LV.1]初来乍到

    13

    主题

    59

    帖子

    1529

    VC币

    星辰大海

    Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

    积分
    351063
    NoobNeo  楼主| 发表于 2019-8-23 22:08:00 | 显示全部楼层
    namesd 发表于 2019-8-22 15:24
    预计什么时候可以发布?拿来试试水

    已经打包传度盘, 明天最后检查下, 没问题的话最快明天下午发布
    声明: 本人所有手抄字幕都是采用 进行许可(特殊标注的除外)
    知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议
    已获许可的字幕组: DHR動研字幕組, TUcaptions
    以往字幕有问题的, 请与我联系, 论坛不一定有时间上, 最佳⬇.
    Telegram: @noobneo
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-4-4 17:54
  • 签到天数: 2 天

    [LV.1]初来乍到

    13

    主题

    59

    帖子

    1529

    VC币

    星辰大海

    Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

    积分
    351063
    NoobNeo  楼主| 发表于 2019-8-24 18:59:40 | 显示全部楼层
    本帖最后由 NoobNeo 于 2019-10-27 13:29 编辑

    tesseract进阶参数:
    进阶参数位于程序目录 APP/tessdata 文件夹中, 如果不了解不建议调整!
    用文本编辑器打开 'config' 文件
    tessedit_char_blacklisttesseract识别中被排除的字符
    unrecognised_char无法识别的字符用此字符替代, 默认为无
    其他参数安装tesseract后 用 "tesseract --print-parameters" 查看

    0.0.1-3 - alpha 版本及以上部分已失效, 可忽略, 程序中部分按钮悬停可查看描述
    =====================================================================================
    软件说明
    主界面部分按钮(从上至下, 从左至右):
    Open [CTRL+O]打开 COCR 文件
    Video打开视频文件
    Save [CTRL+S]保存为 COCR 文件
    Save As [CTRL+SHIFT+S]保存为 ASS 文件
    Export导出 PNG 文件
    Filter滤镜, 需要打开一个视频才能进入
    Del&Merge删除/合并字幕, 需要勾选 "Manager Mode"
    OCR图片字幕识别
    Profile偏好设置
    BAT批量处理
    Manager Mode 管理模式
    F当前打开文件的文件名
    FC视频文件的总帧数

    BAT(批处理)界面部分按钮(从左至右)
    Number of SIMUL tasks同时处理任务数量, 默认为1

    Process(滤镜处理流程) 界面与 Param Settings 对应(从上至下, 从左至右)
    其他界面比较简单, 不一一说明.

    软件内各种参数说明 标题格式 [窗口] - [区域标题]

    Video Filter - Region:
    TL X 字幕区域左上角 X 轴坐标, 一般为 0
    TL Y 字幕区域左上角 Y 轴坐标
    BR X 字幕区域右下角 X 轴坐标, 一般为视频宽度
    BR Y 字幕区域右下角 Y 轴坐标

    Param Settings - Morphology Parameter: (形态学变化)
    MedianBlur Kernel 中值滤波核尺寸, 只能是奇数, 一般设定为1或3
    Fixed Min Threshold 固定二值化的阈值
    Adaptive Block 自适应二值化核尺寸, 只能是奇数, 其他参数固定时, 应尽可能调大
    Adaptive Constant 自适应二值化常量, 可以为负数, 其他参数固定时, 应尽可能调小
    Dilate Kernel Width 背景腐蚀核尺寸 - 宽度, 尽可能调大, 不要出现大黑块, 不调整用默认值也没问题
    Dilate Kernel Height 背景腐蚀核尺寸 - 高度, 同上
    Close Kernel Width 闭运算核尺寸 - 宽度, 在确保文字区域没有被抹除的情况下, 尽可能调大
    Close Kernel Height 闭运算核尺寸 - 高度, 同上

    Param Settings - CCL Area & Pixel Count (连通区域过滤):
    Max CCL Area最大连通区域 (方形), 确保文字没有被抹除的情况下, 应尽可能调小, 通常设定为 2000~4000 左右
    Min CCL Area最小连通区域 (像素点), 去除形态学中无法过滤的小噪点, 不宜过大, 容易把汉字中的"丶"过滤掉
    Min Pixel Count字幕图片中像素数量, 小于此数值的会被判定为无效字幕, 单独一个 "一" 字大概在500上下, 不宜过大

    Param Settings - Similarity Profile (去重):
    Min SSIM ThresholdSSIM算法阈值, 高于此数值判定为重复, 不建议低于默认值, 更不建议设置小于0.9的数值, 容易误判
    Min Psnr ThresholdPsnr算法阈值, 高于此数值判定为重复, 不建议低于默认值, 如果误判严重, 建议调大, 或选用SSIM
    SSIM OR Psnr两者都是机器视觉, 与人类视觉不同, 当我们觉得两张图一样时, 机器不一定认为一样, 通常SSIM的表现优于Psnr

    Param Settings - Binarization Type: (二值化类型)
    Fixed Binarization固定二值化, 颜色波动小时建议用这个, 速度快, 性能优
    Adaptive Binarization自适应二值化, 颜色波动大时建议用这个, 速度慢, 效果好

    Param Settings - Adaptive Method: (自适应算法)
    Mean核内区域计算均值
    Gaussian核内区域计算加权均值 (高斯函数)

    Param Settings - Storage Policy: (去重保存策略)
    Min pixel count in stack保存堆内像素总量最少的
    Max pixel count in stack保存堆内像素总量最多的
    Med pixel count in stack保存堆内像素总量中位数
    First frame in stack保存堆内第一个 帧
    Last frame in stack保存堆内最后一个帧

    Profile - : (偏好设置)
    Caption Default StyleDefault 字幕样式
    Digital container format视频容器格式, BAT中根据这个来判定是否为有效视频; 打开视频对话框内快速筛选格式; FFmpeg 支持的容器
    Editor Font Size编辑框字体大小
    Frame interval提取字幕时帧间隔, 精度越高越耗时
    Count Pre Page每次加载字幕图片的数量
    OCR LanguageOCR 识别目标的语言, 支持混合语言

    滤镜参数中建议调整顺序:
    字幕区域 > 均值滤波 > 二值化类型 > 二值化类型对应参数, 其余参数基本不用动

    声明: 本人所有手抄字幕都是采用 进行许可(特殊标注的除外)
    知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议
    已获许可的字幕组: DHR動研字幕組, TUcaptions
    以往字幕有问题的, 请与我联系, 论坛不一定有时间上, 最佳⬇.
    Telegram: @noobneo
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    奋斗
    3 天前
  • 签到天数: 314 天

    [LV.8]以坛为家I

    14

    主题

    110

    帖子

    605

    VC币

    荣誉会员

    Rank: 14Rank: 14Rank: 14Rank: 14

    积分
    116645
    o1234555 发表于 2019-8-24 19:49:24 | 显示全部楼层
    大大強大的背影,只能膜拜了!!!
    多謝大大寫出那麼棒的工具!!!
    ATM手抄字幕社所屬~只手抄+精校自己喜歡的字幕!!
    不可能做到滿分的字幕,但我們會在能力範圍內努力做到滿分!!
    聯絡方式:私訊或是TG
    目前開坑中:銀魂S04/Free!劇場版(1/2)/K劇場版:Seven Stories(2/7)/Orange劇場版
    個人精校中:黃金神威
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-4-4 17:54
  • 签到天数: 2 天

    [LV.1]初来乍到

    13

    主题

    59

    帖子

    1529

    VC币

    星辰大海

    Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

    积分
    351063
    NoobNeo  楼主| 发表于 2019-8-24 20:40:12 | 显示全部楼层
    本帖最后由 NoobNeo 于 2019-10-27 13:15 编辑

    0.0.1-3 - alpha未作测试, 测试结果可能不一致, 仅供参考
    测试版本: 0.0.1-1 - alpha
    测试内容: 提取时长24分钟视频的字幕所需时间
    测试方法: 两个软件调整到类似的过滤结果, 连续跑3次取平均值
    时间格式: 分 : 秒
    COCR部分参数: 保存策略: 堆中位数; 去重算法: SSIM; 自适应二值化
    因为对esrXP内部分实现方法不明, 所以COCR都选用较为严格的默认参数
    下面是结果:
    esrXP COCR
    03:52 1 frame - 08:27
    2 frame - 04:27
    3 frame - 03:02
    4 frame - 02:18
    5 frame - 01:45

    所以如果手抄字幕的视频A与打算外挂的视频B, 两者时间轴基本一致或只需要整体平移的话, 建议帧间隔选择1 或 2, 节省后期调轴的时间; 如果两者时间轴偏差大, 建议选用3 ~ 5, 节省字幕提取的时间.

    目前已知问题:
    1. win10系统下, 在编辑框内自带的输入法候选框无法跟随光标.
    解决方法: 用第三方输入法替代
    目前已考虑功能:
    1. Linux 版本
    2. GPU解决方案, 有望大幅增加图像处理速度和能力
    声明: 本人所有手抄字幕都是采用 进行许可(特殊标注的除外)
    知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议
    已获许可的字幕组: DHR動研字幕組, TUcaptions
    以往字幕有问题的, 请与我联系, 论坛不一定有时间上, 最佳⬇.
    Telegram: @noobneo
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-11-26 20:30
  • 签到天数: 79 天

    [LV.6]常住居民II

    17

    主题

    52

    帖子

    523

    VC币

    白金会员

    Rank: 12Rank: 12Rank: 12

    积分
    56148

    崭露头角新人登场渐入佳境

    hungry小浩纸 发表于 2019-8-25 00:24:25 | 显示全部楼层
    过滤器设置那里好谜啊,试了一下没搞出满意的图片
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    擦汗
    2019-11-26 20:30
  • 签到天数: 79 天

    [LV.6]常住居民II

    17

    主题

    52

    帖子

    523

    VC币

    白金会员

    Rank: 12Rank: 12Rank: 12

    积分
    56148

    崭露头角新人登场渐入佳境

    hungry小浩纸 发表于 2019-8-25 00:24:51 | 显示全部楼层
    本帖最后由 hungry小浩纸 于 2019-8-25 00:29 编辑

    另外,能输出成sub或sup么?方便用其他的ocr
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-4-4 17:54
  • 签到天数: 2 天

    [LV.1]初来乍到

    13

    主题

    59

    帖子

    1529

    VC币

    星辰大海

    Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

    积分
    351063
    NoobNeo  楼主| 发表于 2019-8-25 16:11:07 | 显示全部楼层
    本帖最后由 NoobNeo 于 2020-1-20 11:25 编辑

    更新日志:
    0.0.1-4-alpha
    • 主题/UI:
    • 更换为 Windows Fluent Design, 支持暗色主题
    • 增加自定义背景, 没有美少女的工具是没有灵魂的, 大概需要降低遮罩不透明度
    • 重新调整滤镜窗口的排版, 更直观? 大概吧
    • 改用微调组件替代纯输入框组件, 调参更方便
    • 新图标
    • 性能:
    • 引入 SpringBoot, Java 更新至11, 改善内存占用
    • 提高 GPU 显存要求, 避免加载过多字幕图片后, 显卡 COPY 引擎过载, 导致程序无响应; 测试1万+图像未出现无响应
    • 批处理:
    • 批处理不再支持并行任务, 此外进行批处理前保存已有数据, 否则会造成数据丢失
    • 批处理可进行批量 OCR 任务, 添加 '.cocr' 文件即可
    • 滤镜:
    • '裁剪' 功能并入模块
    • 添加 运算 模块(beta)
    • 预设4组模组配置, 包括早期的纯形态学和上一个版本的 HLS/HSV 模型
    • 改善报错体验, 能直观反馈异常模块
    • 不再支持滚轮缩放和鼠标拖拽预览图像, 改用缩放滑块(支持滚轮)和滑条
    • 模块支持拖拽调整, 第一个 '裁剪' 模块不可移动/删除
    • 滤镜全局设置已迁移到 主界面 - 设置 中
    • 其他:
    • 使用 Inno Setup 封装
    • 滤镜全局设置中的 PSNR 阈值 默认值调整为40
    • 窗口全阻塞, 不再支持调参同步生效
    • 大概最后一个 alpha 版本? 没问题就把代码提交 Github了
    • 反馈问题时带上 log 日志, 目录: cocr 安装路径/app/logs


    0.0.1-3 - alpha
    • 调整滤镜规则, 可自选模块
    • 完善滤镜流程可视化
    • 多国语言支持


    0.0.1-2 - alpha
    • 部分字幕时间轴错误
    • 过滤流程可视化, 辅助调参
    • 批处理可同时处理多个任务


    0.0.1-1 - alpha
    • 编辑框内定位溢出导致的死循环

    声明: 本人所有手抄字幕都是采用 进行许可(特殊标注的除外)
    知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议
    已获许可的字幕组: DHR動研字幕組, TUcaptions
    以往字幕有问题的, 请与我联系, 论坛不一定有时间上, 最佳⬇.
    Telegram: @noobneo
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2019-8-2 15:59
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    5

    主题

    32

    帖子

    25

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    4667
    namesd 发表于 2019-8-26 04:12:29 | 显示全部楼层
    NoobNeo 发表于 2019-8-23 22:08
    已经打包传度盘, 明天最后检查下, 没问题的话最快明天下午发布

    辛苦了,要是你这软件好用的话,我拖了这么久的女生万岁就终于可以开工了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    无聊
    2019-7-31 13:14
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    0

    主题

    5

    帖子

    0

    VC币

    注册会员

    Rank: 2

    积分
    1067
    mocici 发表于 2019-8-27 14:01:26 | 显示全部楼层
    本帖最后由 mocici 于 2019-8-27 14:09 编辑

    同样是调整了好久,也无法得出干净程度类似esrXP的图片...
    跑30分钟以上长视频似乎比esrXP流畅...
    等以后改进成熟了,能增加导入sub或sup单独跑时间轴和ocr的功能就更好了...(弱...
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    4

    主题

    37

    帖子

    131

    VC币

    中级会员

    Rank: 3Rank: 3

    积分
    15125
    bjjbaojj 发表于 2019-8-29 13:11:42 | 显示全部楼层
    请问打开Caption OCR Tool.exe为何会报错呢?我的电脑已经安装了JRE了的。提示failed to find library,failed to locate JNI_createJavaVM,failed to launch JVM
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    VCB-Studio分享论坛X

    VCB-S微信公众号上线了,欢迎关注!

    欢迎关注VCB-S微信公众号,公众号将不定期推送有关本组最新资源的消息。...

    点击查看详情 
    快速回复 返回顶部 返回列表