目录
目录README.md

基于RISC-V架构的实况图文

介绍

实况图文(Live Image Text),本项目旨在openKylin操作系统桌面图形环境下实现所见即所得的能力。它是一款实用且高效的工具,能对用户视图或图像中的文本以及目标识别的结果进行实时选择操作,并且能对视图或图像中文本以及选择的文本进行智能处理,提取其中有用的信息,给用户提供实用的功能选项,例如复制粘贴、打开链接、邮箱、电话、打开地图、建立联系人等。实况图文采用了多项传统技术,例如多线程,桌面截图、图像处理、图像操作,用户交互等,并结合了多项最新的AI技术,例如AI文本识别,目标检测,图像分类,信息提取等,其中AI技术方面基于AI框架PaddlePaddle和PyTorch实现。

实况图文具有以下特点:

  • 文本识别功能:当用户选择视图或打开图片时,会启动OCR功能对其中包含的文本进行检测和识别,将图像中像素文本转换成可处理的文本信息,为后续处理和操作提供最有力的基础。同时会对文本识别结果建立索引,为用户提供系统级别的以文搜图能力。
  • 信息提取功能:用户选定想要了解的文本信息段落,可以即时分析和提取出选定信息中的重要内容,比如:姓名、地址、邮箱、链接、企业组织等常见字段,为用户提供高效便捷的操作。
  • 目标检测及图像分类功能:可以快速识别定位到视图或图片中的物体,对识别定位到的物体进行分类,并将结果将以视觉吸引的边框形式直接展示在原视图上。同时也会对图像识别分类的标签建立索引,作为以文搜图功能的关键因素。
  • 以文搜图功能:一旦图像被保存至用户指定文件目录,该功能将在后台依据其文本识别或图像分类识别结果创建相关索引文件。通过对图像内容的智能搜索,用户可迅速定位到特定图像的位置,并同时获取若干可能相关的图像列表。
  • 所见即所得:支持用户在桌面环境下直接选择任意视图作为输入,免去了截图,保存图片,再打开图片识别这一过程,大大提高了便捷性。
  • 图片读取及操作:支持常见图片格式,并根据需要支持对图像进行简单操作,例如缩放,移动。
  • 良好的反馈:在图像识别过程中,提供图像扫描动画作为反馈。识别完成后,对文本块突出显示。
  • 实时选择功能:能直接在视图或图像上对文本进行实时选择,提供直观的文本选择方式,进一步提高用户体验和效率。
  • 支持多任务:支持对图像快速切换,以及同时打开多个图片或对多个视图进行选择。
  • 缓存加速:对识别过的图片结果进行缓存,避免重复识别,大大节约系统资源,同时提高了程序的实时性。

本项目还存在一些不足,后续将持续优化和改进,例如,改进已有OCR、目标检测等算法,提高识别准确率和速度。

关于
36.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号