VietOCR là phần mềm mã nguồn mở hoàn toàn miễn phí do người Việt phát triển, nó có khả năng nhận diện ký tự trong các loại ảnh hay file PDF thông dụng.
Chuyển ký tự trong ảnh PDF sang văn bản bằng phần mềm VietORC có khả năng quét ký tự trọng ảnh để từ đó cho ra văn bản hoàn chỉnh.
Giới thiệu sơ lược về VietORC:
VietORC là giải pháp nhận diện ký tự quan học ORC tập chung vào nhận diện ký tự tiếng việt dựa trên ORC Tesseract (Tesseeract là công cụ ORC dựa trên mã nguồn mở của Google).
VietORC thích hợp với nhận diện văn bản số ít, sử dụng trong văn phòng hoặc cá nhân.
Tính năng chính:
- Hỗ trợ nhiều ngôn ngữ tất nhiên là không thể thiếu tiếng Việt.
- Tự động tải và cài đặt gói ngôn ngữ.
- Hỗ trợ định dạng ảnh PDF, TIFF, JPEG, GIF, PNG, BMP.
- Không giới hạn dung lượng file.
- Paste hình ảnh vào bộ nhớ Clipboard.
- Hỗ trợ kéo thả file.
- Hỗ trợ chuyển đổi hàng loạt.
- Hỗ trợ chế độ quét tích hợp.
- Kiểm tra chính tả.
- Tích hợp bộ gõ tiếng Việt (Unikey): VNI, Telex, VIQR, với font mặc định là Unicode.
LINK TẢI
Mật khẩu giải nén: nadutv.com
Hướng dẫn sử dụng:
1- Giới thiệu các Menu:
N1– Tải về cài đặt VietORC với link bên trên
N2– Sau khi cài đặt xong bạn mở ứng dụng lên sẽ có giao diện:
- Mở file ảnh hoặc PDF
- Quét ảnh qua máy Scan
- Paste ảnh từ Clipboard
- Lưu đoạn văn bản
- Di chuyển giữa các trang
- Thu phóng văn bản
- Lệnh quét ký tự trên ảnh
- Xoá văn bản đã quét
- Tìm kiếm văn bản để thay thế
- Check chính tả
2- Cài đặt máy Scan:
N1– Vào phần Setting (Cài đặt) của VietOCR, tìm và sao chép file WIAAut.dll (C:\Program Files\VietUnicode\VietOCR.NET) vào thư mục C:\Windows\System32.
N2– Sau đó, bạn vào Start > Run, gõ lệnh regsvr32 C:\Windows\System32\WIAAut.dll để đăng ký thư viện này với Windows. Khi đăng ký xong, bạn cài driver cho máy quét và bắt đầu xử lý văn bản.
Lưu ý: Nếu báo lỗi Attemp to read or write protected memory, nguyên nhân gây ra lỗi này là do văn bản của bạn đã định sai hướng, lúc này bạn chỉ việc nhấn nút Rotate vài lần cho đúng hướng là xong.
3- Sử dụng các Tab:
N1– Nếu muốn biên dịch tài liệu nhiều trang, bạn truy cập menu Command > OCR All Pages.
N2– Nếu bạn muốn chỉnh file ảnh thì phần Image sẽ cung cấp cho bạn đầy đủ như chỉnh chiều cao chiều rộng..(Properties), bộ lọc ảnh (Filters), Tự động cắt ảnh (Auto crop) và một số tính năng khác.
N3– Phần tab Format sẽ có phần thay đổi font, cỡ chữ.
N4– Tab Setting sẽ là chỉnh kiểu gõ cùng với đó là lựa chọn và tải thêm dữ liệu ngôn ngữ…
N5– Phần Tools dành riêng cho PDF và TIFF
Chuyển ký tự trong ảnh PDF sang văn bản bằng VietORC cực kỳ hữu dụng cho người dùng muốn tách ký tự ra khỏi ảnh, file PDF. Hy vọng bài viết sẽ giúp ích cho các bạn.
Hãy để lại ý kiến phản hồi dưới bài viết.