Chuyển đổi hình ảnh OCR với Tesseract.js

0
345

Chuyển đổi hình ảnh của chữ viết tay hay đánh máy thành các tài liệu văn bản  vẫn chưa hoàn hảo nhưng nó đã được cải thiện đáng kể trong vài năm qua với việc sử dụng phần mềm Tesseract OCR. Đây là một phần mềm mã nguồn mở trong C++, nó có thể nhận diện chính xác các font chữ lạ.

Bài viết liên quan:

10 trang web miễn phí để để tạo ảnh Gif hiệu quả

5 kỹ thuật để tùy chỉnh màu sắc trong thiết kế UX

công nghệ web

Đây là phần mềm ưu việt trong việc nhận dạng chữ viết. Tuy nhiên trong quá trình áp dụng nó vẫn tồn tại một số nhược điểm. Những hạn chế của phần mềm Tesseract OCR đã được khắc phục bởi Tesseract.js. Thư viện của nó có thể nhận diện tới 60 loại ngôn ngữ là điều mà chưa phần mềm nào có thể làm được.

Hiên tại Tesseract chỉ có thể nhận dạng hình ảnh không nén của tệp tin TIFF. Nếu bạn muốn nhận dạng các hình ảnh được nén phức tạp hơn bạn phải chạy ORC với một dòng mã. Sau khi cài đặt và thiết lập thì bạn có thể chuyển đổi bất cứ hình ảnh nào trên trang web thành các tài liệu văn bản bằng việc sử dụng hàm Tesseract.recognize ().

Quá trình chuyển đổi được thực hiện như sau: Khi cài đặt xong Tesseract thì bạn tải và giải nén gói dữ liệu ngôn ngữ tiếng việt cho Tesseract và chuyển vào thư mục cài đặt. Chương trình sẽ tự động dịch trong trình duyệt cho bạn.

Nếu bạn muốn xem một bản demo trước thì bạn có thể  kiểm tra trang đích của website cài đặt Tesseract.js. Phần mềm này cài đặt ngay trong trình duyệt nên bạn có thể sử dụng dễ dàng với các thao tác kéo và thả, sau đó chương trình sẽ tự động thực hiện chuyển đổi thành dạng văn bản.

Xem thêm: Khóa học lập trình php nâng cao tại đây.

Bạn có thể tải các ví dụ về việc sử dụng phần mềm này thông qua trang GitHub hay bạn có thể tạo ra một ứng dụng riêng cho mình thì bạn bằng cách sở hữu phần mềm Tesseract OCR của CDN.

công nghệ web

 

Ví dụ: Một đoạn code đơn giản dưới đây đã được chuyển đổi trực tiếp từ một yếu tố hình ảnh HTML.

Tesseract.recognize(myImage).then(function(result){
    console.log(result)
});

Đây là một phần mềm hữu ích để chuyển đổi hình ảnh OCR trên trang web thành các tài liệu văn bản. Đó là công cụ tốt nhất hiện nay và dễ dàng sử dụng trên cả hai phía khách hàng và máy chủ trên nền tảng Node.js.

Cảm ơn các bạn đã theo dõi bài viết!

[Total: 1    Average: 5/5]

LEAVE A REPLY

Please enter your comment!
Please enter your name here