Khoa học

Ocr là gì? »Định nghĩa và ý nghĩa của nó

Anonim

OCR là những nhận dạng ký tự quang học hay còn được gọi là nhận dạng ký tự quang học trong tiếng Tây Ban Nha. OCR là một phần mềm cho phép nhận dạng văn bản, tạo ra hình ảnh của nó để chuyển nó thành một chuỗi các ký tự, sau đó lưu chúng ở một định dạng nhất định có thể được sử dụng trong các chương trình chỉnh sửa văn bản đó. Nói cách khác, nhờ công nghệ mới này, bất kỳ loại văn bản hoặc tài liệu nào, bao gồm tệp PDF, giấy quét hoặc thậm chí hình ảnh được chụp từ máy ảnh kỹ thuật số, đều có thể được chuyển đổi thành dữ liệu để có khả năng chỉnh sửa.

Phần mềm này hoạt động theo cách sau, đầu tiên nó phân tích từng phần hình ảnh của tài liệu được đề cập; phân phối trang thành các phần như bảng, hình ảnh, khối văn bản giữa những phần khác; sau đó các dòng được phân phối trong các từ để sau này trở thành các ký tự; và vì các ký tự đã được chỉ định, phần mềm sẽ so sánh với một nhóm hình ảnh của mẫu. Điều này tiến triển theo một loạt các giả thuyết về những gì mỗi nhân vật là; và dựa trên những giả thuyết này, nó phân tích các biến thể khác nhau của việc ngắt dòng thành từ và từ thành ký tự. Và sau một số lượng lớn phân tích và xử lý các giả thuyết, chương trình cuối cùng trình bày văn bản đã được nhận dạng và chuyển đổi với một định dạng mới.

Cần lưu ý rằng ngày nay có hàng loạt chương trình mà thị trường máy tính cung cấp dựa trên OCR như OmniPage, Abbyy Fine Reader hay READiris. YY có khả năng, không chỉ phân tích và nhận dạng một văn bản như vậy, mà còn nhận ra định dạng và phong cách, nhưng có một số hạn chế nhất định, do đó, văn bản sau khi được phân tích, phải được chỉnh sửa để thực hiện các điều chỉnh yêu cầu.