Authorนิศารัฐ พรศิริประเสริฐ
Titleการออกแบบและพัฒนาโปรแกรมการแบ่งส่วนในหน้าเอกสารสำหรับการรู้จำอักษร / นิศารัฐ พรศิริประเสริฐ = Design and development of a page segmentation program for character recognition / Nisarath Pornsiriprasert
Imprint 2545
Connect tohttp://cuir.car.chula.ac.th/handle/123456789/10076
Descript [8], 99 แผ่น : ภาพประกอบ, แผนภูมิ

SUMMARY

วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์ เพื่อออกแบบและพัฒนาโปรแกรมการแบ่งส่วนในหน้าเอกสารสำหรับการรู้จำตัวอักษร เพื่อจำแนกประเภทของข้อมูลที่เป็นตัวอักษร ตาราง และรูปภาพ ออกจากกัน โดยใช้วิธีการแบ่งส่วนแบบล่างขึ้นบน และวิธีการจำแนกประเภทข้อมูลแบบเชิงสถิติ ข้อมูลภาพเอกสารที่ใช้ทดสอบ ประกอบด้วยเอกสาร 50 หน้า โปรแกรมเริ่มต้นอ่านข้อมูลทั้งหน้าเอกสาร เพื่อคำนวณหาขอบเขตของข้อมูลที่อยู่ใกล้กันรวมกันให้เป็นข้อมูลบล็อกเดียว กัน จากนั้นขอบเขตของบล็อกข้อมูลทั้งหมดจะนำมาเป็นข้อมูลเข้าสำหรับการวิเคราะห์ เพื่อจำแนกประเภทของข้อมูลที่อยู่ภายในขอบเขตนั้นตามวิธีการเชิงสถิติ ผลจากการทดลอง โปรแกรมสามารถจำแนกประเภทข้อมูล ซึ่งประกอบด้วยบล็อกของข้อมูลเป็นตัวอักษรจำนวน 7,319 บล็อก บล็อกของตารางจำนวน 22 บล็อก และบล็อกของรูปภาพจำนวน 213 บล็อก แยกความผิดพลาดเป็นภาพของตัวอักษรเฉลี่ย 1.29 เปอร์เซ็นต์ ตารางเฉลี่ย 2 เปอร์เซ็นต์ และรูปภาพเฉลี่ย 18.06 เปอร์เซ็นต์
The objective of this thesis is to design and develop a program for page segmentation of document images to classify data to characters, tables, and pictures using a bottom-up method and statistical rules. The program is tested on 50 pages of document images. The program starts by reading a whole page of a document to calculate the nearest bounding box including all bounding boxes. This data is used for classification by statistical rules. From the experimental results, the program can classify data into 7,319 blocks of characters, 22 blocks of tables and 213 blocks of images. The error rates are 1.29%, 2%, 18.06% for characters, tables and pictures, respectively.


SUBJECT

  1. การประมวลผลภาพ -- เทคนิคดิจิทัล
  2. การรู้จำอักขระ (คอมพิวเตอร์)

LOCATIONCALL#STATUS
Central Library @ Chamchuri 10 : Thesis450420 LIB USE ONLY