لدي مجموعة فواتير على شكل pdf و أريد إستخراج المبالغ المضمنة و إستغلال البيانات منها.
ماهي المكتبات التي تساعدني في عملي؟
السلام عليكم جربت هذه المكتبة لكن تعطيني نوع من الأخطاء حول قراءة الpdf
ثم جربت PyPDF4 تعطيني فراغا ولا يمكنني إستغلال النص.
أستعمل Vsvode.
حسب ما قرأت في المنتديات فإن الخطأ متكرر.
هل تعرفون مكتبة أخرى تفي بالغرض؟
شكرا
عليكم السلام
جربت هذه المكتبة لكن تعطيني نوع من الأخطاء حول قراءة الpdf
ثم جربت PyPDF4 تعطيني فراغا ولا يمكنني إستغلال النص.
يبدو أن بعض أنواع الخطوط تجعل النص غير قابل للقراءة بواسطة المكتبات PyPDF2 أو PyPDF3 أو PyPDF4.
هل تعرفون مكتبة أخرى تفي بالغرض؟
يُمكنك تجريب مكتبة بايثون pdfminer.six والتي بدورها تقوم باستخراج النصوص من ملفات ال PDF.
يُمكنك تثبيتها عن طريق:
pip install pdfminer.six
لاستخراج النصوص نستعمل الشيفرة التالية:
from pdfminer import high_level local_pdf_filename = "رابط ملف ال PDF" pages = [0] # تحديد الصفحة الأولى فقط extracted_text = high_level.extract_text( local_pdf_filename, "", pages ) print(extracted_text) # طباعة النص المستخرج
والتوثيق الخاص بها تَجده هنا: https://pdfminersix.readthe...
التعليقات