Wyodrębnij tekst z plików PDF i obrazów

Masz dokument PDF , z którego chcesz wyodrębnić cały tekst? A co z plikami obrazów zeskanowanego dokumentu, który chcesz przekonwertować na tekst do edycji? Oto niektóre z najczęstszych problemów, jakie napotkałem w miejscu pracy podczas pracy z plikami.

W tym artykule omówię kilka różnych sposobów na wyodrębnienie tekstu z pliku PDF(PDF) lub obrazu. Wyniki ekstrakcji będą się różnić w zależności od typu i jakości tekstu w pliku PDF(PDF) lub obrazie. Ponadto Twoje wyniki będą się różnić w zależności od używanego narzędzia, dlatego najlepiej jest wypróbować jak najwięcej poniższych opcji, aby uzyskać najlepsze wyniki.

Wyodrębnij tekst z obrazu lub pliku PDF

Najprostszym i najszybszym sposobem na rozpoczęcie jest wypróbowanie usługi wyodrębniania tekstu PDF online. (PDF)Są one zwykle bezpłatne i mogą dać dokładnie to, czego szukasz, bez konieczności instalowania czegokolwiek na komputerze. Oto dwa, których użyłem z bardzo dobrymi lub doskonałymi wynikami:

Wyodrębnij PDF

wyciągpdf

ExtractPDF to darmowe narzędzie do pobierania obrazów, tekstu i czcionek z pliku PDF . Jedynym ograniczeniem jest to, że maksymalny rozmiar pliku PDF to 10 MB. To trochę małe; więc jeśli masz większy plik, wypróbuj inne metody poniżej. Wybierz plik, a następnie kliknij przycisk Wyślij plik(Send file) . Wyniki są zwykle bardzo szybkie i powinieneś zobaczyć podgląd tekstu po kliknięciu zakładki Tekst .(Text)

pobierz tekst

Jest to również miła dodatkowa zaleta, że ​​wyodrębnia również obrazy z pliku PDF , na wszelki wypadek! Ogólnie rzecz biorąc, narzędzie online działa świetnie, ale natknąłem się na kilka dokumentów PDF , które dają mi zabawne wyniki. Tekst jest dobrze wyodrębniany, ale z jakiegoś powodu po każdym słowie będzie miał podział wiersza! Nie jest to duży problem w przypadku krótkiego pliku PDF , ale z pewnością problem w przypadku plików z dużą ilością tekstu. Jeśli tak się stanie, wypróbuj następne narzędzie.

OCR online

OCR online(Online OCR) zwykle działał w przypadku dokumentów, które nie zostały poprawnie przekonwertowane za pomocą ExtractPDF , więc dobrym pomysłem jest wypróbowanie obu usług, aby zobaczyć, które z nich zapewniają lepsze wyniki. Online OCR ma również kilka fajniejszych funkcji, które mogą okazać się przydatne dla każdego, kto ma duży plik PDF , który wymaga tylko konwersji tekstu na kilku stronach, a nie całego dokumentu.

Pierwszą rzeczą, którą chcesz zrobić, to założyć darmowe konto. To trochę irytujące, ale jeśli nie utworzysz darmowego konta, tylko częściowo skonwertuje plik PDF(PDF) , a nie cały dokument. Ponadto, zamiast przesyłać tylko dokument o wielkości 5 MB, możesz przesłać do 100 MB na plik za pomocą konta.

ocr online

Najpierw wybierz język, a następnie wybierz typ formatów wyjściowych, które chcesz przekonwertować. Masz kilka opcji i możesz wybrać więcej niż jedną, jeśli chcesz. W sekcji Dokument wielostronicowy(Multipage document) możesz wybrać Numery stron(Page numbers) , a następnie wybrać tylko te strony, które chcesz przekonwertować. Następnie wybierasz plik i klikasz Konwertuj(Convert) !

internetowa dokumentacja OCR

Po konwersji zostaniesz przeniesiony do sekcji Dokumenty(Documents) (jeśli jesteś zalogowany), gdzie możesz zobaczyć, ile wolnych stron pozostało Ci, a także linki do pobrania przekonwertowanych plików. Wygląda na to, że masz tylko 25 stron za darmo dziennie, więc jeśli potrzebujesz więcej, będziesz musiał trochę poczekać lub kupić więcej stron.

OCR online(Online OCR) wykonał świetną robotę konwertując moje pliki PDF(PDF) , ponieważ był w stanie zachować rzeczywisty układ tekstu. W moim teście wziąłem dokument Worda(Word) , który używał punktorów, różnych rozmiarów czcionek itp. i przekonwertowałem go na plik PDF(PDF) . Następnie użyłem OCR online(Online OCR) , aby przekonwertować go z powrotem do formatu Worda(Word) i był w około 95% taki sam jak oryginał. To dla mnie imponujące.

Dodatkowo, jeśli chcesz przekonwertować obraz na tekst, OCR online(Online OCR) może to zrobić tak samo łatwo, jak wyodrębnianie tekstu z plików PDF .

Darmowe OCR online

Ponieważ mówiliśmy o OCR(OCR) obrazu do tekstu , wspomnę o innej dobrej stronie internetowej, która działa naprawdę dobrze na obrazach. Darmowy OCR online(Free Online OCR) był bardzo dobry i bardzo dokładny podczas wyodrębniania tekstu z moich obrazów testowych. Zrobiłem kilka zdjęć z mojego iPhone'a stron z książek, broszur itp. i byłem zaskoczony, jak dobrze był w stanie przekonwertować tekst.

darmowe ocr . online

Wybierz plik, a następnie kliknij przycisk Prześlij(Upload) . Na następnym ekranie dostępnych jest kilka opcji i podgląd obrazu. Możesz go przyciąć, jeśli nie chcesz OCR całości. Następnie po prostu kliknij przycisk OCR , a przekonwertowany tekst pojawi się pod podglądem obrazu. Nie ma też żadnych ograniczeń, co jest naprawdę miłe.

Oprócz usług online istnieją dwa darmowe konwertery PDF , o których chcę wspomnieć, na wypadek, gdyby do przeprowadzenia konwersji potrzebne było oprogramowanie działające lokalnie na komputerze. W przypadku usług online zawsze będziesz potrzebować połączenia z Internetem(Internet) , a to może nie być możliwe dla wszystkich. Zauważyłem jednak, że jakość konwersji z programów freeware była znacznie gorsza niż ze stron internetowych.

Ekstraktor tekstu A-PDF

A-PDF Text Extractor to darmowy program, który całkiem dobrze radzi sobie z wyodrębnianiem tekstu z plików PDF . Po pobraniu i zainstalowaniu kliknij przycisk Otwórz(Open) , aby wybrać plik PDF . Następnie kliknij Wyodrębnij(Extract) tekst, aby rozpocząć proces.

ekstraktor apdf

Zapyta Cię o lokalizację do przechowywania tekstowego pliku wyjściowego, a następnie rozpocznie wyodrębnianie. Możesz także kliknąć przycisk Opcja(Option) , który pozwala wybrać tylko niektóre strony do wyodrębnienia i typ wyodrębniania. Druga opcja jest interesująca, ponieważ wyodrębnia tekst w różnych układach i warto wypróbować wszystkie trzy, aby zobaczyć, który daje najlepszy wynik.

Pilotażowy PDF2Text

PDF2Text Pilot dobrze(PDF2Text Pilot)  radzi sobie z wyodrębnianiem tekstu. Nie ma żadnych opcji; po prostu dodajesz pliki lub foldery, konwertujesz i masz nadzieję na najlepsze. Działało dobrze na niektórych plikach PDF(PDFs) , ale w przypadku większości z nich było wiele problemów.

pdf2text

Po prostu kliknij Dodaj pliki(Add Files) , a następnie kliknij Konwertuj(Convert) . Po zakończeniu konwersji kliknij Przeglądaj(Browse) , aby otworzyć plik. Twój przebieg będzie się różnić przy użyciu tego programu, więc nie oczekuj wiele.

Warto również wspomnieć, że jeśli jesteś w środowisku korporacyjnym lub możesz zdobyć kopię Adobe Acrobat z pracy, możesz naprawdę uzyskać znacznie lepsze wyniki. Acrobat oczywiście nie jest darmowy, ale ma opcje konwersji plików PDF(PDF) do formatu Word , Excel i HTML . Najlepiej sprawdza się również w utrzymaniu struktury oryginalnego dokumentu i konwersji skomplikowanego tekstu.



About the author

Jestem inżynierem Windows, ios, pdf, błędów, gadżetów z ponad 10-letnim doświadczeniem. Pracowałem nad wieloma wysokiej jakości aplikacjami i frameworkami Windows, takimi jak OneDrive dla Firm, Office 365 i nie tylko. Moja ostatnia praca obejmowała opracowanie czytnika PDF dla platformy Windows i pracę nad tym, aby komunikaty o błędach były bardziej zrozumiałe dla użytkowników. Dodatkowo od kilku lat jestem zaangażowany w rozwój platformy ios i dobrze znam zarówno jej funkcje, jak i dziwactwa.



Related posts