Wyodrębnij tekst z plików PDF i obrazów
Masz dokument PDF , z którego chcesz wyodrębnić cały tekst? A co z plikami obrazów zeskanowanego dokumentu, który chcesz przekonwertować na tekst do edycji? Oto niektóre z najczęstszych problemów, jakie napotkałem w miejscu pracy podczas pracy z plikami.
W tym artykule omówię kilka różnych sposobów na wyodrębnienie tekstu z pliku PDF(PDF) lub obrazu. Wyniki ekstrakcji będą się różnić w zależności od typu i jakości tekstu w pliku PDF(PDF) lub obrazie. Ponadto Twoje wyniki będą się różnić w zależności od używanego narzędzia, dlatego najlepiej jest wypróbować jak najwięcej poniższych opcji, aby uzyskać najlepsze wyniki.
Wyodrębnij tekst z obrazu lub pliku PDF
Najprostszym i najszybszym sposobem na rozpoczęcie jest wypróbowanie usługi wyodrębniania tekstu PDF online. (PDF)Są one zwykle bezpłatne i mogą dać dokładnie to, czego szukasz, bez konieczności instalowania czegokolwiek na komputerze. Oto dwa, których użyłem z bardzo dobrymi lub doskonałymi wynikami:
Wyodrębnij PDF
ExtractPDF to darmowe narzędzie do pobierania obrazów, tekstu i czcionek z pliku PDF . Jedynym ograniczeniem jest to, że maksymalny rozmiar pliku PDF to 10 MB. To trochę małe; więc jeśli masz większy plik, wypróbuj inne metody poniżej. Wybierz plik, a następnie kliknij przycisk Wyślij plik(Send file) . Wyniki są zwykle bardzo szybkie i powinieneś zobaczyć podgląd tekstu po kliknięciu zakładki Tekst .(Text)
Jest to również miła dodatkowa zaleta, że wyodrębnia również obrazy z pliku PDF , na wszelki wypadek! Ogólnie rzecz biorąc, narzędzie online działa świetnie, ale natknąłem się na kilka dokumentów PDF , które dają mi zabawne wyniki. Tekst jest dobrze wyodrębniany, ale z jakiegoś powodu po każdym słowie będzie miał podział wiersza! Nie jest to duży problem w przypadku krótkiego pliku PDF , ale z pewnością problem w przypadku plików z dużą ilością tekstu. Jeśli tak się stanie, wypróbuj następne narzędzie.
OCR online
OCR online(Online OCR) zwykle działał w przypadku dokumentów, które nie zostały poprawnie przekonwertowane za pomocą ExtractPDF , więc dobrym pomysłem jest wypróbowanie obu usług, aby zobaczyć, które z nich zapewniają lepsze wyniki. Online OCR ma również kilka fajniejszych funkcji, które mogą okazać się przydatne dla każdego, kto ma duży plik PDF , który wymaga tylko konwersji tekstu na kilku stronach, a nie całego dokumentu.
Pierwszą rzeczą, którą chcesz zrobić, to założyć darmowe konto. To trochę irytujące, ale jeśli nie utworzysz darmowego konta, tylko częściowo skonwertuje plik PDF(PDF) , a nie cały dokument. Ponadto, zamiast przesyłać tylko dokument o wielkości 5 MB, możesz przesłać do 100 MB na plik za pomocą konta.
Najpierw wybierz język, a następnie wybierz typ formatów wyjściowych, które chcesz przekonwertować. Masz kilka opcji i możesz wybrać więcej niż jedną, jeśli chcesz. W sekcji Dokument wielostronicowy(Multipage document) możesz wybrać Numery stron(Page numbers) , a następnie wybrać tylko te strony, które chcesz przekonwertować. Następnie wybierasz plik i klikasz Konwertuj(Convert) !
Po konwersji zostaniesz przeniesiony do sekcji Dokumenty(Documents) (jeśli jesteś zalogowany), gdzie możesz zobaczyć, ile wolnych stron pozostało Ci, a także linki do pobrania przekonwertowanych plików. Wygląda na to, że masz tylko 25 stron za darmo dziennie, więc jeśli potrzebujesz więcej, będziesz musiał trochę poczekać lub kupić więcej stron.
OCR online(Online OCR) wykonał świetną robotę konwertując moje pliki PDF(PDF) , ponieważ był w stanie zachować rzeczywisty układ tekstu. W moim teście wziąłem dokument Worda(Word) , który używał punktorów, różnych rozmiarów czcionek itp. i przekonwertowałem go na plik PDF(PDF) . Następnie użyłem OCR online(Online OCR) , aby przekonwertować go z powrotem do formatu Worda(Word) i był w około 95% taki sam jak oryginał. To dla mnie imponujące.
Dodatkowo, jeśli chcesz przekonwertować obraz na tekst, OCR online(Online OCR) może to zrobić tak samo łatwo, jak wyodrębnianie tekstu z plików PDF .
Darmowe OCR online
Ponieważ mówiliśmy o OCR(OCR) obrazu do tekstu , wspomnę o innej dobrej stronie internetowej, która działa naprawdę dobrze na obrazach. Darmowy OCR online(Free Online OCR) był bardzo dobry i bardzo dokładny podczas wyodrębniania tekstu z moich obrazów testowych. Zrobiłem kilka zdjęć z mojego iPhone'a stron z książek, broszur itp. i byłem zaskoczony, jak dobrze był w stanie przekonwertować tekst.
Wybierz plik, a następnie kliknij przycisk Prześlij(Upload) . Na następnym ekranie dostępnych jest kilka opcji i podgląd obrazu. Możesz go przyciąć, jeśli nie chcesz OCR całości. Następnie po prostu kliknij przycisk OCR , a przekonwertowany tekst pojawi się pod podglądem obrazu. Nie ma też żadnych ograniczeń, co jest naprawdę miłe.
Oprócz usług online istnieją dwa darmowe konwertery PDF , o których chcę wspomnieć, na wypadek, gdyby do przeprowadzenia konwersji potrzebne było oprogramowanie działające lokalnie na komputerze. W przypadku usług online zawsze będziesz potrzebować połączenia z Internetem(Internet) , a to może nie być możliwe dla wszystkich. Zauważyłem jednak, że jakość konwersji z programów freeware była znacznie gorsza niż ze stron internetowych.
Ekstraktor tekstu A-PDF
A-PDF Text Extractor to darmowy program, który całkiem dobrze radzi sobie z wyodrębnianiem tekstu z plików PDF . Po pobraniu i zainstalowaniu kliknij przycisk Otwórz(Open) , aby wybrać plik PDF . Następnie kliknij Wyodrębnij(Extract) tekst, aby rozpocząć proces.
Zapyta Cię o lokalizację do przechowywania tekstowego pliku wyjściowego, a następnie rozpocznie wyodrębnianie. Możesz także kliknąć przycisk Opcja(Option) , który pozwala wybrać tylko niektóre strony do wyodrębnienia i typ wyodrębniania. Druga opcja jest interesująca, ponieważ wyodrębnia tekst w różnych układach i warto wypróbować wszystkie trzy, aby zobaczyć, który daje najlepszy wynik.
Pilotażowy PDF2Text
PDF2Text Pilot dobrze(PDF2Text Pilot) radzi sobie z wyodrębnianiem tekstu. Nie ma żadnych opcji; po prostu dodajesz pliki lub foldery, konwertujesz i masz nadzieję na najlepsze. Działało dobrze na niektórych plikach PDF(PDFs) , ale w przypadku większości z nich było wiele problemów.
Po prostu kliknij Dodaj pliki(Add Files) , a następnie kliknij Konwertuj(Convert) . Po zakończeniu konwersji kliknij Przeglądaj(Browse) , aby otworzyć plik. Twój przebieg będzie się różnić przy użyciu tego programu, więc nie oczekuj wiele.
Warto również wspomnieć, że jeśli jesteś w środowisku korporacyjnym lub możesz zdobyć kopię Adobe Acrobat z pracy, możesz naprawdę uzyskać znacznie lepsze wyniki. Acrobat oczywiście nie jest darmowy, ale ma opcje konwersji plików PDF(PDF) do formatu Word , Excel i HTML . Najlepiej sprawdza się również w utrzymaniu struktury oryginalnego dokumentu i konwersji skomplikowanego tekstu.
Related posts
Jak łączyć lub scalać wiele plików tekstowych
Najlepsza darmowa alternatywna przeglądarka plików PDF do Adobe Reader
Konwertuj komputer z systemem Windows na maszynę wirtualną za pomocą Hyper-V
Jak zmienić kolor ikony folderu w systemie Windows
Najlepsze darmowe narzędzie do defragmentacji dla systemu Windows jest samo
Jak tworzyć, montować i nagrywać pliki obrazów ISO za darmo?
Jak zsynchronizować dwa foldery w czasie rzeczywistym w systemie Windows
Jak korzystać z podpisów HTML w Gmailu, Hotmail, Yahoo
Darmowe narzędzia do dostosowywania menu kontekstowego prawego przycisku myszy
5 aplikacji VR, które nie są grami
6 bezpłatnych aplikacji do nagrywania płyt Blu-ray
Kod HTML do owijania tekstu wokół obrazu
Szybkie przeglądanie obrazów i dokumentów PDF za pomocą przeglądarki PRIMA Rapid Image Viewer
Mapuj folder na literę dysku w systemie Windows
Niezbędne pliki do pobrania bezpłatnego oprogramowania dla systemu Windows
Jak rozpoznać muzykę lub utwory według dźwięku
10 najlepszych narzędzi do oznaczania plików MP3 i edytowania metadanych
Najlepszy darmowy program do czyszczenia rejestru systemu Windows
Jak wyodrębnić ikony z plików EXE, DLL, OCX i CPL?
ImBatch to bezpłatne oprogramowanie do przetwarzania obrazów wsadowych na komputer z systemem Windows