Extrahera text ur en PDF-fil

Tråden skapades och har fått 13 svar. Det senaste inlägget skrevs .
1
  • Medlem
  • International user
  • 2007-01-08 16:13

Finns det något sätt att extrahera text ur en PDF-fil via ett terminal-kommando? Har Apple något sådant kommando inbyggt?. Det finns några varianter ute, t.ex. pdf-tools. Men jag vill ha ett fritt alternativ. Eller möjligen ett med rimlig prislapp, runt en tusenlapp.

Ett verktyg är pdftk (PDF Toolkit). PDftk finns dock inte som standard i OSX men den finns bla i pakethanteringssystemen Macports och Fink.

  • Medlem
  • Simrishamn
  • 2007-01-08 17:54

Hejsan! Eftersom jag inte hade något bättre för mig pillade jag ihop ett program som gör detta åt dig.
Du kör det från terminalen såhär:
pdfextract /path/to/file

Jag har bara testat det lite snabbt, men det verkar funka som det ska. Ladda ner här:
http://hannesp.se/files/pdfextract.zip

  • Medlem
  • Simrishamn
  • 2007-01-08 18:10

När jag testade det på en tämligen stor fil, upptäckte jag att det inte riktigt fungerar lika bra som på min lilla testfil... du får berätta hur det gick, så ska jag se om jag kan göra något åt det.

  • Medlem
  • Simrishamn
  • 2007-01-08 20:41

Uppdatering: jag gjorde en liten tillfixning, och nu visar det sig att det fungerar mycket bättre! Den klarade en 150-sidors PDF utan problem nu. (förutom ett felmeddelande från ramverket som inte verkar gå att ta bort)
Den ligger på samma URL

  • Medlem
  • International user
  • 2007-01-08 20:44
Ursprungligen av HannesP:

Uppdatering: jag gjorde en liten tillfixning, och nu visar det sig att det fungerar mycket bättre! Den klarade en 150-sidors PDF utan problem nu. (förutom ett felmeddelande från ramverket som inte verkar gå att ta bort)
Den ligger på samma URL

Intressant. Kan du beskriva mer vad det är du har gjort? Kod, vilket ramverk mm.

  • Medlem
  • Simrishamn
  • 2007-01-08 21:03

Ah, ja, visst. Det är ett väldigt enkelt verktyg som använder ramverket PDFKit, som finns i ramverket Quartz. Den skapar ett nytt PDF-dokument utifrån den specifierade pathen, och hämtar ut text-innehållet från det, och skrivet det därefter till stdout. Det hela är ett mycket simpelt program.
Här finns källkoden: http://hannesp.se/files/pdfextract_source.zip

  • Medlem
  • Simrishamn
  • 2007-01-10 18:32

Jag gjorde lite ändringar, så nu borde den visa vissa tecken korrekt, istället för frågetecken. Samma URL för både källa och binär.

Jag skriver den här frasen här så att denna tråd går att hitta när man söker efter den (vilket jag inte gjorde tidigare...)

exportera text ur pdf-fil

  • Medlem
  • International user
  • 2007-04-02 16:08

Jag har hittat ett litet vektyg som gör ett riktigt bra jobb. pdftotext, det tar all text från en PDF-fil, ser bl.a. till att radbrutna ord blir "hela" igen. All text i PDF:en blir på en enda rad.

Vi har gjort en liten testimport i en MySQL-databas med texten från ca 15.000 PDF-filer utan något problem. Ser mycket lovande ut.

Om man som jag bara vill konvertera enstaka PDF filer så kan man använda ovan länkade "pdftotext" och bygga en liten Automator applikation. Sedan kan man "drag-n-drop" PDF filen på Automator appen och ut kommer en text fil. Snabbt och smärtfritt. Jag har lagt med en bild på hur det ser ut i Automator.

  • Medlem
  • Simrishamn
  • 2007-04-05 21:50

Bara av ren nyfikenhet: är det något fel på verktyget jag gjorde (pdfextract)? Undrar inte för att jag är purken över att ni inte använder det, utan därför att jag är nyfiken, då det funkade perfekt på min dator.

  • Medlem
  • International user
  • 2007-04-05 22:22
Ursprungligen av HannesP:

Bara av ren nyfikenhet: är det något fel på verktyget jag gjorde (pdfextract)? Undrar inte för att jag är purken över att ni inte använder det, utan därför att jag är nyfiken, då det funkade perfekt på min dator.

Inte fel, men lite "malfunction". T.ex. levererar ditt koncept radbrutna, icke sökbara, strängar.

Tar upp tråden igen!

Har i stort sett aldrig någonsin använt terminalen, men tänkte mig testa om PDFtoText funkar. Ladda hem det, installerade det och för att slippa terminalen och för att göra ett arbetsflöde gjorde jag en kopia av Bjelkeman Automator-script. Jag väljer en väldigt enkel PDF i finder och kör scriptet. Inga fel, men den enda utskriften jag får är (""), se bild. Någon som kan ha någon aning om vad som kan vara fel?

1
Bevaka tråden