Text från Word-dokument och PDF-dokument till MySQL

Tråden skapades och har fått 3 svar. Det senaste inlägget skrevs .
1

Hejsan!

Jag utvecklar som ni kanske vet i Lasso, T-SQL, FM och lite annat, men har inte satt mig in i alla detaljer ännu i Lasso 5 och MySQL. Har ett fall här då kunden vill arkivera dokument i Word och PDF (och en del andra filformat) och vill då få in texten i dokumenten i en databas för sökning via internet. Hade tänkt att basera förslaget på Applescript och FileMaker tillsammans med de olika applikationerna och helt sonika öppna dokumenten i programmen och kopiera texten och skapa poster i databasen. Detta har jag precis listat ut hur man gör i Applescript. Men eftersom jag gärna vill ha en ursäkt att rekommendera MySQL (bland annat för att det är snabbare) så undrar jag om någon av er kan tänka ut något fiffigt sätt att flytta text från Word och PDF till en MySQL-databas.

Idéer?

/Ola

Är det ingen som har några idéer på hur man kan flytta text från Word till MySQL (via Applescript som faktiskt kan skicka URL´er med valfria parametrar)?

/Ola

Det krångliga är väl att extrahera texten ur dokumenten? Detta funkar säkert inte alltid eftersom Word är så underligt.

Programmet Xpdf som finns i Fink innehåller pdftotext som borde gå att skripta för att extrahera text från Pdfer och importera i MySQL.
Hittade även programmet Antiword i Fink, som kan användas att plocka ut texten ur Worddokument.

Min lösning på problemet baserar sig på Applescript: Öppna dokumenten i Word, kopiera texten. Stoppa in det hela i en URL (Post-action), skicka iväg till en middleware på en server som skapar en post i en MySQL-databas med data den tar emot. Möjligtvis kan man tänka sig att gå via en Applescript-kompatibel databas som tex FileMaker innan man skickar URL´er. Eller kanske exportera från FM eller från Applescript direkt som tex text-filer eller xml eller något.

Om ni, som jag undrar vad Fink är så kolla här:

Information om projektet Fink

Tack för ditt svar Fredrik! Jag skall kolla lite på dessa alternativ och ser om jag kan lista ut hur man scriptar dem.

/Ola

1
Bevaka tråden