Question
Is it possible to develop a plugin to read a pdf file and write a wiki file?
I have clients who need to read a pdf file with legal newspaper every day and I am trying to build a legal document management system inside a wiki engine.
About wiki files, could be a native xml database the management of wiki files such as sedna, eXist or xindice?
Environment
--
MarcioCarneiro - 23 Oct 2007
Answer
If you answer a question - or someone answered one of your questions - please remember to edit the page and set the status to answered. The status selector is below the edit box.
Hi Marcio!
Altough you will need some engineering efforts, yes, it's possible (and after, you can publish your own piece of software, better if free software!). Such flux can be stated as:
PDF -> PDF filter -> Wiki format converter -> Input
Well, the PDF block is your newspaper (um Di�rio Oficial da Uni�o, I think),
The PDF can be parsed/manipulated via Perl, for instance (look at
http://search.cpan.org/~antro/PDF-111/PDF.pm
). That's your filter block.
The Wiki format converter can even be part of the lst module, embedded into the same perl (convertin keywords/tags into wiki tags).
And the insert can be made also via Perl using DBI.
--
MauricioMauad - 23 Oct 2007
Ol�, Maur�cio.
N�o programo em perl e estou procurando algu�m que possa fazer o c�digo.
N�o pensei em perl mas em usar os recursos j� existentes e que podem fazer muito da convers�o que pretendo, como xpdf, pdfkd, myPDF3 e outros programas que convertem e mexem com PDF. Bash, awk e sed com grep tamb�m seriam usados.
A id�ia � aproveitar estes recursos para criar um arquivo em .sh que realize tudo a partir do PDF.
Sim, o alvo � o Di�rio Oficial e da Justi�a, Federal e dos Estados, bem como outros arquivos PDF, como manuais de tecnologias de transportes.
--
MarcioCarneiro - 25 Oct 2007
Ol�, Maur�cio.
N�o programo em perl e estou procurando algu�m que possa fazer o c�digo.
N�o pensei em perl mas em usar os recursos j� existentes e que podem fazer muito da convers�o que pretendo, como xpdf, pdfkd, myPDF3 e outros programas que convertem e mexem com PDF. Bash, awk e sed com grep tamb�m seriam usados.
A id�ia � aproveitar estes recursos para criar um arquivo em .sh que realize tudo a partir do PDF.
Sim, o alvo � o Di�rio Oficial e da Justi�a, Federal e dos Estados, bem como outros arquivos PDF, como manuais de tecnologias de transportes.
No entanto, pretendo criar e editar arquivos wiki em TEXTO PURO, o que complica um pouco, pois s�o poucos os wikis que usam TEXTO para guardar os dados.
D� uma olhada em
http://www.wikimatrix.org/compare/ikiwiki+MediaWiki+TikiWiki+TWiki
. Creio que a melhor escolha seria o Twiki, mas o autor me disse que o arquivo de texto � propriet�rio, sem especificar o quanto, isto �, n�o sei se posso "cat wiki.file" e ler o conte�do.
MediaWiki,
TikiWiki e TWiki exportam para diversos formatos.
S� TWiki usa
RCS para arquivar dados.
Minha quest�o com o formato de arquivo para arquivar os dados � com a recupera��o de informa��o por usu�rios de rede e da Internet ao mesmo tempo em que os dados s�o pesquisados pelos servidores de busca, como Google.
Sendo banco de dados (o formato de arquivo de dados), os "search engines" n�o t�m acesso ao texto completo e a pesquisa tem de ser feita na pr�pria p�gina do servidor do wiki.
Eu gostaria de armazenar tudo em TEXTO para facilitar a pesquisa pela Internet e rede local.
--
MarcioCarneiro - 25 Oct 2007
Isn't this spanish discussion off topic? -- Please move to a new topic!
--
FranzJosefGigler - 26 Oct 2007
I moved off-topic content from
StructuredWiki to here.
--
PeterThoeny - 31 Oct 2007