måndag 29 januari 2007

Konvertera worddokument till html

Jag gillar inte att få wordfiler - för många tillämpningar är det bättre att använda en vanlig textfil eller html om man vill ha mer avancerad formatering. Dessutom krävs att man använder ett jätteprogram som ms word eller openoffice.
(läs mer här eller här eller varför inte här)

Jag fick en zipfil med massa worddokument i. Alldeles för jobbigt att konvertera för hand med openoffice. Istället konverterade jag .doc-filerna med hjälp av wvWare och filnamnens kodning med convmv.
#!/bin/bash
zipfile=/tmp/Cookbook2.zip
cd /tmp
mkdir -p kokbok
rm -rf kokbok
mkdir -p kokbok
cd kokbok
cp $zipfile .
unzip *.zip
rm *.zip
#convert those filenames
convmv -f iso8859-1 -t utf-8 * --notest -r
#convert from .doc to .html
find . -type f -name "*.doc" -exec word2html.sh {} \;
#delete the word files
find . -type f -name "*.doc" -exec rm {} \;
#zip everything together
zip -r /tmp/htmlcookbook.zip .
...där word2html.sh är scriptet
#!/bin/bash
if [ $# -ne 1 ]; then
echo exactly one input arg required
exit 1
fi

if [ ! -e "$1" ] ; then
echo "input file does not exist"
fi

outname=`echo "$1" | sed -e 's/.doc$/.html/g'`
wvWare "$1" > "$outname"


och vips så är rubbet konvertertat på en gång.

Inga kommentarer: