Txt2Latex v049

 

Txt2Latex ist ein Tool, welches für die Konvertierung von {txt,pdb,pdf} nach {txt,pdb,html} eingesetzt werden kann. Im Gegensatz zu anderen Programmen, führt txt2Latex neben dieser Konvertierung noch eine Reihe von Filteroperationen auf den Text aus, es kann zum Beispiel, einzelne Zeilen zu Blöcken zusammenziehen, wobei Worttrenner ebenso korrekt entfernt werden, wie Seitenzahlen. Um txt2Latex zu verwenden wird eine JAVA Umgebung (v1.3) benötigt, wie so bei jedem vernünftigen Browser auch mitgeliefert wird. Wer kein JRE installiert hat, erhält es unter

http://java.sun.com/j2se/1.3/jre/

 

Beispiel

Ein Text der Form

 

Dies ist nur ein ein-

1

facher Test, bla bla Rük-

2

ken bla bla.

3

Rück-

4

koppelung bla bla –

5

genial!

 

wird zu

 

Dies ist nur ein einfacher Test, bla bla Rücken bla bla.

ckkoppelung bla bla – genial!

 

wenn Seitenzahlenentfernung aktiviert ist.

 

News:

v0.49 - 03.03.2002

 - NEU: GUI leicht modifiziert um Platz zu schaffen für neue Switches

 - NEU: Option um ,, durch " zu ersetzen

 - NEU: massenhaft Möglichkeiten um Textblöcke voneinander abzugrenzen. Bisher gab es nur extraNL, jetzt geht das auch mit einem Einzug, der klein oder gross sein kann, oder auch kombiniert mit extraNL 

 - FIX: Verbesserung der Block-Detection. Einige Spezialfälle werden jetzt korrekt aufgelöst. Stak-kato wird nicht mehr zu Stackato, genauso wie Ammoniak-kristall nun korrekt behandelt wird

 - BUG: v0.48 hat Wörter nicht rausgeschrieben, wenn sie am Zeilenende lagen, umgebrochen waren und im 2. Wortteil ein k der erste Buchstabe war (Bsp: Ka- kadu). In v0.49 gefixt.

Download

 

Manual: (@ by Tigger)

Das Programm über jrecall.bat starten, vorher die jrecall.bat editieren und überprüfen, ob der Pfad zum JRE korrekt gesetzt ist. Bevor ihr die Datei auswählt, müßt ihr eure Konvertiereinstellungen festlegen:

- zum Konvertieren von PDFs nehmt "Block detection: strong"

- Wenn im txt optionale Bindestriche sind, dann nehmt "Block detection: normal".

- Wenn im txt zuviele Leerzeilen sind, dann nehmt "Block detection: strong".

- Wer einfach nur das txt-file konvertieren will, nimmt "Block detection: none".

- Wer eine Datei für den Palm konvertiert, sollte unbedingt den Replace-Schalter aktivieren, welcher nach ",," (2 Kommas) sucht und diese durch einen Anführungsstrich oben ersetzt. Wer plant ein pdf aus dem Ergebnis File zu erstellen, führt das Ersetzen lieber in Word durch und ersetzt im ganzen Dokument ",," durch " „" (eigener Buchstabe in Word) und " durch “. Aber das ist Geschmackssache. Jeder wie er will :-).

 

Seitenzahlen können seit v047 entfernt werden!!!

Seht dabei nur zu, daß die Kapitelnummern nicht ebenfalls allein in einer Zeile stehen und keinen Punkt oder ähnliches hinter sich haben. Entfernt werden einzeln in einer Zeile stehende Ziffern!

 

Wer nach html umwandelt und mit der Preview kein Ergebnis bekommt, sollte die Preview mal abschalten.

 

Die PDBs sind für AportisDocReader oder cspotrun und ähnliche Palm-Reader.

 

Ein wenig manuelle Nachbehandlung ist auch jetzt noch sinnvoll, um die Kapitel wieder sauber voneinander zu trennen.

 

Solltet Ihr noch Anregungen zum Programm, oder Fragen haben, lest euch die Liesmich.txt durch oder schreibt an

smaarlin@gmx.de

 

Ältere News:  

v0.48 - 18.02.2002

-         PDF Import.

Tigger hat mich auf ein grandioses Tool aufmerksam gemacht: xpdf

Dank diesem Tool werden pdf Files zu .txt-Files konvertiert (wobei natürlich die Formatierung verlorengeht, aber für pdb reicht das allemal), und dann von txt2Latex weiterverarbeitet.

Die Datei pdftotext.exe musz sich im gleichen Verzeichnis wie txt2Latex.jar befinden!

PDF Import mit Block Detection STRONG verwenden, da xpdf die Seiten mit mehreren Zeilentrennern voneinander trennt. Die kriegt man mit NORMAL nicht raus.

-         Fixes zur Blockdetection: Gewisse Akronyme beenden    jetzt nicht mehr durch den '.' hinten einen Block.

Also Mr. (neue Zeile) Harrington wird jetzt korrekt zusammengezogen.

Gleiches gilt für Ms. Mrs. Dr. und bzw.

 

v0.47 - 09.02.2002

-         Wörter, die durchgehend groß geschrieben werden, wie STAR- DUST werden korrekt zu STARDUST zusammengezogen

-         endlich ein Seitenzahlenentferner! Arbeitet sehr defensiv, Seitenzahlen werden nur entfernt, wenn die Seitenzahl allein in einer Zeile steht (ohne nachfolgendem Punkt!). Andernfalls kann nicht gewährleistet werden, daß nicht versehentlich eine Zahl aus dem Text oder eine Überschrift der Form "1." gelöscht wird. Besser ein paar Seitenzahlen drin lassen, als den Text zu verstümmeln!

 

v0.46 - 30.12.2001

-         BUGFIX: zentralisierte Zeilen in Textdokumenten sollten jetzt besser erkannt werden

-         BUGFIX: eine wenige Bytes werden von JAVA falsch zu Charactern konvertiert. Dazu zählen ’ ” — . Da dieser Fehler in einer Java Sun Klasse auftritt, kann ich nur einen Workaround anbieten, der diesen Fehler umgeht und die betroffenen Zeichen durch andere Characters ersetzt. (’ -> ', ” -> ", — -> -)

-         Sollte aber ausreichen :-)

Ein Danke schön an Boogie der mich auf die Bugs aufmerksam gemacht hat!

 

v0.45 - 28. Dez. 2001

 - NEU: html export

            multi export: eine Datei wird als html, txt, und pdb abgespeichert

            Möglichkeit einen extra Zeilentrenner nach einem Block zu schreiben

            pdb Import

 ACHTUNG! Diese Neuerungen sind im Editor nicht verfügbar!

 

 - FIXED: backup Modus verschiebt die Originaldateien in einen BackupFolder. Ab sofort gibt es keine .new Dateien mehr :-)

 

txt2Latex ist Freeware

@ 2002 by smaarlin@gmx.de