Hallo,
hat jemand von Euch Erfahrungen im Trainieren von Tesseract (mittels jTessBox) für eine neue Sprache? Insbesondere interessiert mich gerade, ob ich in der box-Datei fälschlich erkannte Buchstabengruppen in einzelne Buchstaben aufteilen muss, oder ob es besser ist, diesen die richtigen Buchstaben als Gruppe zuzuweisen. Bsp (kyrillisch):
Bisher habe ich alles in Einzelbuchstaben aufgetrennt, aber nach vier bearbeiteten Seiten ist die Erkennungsleistung noch kaum besser geworden.
Michael :-D
hat jemand von Euch Erfahrungen im Trainieren von Tesseract (mittels jTessBox) für eine neue Sprache? Insbesondere interessiert mich gerade, ob ich in der box-Datei fälschlich erkannte Buchstabengruppen in einzelne Buchstaben aufteilen muss, oder ob es besser ist, diesen die richtigen Buchstaben als Gruppe zuzuweisen. Bsp (kyrillisch):
Code:
рос wird falsch als щ erkannt
щ 1985 3628 2115 3695 4
soll ich nun die einzelnen Buchstaben auftrennen als
р 1985 3628 2032 3695 4
о 2033 3645 2075 3695 4
с 2075 3645 2115 3695 4
oder eine Buchstabengruppe
рос 1985 3628 2115 3695 4
zuweisen?
Bisher habe ich alles in Einzelbuchstaben aufgetrennt, aber nach vier bearbeiteten Seiten ist die Erkennungsleistung noch kaum besser geworden.
Michael :-D