前回までで、語レベルの認識範囲と認識された文字が取得できることが分かりました。最後に、文単位に、文の領域を描画するプログラムを考えてみます。 最初にどのようなデータ構造にすればいいか考えます。まず、文は語の集まりで、語ご […]
AndroidでTesseractを使用する その4 文字認識編2
文字認識編では、getUTF8Text()関数によって認識した文字列が取り出せると書きましたが、この文字列は半角スペースによって語が区切られています。しかし、ノイズが乗ってしまった場合であるとか、日本語のような単語の区切 […]
AndroidでTesseractを使用する その3 認識範囲を取得する
getUTF8Text関数を実行した後に、認識結果の詳細データを取得することができます。 今回は、どの範囲を文字として認識したかを取得します。 tess-twoでは、始めに文字が含まれていそうな行を認識し、その次に、その […]
AndroidでTesseractを使用する その2 文字認識編
事前知識の取得 その1では、*.soファイルと、jarファイルが生成されたところまで追いました。 さて、これらのファイルは、OCRの機能を提供するものなのですが、あくまで機能を提供するだけであって、画像認識をするための手 […]
AndroidでTesseractを使用する その1 ビルド編
Tesseractという、OCRエンジンがあります。また、それをAndroidで使用するための、tesseract-android-tools、そして、更にそれをfolkしたtess-twoと呼ばれるものがあります。この […]