圧縮ファイルの圧縮解除処理でパストラバーサルの脆弱性を招く問題とその対応について説明します。 問題 圧縮ファイルの圧縮解除処理で、パストラバーサルの脆弱性を含むコードは以下になります。 [crayon-603961bba […]
入力データを作成して、学習させる
早速、訓練データとテストデータを作成してみたいと思います。非常に簡単な例として、一次関数のグラフを書いて、適当に点をプロットして、そのグラフよりも下にある点を+1、そのグラフよりも上にある点を-1としたものをデータとして […]
モデルを評価する(補足)
交差検証という名称について 前のエントリーで、交差検証について書きましたが、交差検定と呼ばれることもあります(ありました?)。ただ、検定というと、統計学の用語であって、あらぬ誤解を生む可能性があるので、交差検証又は交差確 […]
モデルを評価する
作成したモデルが良いものであるか、そうでないかを判断するにはどうすればよいでしょうか。よく使われる手法としては、交差検証(分割交差検証、n-fold cross-validation)が行われます。 n-fold cro […]
SVMに入力するデータについて
前回のエントリーでSVMにはベクトルを入力すると言いました。また、学習のためには、そのベクトルがそのジャンルに含まれるか含まれないか、という目印も必要です。 これまでジャンル、という曖昧な言葉を使っていましたが、今後は、 […]
TinySVM: svm_learnのパラメータについて
前回は、TinySVMのインストールと実行をしてみました。ここで少し、実行時に使ったパラメータについて観察してみます。 TinySVM svm_learnのパラメータ svm_learnの実行のテストに使ったコマンドは上 […]
TinySVMを使ってみる
機械学習がプロダクトに応用されることが、非常に多くなりました。とはいえ、機械学習を学ぼうと思うと、数式の理解など非常に大変です。そこで、とりあえず機械学習というものを使ってみる、ということを目指して、少し書いてみたいと思 […]
JP Markdown + Crayon Syntax Highlighter
本ブログの記事では、見出しやリストを入れることが多いのですが、そのためいちいちタグを打つのも面倒です。そこで、WordPressでMarkdownを使えるように、JP Markdownというプラグインを追加してみました。 […]
WP QuickLaTeX
WP QuickLaTeXというプラグインをインストールしてみました。LaTeXの要領で数式を書くと、SVG画像に変換してくれます。 たとえば、正規分布の確率密度関数は…、 なかなか使いやすそうです。
AndroidでTesseractを使用する その5 一工夫編
前回までで、語レベルの認識範囲と認識された文字が取得できることが分かりました。最後に、文単位に、文の領域を描画するプログラムを考えてみます。 最初にどのようなデータ構造にすればいいか考えます。まず、文は語の集まりで、語ご […]
AndroidでTesseractを使用する その4 文字認識編2
文字認識編では、getUTF8Text()関数によって認識した文字列が取り出せると書きましたが、この文字列は半角スペースによって語が区切られています。しかし、ノイズが乗ってしまった場合であるとか、日本語のような単語の区切 […]
AndroidでTesseractを使用する その3 認識範囲を取得する
getUTF8Text関数を実行した後に、認識結果の詳細データを取得することができます。 今回は、どの範囲を文字として認識したかを取得します。 tess-twoでは、始めに文字が含まれていそうな行を認識し、その次に、その […]