Doc2Vecについて今まで4回にわたって記事を書いてきました。 今回は前回までの簡単なまとめと、Doc2Vecを使う際の問題点について記述していきたいと思います。 Doc2Vec記事のまとめ Pythonのgensim […]
【Doc2Vec:その4】評価値向上の検証
前回、簡単なモデル作成まで行いました。 文書内の区分ごとで比較したところ文章が長い方が評価結果が良い傾向になりました。しかし、パラメータ調整することや、学習データに手を加えるなど評価値を上げる方法はいくつか考えることがで […]
【Doc2Vec:その3】モデルの評価
本記事では実際に作成したモデルを評価した方法について紹介します。 評価に関しては正解不正解が判定できる2値分類などと違い、対象としたものによって上手く評価方法を見極めて評価してする必要があります。 そのため、本記事では1 […]
【Doc2Vec:その2】gensimでの実装方法
本記事では実際にgensimを使って文書のベクトル化をしていく方法について記述していきます。 gensimのDoc2Vecの記述方法と学習に使う文書データの2つについて記述していきます。 Pythonの全体コード [cr […]
【Doc2Vec:その1】Doc2Vecの簡単な概要と導入(環境構築的な話)
近年、機械学習を用いて様々なタスクを処理することや、自動化することが増えています。 今回はそんな機械学習により文書をベクトル化するDoc2Vecというものについて記述していきたいと思います。 5回にわたりDoc2Vecに […]
圧縮ファイル圧縮解除時のパストラバーサル脆弱性の対応
圧縮ファイルの圧縮解除処理でパストラバーサルの脆弱性を招く問題とその対応について説明します。 問題 圧縮ファイルの圧縮解除処理で、パストラバーサルの脆弱性を含むコードは以下になります。 [crayon-62bd9b370 […]
入力データを作成して、学習させる
早速、訓練データとテストデータを作成してみたいと思います。非常に簡単な例として、一次関数のグラフを書いて、適当に点をプロットして、そのグラフよりも下にある点を+1、そのグラフよりも上にある点を-1としたものをデータとして […]
モデルを評価する(補足)
交差検証という名称について 前のエントリーで、交差検証について書きましたが、交差検定と呼ばれることもあります(ありました?)。ただ、検定というと、統計学の用語であって、あらぬ誤解を生む可能性があるので、交差検証又は交差確 […]
モデルを評価する
作成したモデルが良いものであるか、そうでないかを判断するにはどうすればよいでしょうか。よく使われる手法としては、交差検証(分割交差検証、n-fold cross-validation)が行われます。 n-fold cro […]
SVMに入力するデータについて
前回のエントリーでSVMにはベクトルを入力すると言いました。また、学習のためには、そのベクトルがそのジャンルに含まれるか含まれないか、という目印も必要です。 これまでジャンル、という曖昧な言葉を使っていましたが、今後は、 […]
TinySVM: svm_learnのパラメータについて
前回は、TinySVMのインストールと実行をしてみました。ここで少し、実行時に使ったパラメータについて観察してみます。 TinySVM svm_learnのパラメータ svm_learnの実行のテストに使ったコマンドは上 […]
TinySVMを使ってみる
機械学習がプロダクトに応用されることが、非常に多くなりました。とはいえ、機械学習を学ぼうと思うと、数式の理解など非常に大変です。そこで、とりあえず機械学習というものを使ってみる、ということを目指して、少し書いてみたいと思 […]