某大学生の機械学習日記

趣味はでぃーぷらーにんぐ

AKRacingのゲーミングチェアが届いたぞー!!(おまけでNLPについてのぼやき)

ちょーかっこいい。。。
作業の時間がかなり増えることを見越してそれなりの椅子をって探して即決したこの椅子、かっこいいわ座り心地も最高だわ捗ること間違いなし。

f:id:knto-h:20180524003411j:plain:w400

っていうだけだと機械学習日記にならないので一応最近思ったことを。

自然言語の文脈

 最近は僕の空き時間の7割型を自然言語周りの技術のリサーチに使っているのだが、調べていても目的によって様々な方法が採られており、人間の知識を可能な限りモデルに組み込もうという工夫を随所に感じた。そのため、調べれば調べるほど奥(闇)の深さが見えてくるようになりやべー知らないことばっかだーってなってるのが現状(強い人の肩にのりたい)。

 あと面白いなと思ったのは、文書要約を重要文抽出問題と捉えることで検索アルゴリズムを適用できるようにしたということとか(PageRank, TextRank)。課題を別の視点から観察して解決を試みる柔らかい発想は見習わないとなと感じた。

  • 抽出系
     個人開発レベルで色々(doc2vec/word2vec, SVM, RNN系, tfidf,,,)を使って簡単に意味のある語の抽出を試みたものの、単語抽出に関していえば従来の機械学習モデルの方がまだ精度良く、通常のDLだと難しいのかなと言った感触だった。それに一貫して言えるのがもっと前処理やハイパラの調整を丁寧に正確に行わないと自然言語処理では実践レベルの精度は出せないだろうなという感想だった。

  • 生成系
     僕が今関心を寄せているのはこの分野。ちゃんとした文章が生成できるという点については懐疑派なので、実際に手を動かしてみてどの程度のものが出来上がるのは感触を確かめたい。     つい最近googleがメールタイピングで文章予測をオンタイムで行う技術を発表していたがそれを見た限りでは文章としてはまともだった。まあでも日本語と英語じゃ勝手が違うだろうし、日本語じゃそんなうまくいかないだろうなと思っている。個人的にbest practiceな日本語の生成法は、Google APIを用いてまず英語に翻訳して英語で処理を施して結果を得る方法。日本語→英語の翻訳はかなり精度いいのでちゃんとしたものはできるはずだ。

今やってる強化学習の勉強がひと段落ついたらなんかここ関連で作ってみたいな。でもただ生成モデルを作るだけだと既存のパクリにしかならないし、どうせなら何か(画像/音声とか)と絡めてやってみたいな。   

(ほのぼの報告日記でした^^)