scikit-learnとTensorFlowによる実践機械学習p49-p50
今日覚えたこと
np.random.permutation(x) ->xを並び替える
iloc ,loc ->pandas のやつ。iloc loc は複数、または単独の要素の値を取得、変更するためのものilocは行番号、列番号、locはラベルで取得する。
import hashlib
key="hello"
hashlib.md5(key.encode())hexdigest()
->ハッシュ化するための命令
・データセットを作るときは、ハッシュの値を参照してtest_data, train_dataを分ける。こうすることでデータが更新されたときに以前学習に使用したデータがテストデータに混入することを防ぐ。
~in_test_set -> python上のチルダはビット反転,しかしpythonは上限がないため正確には~x=-(x+1)となる。
apply() -> DataFrameの各行・各列に適用デフォルトでは各列に対して適用される。()内の関数に引数として渡す。
長年の謎がとける
乱数のseedの値に42が多いのが気になっていたが、今日kerasの本で勉強していたらその答えが書いてあった。
”生命、宇宙、そして万物についての究極の疑問の答え”
である以外に特に意味はないらしい。
聞いたことはあったが乱数の種の数字と全く結びついて来なかったのでわかってスッキリした。
詳しくはwikiを参照してください。
生命、宇宙、そして万物についての究極の疑問の答え[1](せいめい、うちゅう、そしてばんぶつについてのきゅうきょくのぎもんのこたえ、原文: Answer to the Ultimate Question of Life, the Universe, and Everything)は、ダグラス・アダムズのSF作品『銀河ヒッチハイク・ガイド』に登場するフレーズである。
全時代および全世界において2番目に凄いコンピュータ、ディープ・ソートを作った。そのコンピュータが750万年かけて出した答えは「42」だった。
___wiki参照
この小説が書かれたのが1970年代なのに対して、深層学習が流行りだしたのが2000年代なのに世界で2番めに凄いコンピュータに”ディープ”という名前が入っているところにロマンを感じます。深層学習を利用した仕組みなのかな?気になる。