#
Git
Press
ひよっこアナライズ
Login
Author
ひよっこアナライズ
データ分析を生業としてひっそりと生きています。/ 要因分析、効果検証、数値予測、異常検知、テキスト分析なんでもやります。/ 主にPython、SQLユーザー。ごくまれにSPSS Modeler、R。/ このページは、「自分の備忘録としては残しておきたいが、N番煎じなのでQiitaには載せない」ことを書く。/ なので出力結果や詳細な説明は書いていない。/ Qiita: https://qiita.com/chicken_data_analyst
Collection
ひよっこアナライズ
has 0
collections
Posts
2024/04/25
pgmpyによるベイジアンネットワーク構築から評価、推論まで
my_dag = BayesianNetwork([('A','Y'), ('B','Y'), ('C','Y')
2024/04/24
shap.dependence_plotでラベルエンコーディングした変数の目的変数への影響を見る
cat_cols = ['A','B','C','D','E','F','G','H','I']dim = len(cat_cols)fig=plt.figure(figsize=(30,30))
2024/04/24
ダブルクロスバリデーション(Double Cross Validation, Nested Cross Validation)のコード
NGboostdtr_friedman_3 = DecisionTreeRegressor(criterion='friedman_mse', max_depth=3)FIXED_PARAMS = {"Base": dtr_friedman_3,
2024/04/11
dockerの備忘録
dockerの基本的な使い方参考のまとめ。docker desktopは有償化したのでdocker engineを使用した方がいい。docker engineはWindowsの場合、WSL上で使う。
2024/04/05
Shapで可視化画像の調整をする
show=Falseを設定してfig = plt.gcf()を使うshap.summary_plot(shap_values, df_shap, show=False)fig = plt.gcf()
2024/04/05
共起ネットワーク作成
ジャカード係数を計算して、共起ネットワーク作成。%%timedef make_jaccard_df(df_jacc, col):
2024/04/05
多クラス分類でsample weightを計算する関数
2クラスだけでなく多クラスにも対応。def sample_w(y_train):'''
2024/04/05
階層ベイズモデリングで個人ではなくグループごとの異質性を見たいとき
個体ことの所属グループ配列group_idxを定義してランダム効果r_coef_をグループ数×説明変数のshapeとしておき、(coef_+r_coef_)[group_idx,:]で係数がグループ数分のランダム効果が計算できる。with pm.Model() as model_random2:model_random2.add_coord('data', values=range(train_df.shape[0]), mutable=True)
2024/03/15
いろいろ可視化の備忘録
普通にヒストグラムを書いた時に、外れ値のせいで横軸のレンジが広くなりすぎて、左隅に1本棒が立っているだけの意味のない可視化になる時が多い。それを避けるために、クリッピングで数値丸めてからヒストグラム書くと、意味のある可視化になりやすい。fig=plt.figure(figsize=(18,14))
2023/11/30
BigQueryで変数定義 & 関数定義
CREATE TEMP FUNCTION StartTime1() RETURNS timestamp AS ('2023-01-01 00:00:00');CREATE TEMP FUNCTION StartDate1() RETURNS DATE AS (DATE(StartTime1()));CREATE TEMP FUNCTION StartSuffix1() RETURNS STRING AS (format_date('%Y%m%d',StartDate1()));
2023/11/22
自然言語処理前処理Tips
前処理してMecabやGiNZAで分かち書きするまでimport osimport numpy as np
2023/09/12
DockerでMecab備忘録
公式
2023/09/11
週単位のガントチャート作成コード
ざっくりスケジュール作成のための、週単位のガントチャートを作る。参考:https://plotly.com/python/gantt/
2023/08/14
vimでクリップボードを有効にする
apt search vimapt install vim-gtk3[Vimでクリップボードからのペーストを可能にする](
2023/03/30
mlflowの備忘録
experiment_nameをもとにexperiment_idを取得して、取得したexperiment_idのrun_ind番目のrun_idを取得して、取得したrun_idに保存しているpickleファイルをロードする。import mlflowfrom mlflow.sklearn import log_model
2022/10/20
OptunaのLightGBMTunerCV備忘録
意外にLGBMのOptuna最適化をしたことがないことに気づいたのでコードを書いた。不均衡データに対して実施したので、損失関数に重みづけしているようなかコードになっている。def sample_w(y_train, multip=1):
2022/07/07
サンキーダイヤグラム作成備忘録
昔作ったことあるけど、昔よりもっと簡単に作れるようにplotlyが進化していた。参考:https://oeconomicus.jp/2021/07/plotly-color-scale/
2022/07/07
Rでデータハンドリング & ベイジアンネットワーク備忘録
参考:https://qiita.com/hrkz_szk/items/a213c2c4ba823cbf78f6
2022/07/07
kerasのfunction APIで多入力多出力モデル作る備忘録
例えば、説明変数40個×3、目的変数3個でモデルを作るとする。入力層を複数用意して、tensorflow.keras.layers.concatenateで結合する。そのままネットワークを組んで、出力層も目的変数の数の文だけ作る。
2022/07/06
MecabでNeologd登録(Windows10)の備忘録
新しいPCで久々にMecabの環境作っているときに、Neologdの登録方法をけっこう忘れていたので備忘録。※インストールしているMecabはC:\Program Files\MeCab\binのPath通しておくNeologd辞書をダウンロード。
« Newer
1 / 2
Older »