みどりのジーパン

Data Science / Data Engineering / MLOpsを勉強中

MLflow Recipesを調べてみた所感

先日、Databricks社のセミナーを聴講させていただきました。 DataOpsやMLOps, DevOpsという言葉も使われており、データに関することはなんでもサポートしてくれるサービスを目指すという世界観が良いなと思いました。 ここで、MLflow2.0の機能説明もありまし…

【SQL】not in などでNULLまで抜け落ちる理由を言葉で考える

ご存知の方にとっては常識かもしれませんが、SQLではnot inで条件を指定すると、NULLのレコードも一緒に抜け落ちてしまいます。 実はこの理由がよく分かっていなかったのですが、コードを言葉に置き換えて考えたら納得できたのでメモします。 SQLは<>やnot i…

VSCode上に文章校正環境をすぐ作成できるようにした話

ブログや職務経歴書など、Markdownで文章を書く際に文章を校正してくれる環境を作成しました。 校正はtextlintで行っています。 VSCode上で動かすことを前提に作っています。 github.com やっていることはtextlintなど、様々な先人たちの知恵をDockerfileな…

Mac USキーボードの日本語/英語切り替え方法を色々試した結果

概要 USキーボードにして唯一困っていたことが、日本語/英語の入力ソース切り替えをどのように行うかです。 色々試行錯誤して、今のところWindows風なキーで切り替えるところに落ち着きました。 今回は、その試行錯誤の過程を共有したいと思います。 同じよ…

【T-SQL】カスタムエラーで誤ったProcedure実行を止めたい

業務で必要になって調査したら意外と使えそうだったのでメモ。 Procedure内でカスタムエラーを実装して、問題ない場合のみ実行させたくなりました。 ここで言う「問題ない場合」とは以下の2つがあると思います。 パラメータにTypoがない 使用するテーブルに…

Azure Data Factoryでのデータ処理結果をSlack通知する

はじめに 本投稿では,Azure Data Factoryのデータ加工処理結果をSlack投稿する方法をまとめます. と言っても,ここ数週間たまたま業務で触っていくうちに知り得たtipsを書き残すだけなので,機能を最大限活用できていないかもしれない点はご了承ください.…

ガウス過程で時系列予測する

概要 ガウス過程を活用した時系列モデル(特に予測)ってあまり聞かないなと思い,今回試してみました. 結論から言うと,特徴量を工夫すれば使えないこともないですが,あえてガウス過程を使う理由はなさそうです. 私のガウス過程に対する浅学により,知識…

pd.mergeで同じカラムがあるとcol_x, col_y...と別カラムが生える件

概要 pandasのmergeを繰り返し行うと意図せずcolumn_x, column_y...と、元々あったcolumnに_x, _yとついてきて困ったことがある人向けです。 結果的に綺麗な解決策ではないですが、結合に使用するカラム名は揃えることは徹底した方が良さそうです。 どうした…

AAAI-22 斜め読みメモ

トップ会議に採択された研究を眺めるだけで、1mmくらいはAI/ML系のトレンドをキャッチできるのではないかと思い、 AAAI-22の採択論文の中からいくつかピックアップして斜め読みしてみました。 内容に不備や間違いがあれば"優しく"コメントいただけると嬉しい…

状態空間モデルの周期変動オプションを色々試す

概要 pythonの状態空間モデルのライブラリといえば、statsmodelsのUnobservedComponents*1だと思います。 www.statsmodels.org このページを読んでいくと、特に周期変動(seasonal)のモデリングの方法がたくさんありそうだぞということが分かってきます。 柔…

プロジェクトメンバーが1人の時こそGithubを使い倒す

概要 この記事は新人エンジニア1がいきなり開発を1人で任された際に、Github使ったら、タスク管理もコード開発もスムーズだったという体験談です。 チームメンバーの数に対して仕事量や依頼数が多いと、どうしてもPJT当たりのメンバーは減って、最悪1人とい…