データ分析関連メモ(メモです)

仲秋の候、涼やかな秋風の下、ご一同様にはその後お健やかにお過ごしのことと存じます。

Entries from 2022-01-01 to 1 year

rsample::sliding_window()関数の引数

『Rユーザのためのtidymodels[実践]入門』を読み始めた。 Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界:書籍案内|技術評論社 第1章で時系列データを分析データと検証データに分割する関数rsample::sliding_window()関数…

日付の途中を補完するtidyr::complete()関数

時系列データでよく使うので備忘録。 まずtidyr::complete()関数の使い方から。 組み合わせの欠損を埋めてくれる関数。 Complete a data frame with missing combinations of data — complete • tidyr メモ:時系列とか連番のデータを補完するときはtidyrのc…

rpartの決定木から分岐情報を取り出す

rpartで作成した決定木から分岐の情報を抽出する。 かわいいかわいいpalmerpenguinsをサンプルデータとして決定木を作成。 library(palmerpenguins) tree <- rpart::rpart( formula = species ~ ., data = penguins, method = "class") tree # n= 344 # # no…

ggplot2のgeom_boxplotについて備忘録

ggplot2の箱ひげ図を描く関数の備忘録。 geom_boxplot penguinsデータで箱ひげ図を描く。 library(tidyverse) library(palmerpenguins) data(package = 'palmerpenguins') df <- penguins df %>% ggplot2::ggplot(ggplot2::aes(x = species, y = bill_length…

predict関数から学習データしか返ってこない(dot-dot-dotについて)

R言語のrpartにあるpredict関数を使っていた時の話。 penguinsデータをtrain233件、valid100件に分割。 # packages ---------------------------------------------------------------- library(palmerpenguins) data(package = 'palmerpenguins') # data pr…

GoogleAnalytics4のBigQueryテーブルが作成される時間の分布

GoogleAnalytics4のBigQuery連携で日次転送を選択した場合、テーブルが作成される時間は一定ではない。 作成時間について公式ドキュメントでも見つけられなかったので、自分の環境で何時に作成されているのか分布を確認してみる。 191日分のテーブルしかない…

GCPのユーザーを削除したら、AWSに置いてたshellスクリプトがAccess denied.

AWSに立てているサーバからGCPのCloudStorageにshellスクリプトでデータを飛ばしていた。shellスクリプトは他の方が書いたものなので、中身はあまりわかっていない。 ある日、 An error occurred (AccessDenied) when calling the PutObject operation: Acce…

GoogleAnalytics4のBigQuery連携データをユーザー単位のページ遷移に加工するクエリ

GoogleAnalytics4のrawデータから、ユーザー単位(user_pseudo_id)でページ遷移が分かるデータマートを作成する。 手順 1. UNNESTでフラット化 2. ga_session_id, page_title, page_locationを横持ち 3. 同一ページで複数のeventが発生していても最初のtime…