データ分析関連メモ(メモです)

仲秋の候、涼やかな秋風の下、ご一同様にはその後お健やかにお過ごしのことと存じます。

rpartの結果をtidyに扱う(変数重要度と分岐情報を取り出す)

『Rユーザのためのtidymodels[実践]入門』を読み進めている。 Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界:書籍案内|技術評論社 そのtidymodels関係で、決定木モデルを作成するrpartをtidyにするパッケージのお話。 ky…

rsample::sliding_window()関数の引数

『Rユーザのためのtidymodels[実践]入門』を読み始めた。 Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界:書籍案内|技術評論社 第1章で時系列データを分析データと検証データに分割する関数rsample::sliding_window()関数…

日付の途中を補完するtidyr::complete()関数

時系列データでよく使うので備忘録。 まずtidyr::complete()関数の使い方から。 組み合わせの欠損を埋めてくれる関数。 Complete a data frame with missing combinations of data — complete • tidyr メモ:時系列とか連番のデータを補完するときはtidyrのc…

rpartの決定木から分岐情報を取り出す

rpartで作成した決定木から分岐の情報を抽出する。 かわいいかわいいpalmerpenguinsをサンプルデータとして決定木を作成。 library(palmerpenguins) tree <- rpart::rpart( formula = species ~ ., data = penguins, method = "class") tree # n= 344 # # no…

ggplot2のgeom_boxplotについて備忘録

ggplot2の箱ひげ図を描く関数の備忘録。 geom_boxplot penguinsデータで箱ひげ図を描く。 library(tidyverse) library(palmerpenguins) data(package = 'palmerpenguins') df <- penguins df %>% ggplot2::ggplot(ggplot2::aes(x = species, y = bill_length…

predict関数から学習データしか返ってこない(dot-dot-dotについて)

R言語のrpartにあるpredict関数を使っていた時の話。 penguinsデータをtrain233件、valid100件に分割。 # packages ---------------------------------------------------------------- library(palmerpenguins) data(package = 'palmerpenguins') # data pr…

GoogleAnalytics4のBigQueryテーブルが作成される時間の分布

GoogleAnalytics4のBigQuery連携で日次転送を選択した場合、テーブルが作成される時間は一定ではない。 作成時間について公式ドキュメントでも見つけられなかったので、自分の環境で何時に作成されているのか分布を確認してみる。 191日分のテーブルしかない…

GCPのユーザーを削除したら、AWSに置いてたshellスクリプトがAccess denied.

AWSに立てているサーバからGCPのCloudStorageにshellスクリプトでデータを飛ばしていた。shellスクリプトは他の方が書いたものなので、中身はあまりわかっていない。 ある日、 An error occurred (AccessDenied) when calling the PutObject operation: Acce…

GoogleAnalytics4のBigQuery連携データをユーザー単位のページ遷移に加工するクエリ

GoogleAnalytics4のrawデータから、ユーザー単位(user_pseudo_id)でページ遷移が分かるデータマートを作成する。 手順 1. UNNESTでフラット化 2. ga_session_id, page_title, page_locationを横持ち 3. 同一ページで複数のeventが発生していても最初のtime…

GoogleAnalytics入門 with R 中編 ~BigQuery連携データについて~

GoogleAnalyticsのBigQuery連携についての紹介記事。勉強会で発表したものを文字にした記事で、元のスライドはこちら。Introduction_of_GoogleAnalytics_with_R - Speaker Deck GoogleAnalyticsそのものについてはこちら。 アップデートによるBigQuery連携無…

GoogleAnalytics入門 with R 前編 ~GoogleAnalyticsとは~

Webアクセス解析ツール、GoogleAnalytisの紹介。勉強会で発表したものを文字にした記事で、元のスライドはこちら。Introduction_of_GoogleAnalytics_with_R - Speaker Deck 記事の流れは以下の通り。 1.Webアナリストとは2.GoogleAnalyticsとは3.BigQuery連…

R言語でSalesForceに入門する~salesforcerの紹介~

業務でSalesForceというツールを触らなければいけなくなったので入門した。 R言語を通して入門した方がわかりやすい部分もあるのかもしれないと思い、RでSalesForceを操作するパッケージ、「salesforcer」について調べたので紹介する。 そもそもSalesForceと…

feature_fractionが変数重要度に与える影響

LightGBMのfeature_fractionは重要度に影響与えるよ〜という話を聞いたので実験。テストデータはkaggleのHousePricesをお借りする。 feature_fractionとは ・LightGBM will randomly select part of features on each iteration (tree) if feature_fraction …

"polite"で守るWebスクレイピングのエチケット

Webスクレイピングの際には法律的なものなど、注意しなければならない点がいくつもあるが、それらの一部をサポートするR言語のパッケージ『polite』の紹介をする。 2020年12月5日に開催されたR言語の勉強会、「Japan.R」で発表した内容を掲載。 http://japan…