『Rユーザのためのtidymodels[実践]入門』を読み進めている。 Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界:書籍案内|技術評論社 そのtidymodels関係で、決定木モデルを作成するrpartをtidyにするパッケージのお話。 ky…
『Rユーザのためのtidymodels[実践]入門』を読み始めた。 Rユーザのためのtidymodels[実践]入門 〜モダンな統計・機械学習モデリングの世界:書籍案内|技術評論社 第1章で時系列データを分析データと検証データに分割する関数rsample::sliding_window()関数…
時系列データでよく使うので備忘録。 まずtidyr::complete()関数の使い方から。 組み合わせの欠損を埋めてくれる関数。 Complete a data frame with missing combinations of data — complete • tidyr メモ:時系列とか連番のデータを補完するときはtidyrのc…
rpartで作成した決定木から分岐の情報を抽出する。 かわいいかわいいpalmerpenguinsをサンプルデータとして決定木を作成。 library(palmerpenguins) tree <- rpart::rpart( formula = species ~ ., data = penguins, method = "class") tree # n= 344 # # no…
ggplot2の箱ひげ図を描く関数の備忘録。 geom_boxplot penguinsデータで箱ひげ図を描く。 library(tidyverse) library(palmerpenguins) data(package = 'palmerpenguins') df <- penguins df %>% ggplot2::ggplot(ggplot2::aes(x = species, y = bill_length…
R言語のrpartにあるpredict関数を使っていた時の話。 penguinsデータをtrain233件、valid100件に分割。 # packages ---------------------------------------------------------------- library(palmerpenguins) data(package = 'palmerpenguins') # data pr…
GoogleAnalytics4のBigQuery連携で日次転送を選択した場合、テーブルが作成される時間は一定ではない。 作成時間について公式ドキュメントでも見つけられなかったので、自分の環境で何時に作成されているのか分布を確認してみる。 191日分のテーブルしかない…
AWSに立てているサーバからGCPのCloudStorageにshellスクリプトでデータを飛ばしていた。shellスクリプトは他の方が書いたものなので、中身はあまりわかっていない。 ある日、 An error occurred (AccessDenied) when calling the PutObject operation: Acce…
GoogleAnalytics4のrawデータから、ユーザー単位(user_pseudo_id)でページ遷移が分かるデータマートを作成する。 手順 1. UNNESTでフラット化 2. ga_session_id, page_title, page_locationを横持ち 3. 同一ページで複数のeventが発生していても最初のtime…
GoogleAnalyticsのBigQuery連携についての紹介記事。勉強会で発表したものを文字にした記事で、元のスライドはこちら。Introduction_of_GoogleAnalytics_with_R - Speaker Deck GoogleAnalyticsそのものについてはこちら。 アップデートによるBigQuery連携無…
Webアクセス解析ツール、GoogleAnalytisの紹介。勉強会で発表したものを文字にした記事で、元のスライドはこちら。Introduction_of_GoogleAnalytics_with_R - Speaker Deck 記事の流れは以下の通り。 1.Webアナリストとは2.GoogleAnalyticsとは3.BigQuery連…
業務でSalesForceというツールを触らなければいけなくなったので入門した。 R言語を通して入門した方がわかりやすい部分もあるのかもしれないと思い、RでSalesForceを操作するパッケージ、「salesforcer」について調べたので紹介する。 そもそもSalesForceと…
LightGBMのfeature_fractionは重要度に影響与えるよ〜という話を聞いたので実験。テストデータはkaggleのHousePricesをお借りする。 feature_fractionとは ・LightGBM will randomly select part of features on each iteration (tree) if feature_fraction …
Webスクレイピングの際には法律的なものなど、注意しなければならない点がいくつもあるが、それらの一部をサポートするR言語のパッケージ『polite』の紹介をする。 2020年12月5日に開催されたR言語の勉強会、「Japan.R」で発表した内容を掲載。 http://japan…