2024-03-18
CloudFront のログをパースして分析して見ると、色々学びがあったのでメモ
自分で昔作ったこちらのコードを使いました。
https://github.com/mryhryki/cloudfront-log-parser
個人で適当に公開しているページですが、意外と Google 検索からの流入があったりします。(年数千回ぐらい)
日本語のページしかないのに、一番多いのはアメリカだったりします。
シンガポールやオランダ、スウェーデンなどからも多いです。
ですが、そこまで個別には見ていませんが Bot からのアクセスも多いので、そのへんじゃないかと思います。
親切な Bot は、URL とかを載せてくれてますね。
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)
Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
/wp-login.php
, /.env
, //xmlrpc.php
, /.git/config
など、何かの脆弱性を狙ったようなリクエストも多かったです。
humans.txt というようなものもあるんですね。
robots.txt や security.txt などは知っていましたが、まだまだ知らないことがあるんだなー、と思いました。
面白いので、ずっと分析していられる。