首页主机资讯Linux PyTorch日志如何查看

Linux PyTorch日志如何查看

时间2026-01-20 06:12:04发布访客分类主机资讯浏览987
导读:Linux下查看PyTorch日志的常用方法 一 实时查看控制台输出 前台运行训练脚本时,直接在终端观察输出;若输出较多,可用管道配合工具更清晰地查看: 分页查看:使用命令:python train.py | less -S(按空格翻页...

Linux下查看PyTorch日志的常用方法

一 实时查看控制台输出

  • 前台运行训练脚本时,直接在终端观察输出;若输出较多,可用管道配合工具更清晰地查看:
    • 分页查看:使用命令:python train.py | less -S(按空格翻页,q退出)。
    • 高亮关键字:使用命令:python train.py 2> & 1 | grep --color=auto -E "ERROR|WARNING|loss"(将标准错误合并到标准输出并高亮关键词)。
    • 仅看错误:使用命令:python train.py 2> & 1 | grep -i error
  • 后台运行并重定向到文件:使用命令:nohup python train.py > train.log 2> & 1 & ,随后用 tail -f train.log 实时跟踪日志尾部。上述做法适用于大多数深度学习训练脚本在Linux环境下的输出查看与筛选。

二 查看文本日志文件

  • 直接查看与检索:
    • 查看全部:cat train.log
    • 分页查看:less -S train.log
    • 实时跟踪:tail -f train.log
    • 关键字检索:grep -n "loss" train.log
  • 使用 Python 的 logging 模块写入的结构化日志(常见为按时间滚动的 .log 文件)也可用上述命令查看;如使用 loguru 等第三方库,日志通常写入你配置的日志文件路径,直接用 less/tail 打开即可。

三 使用 TensorBoard 查看可视化日志

  • 记录日志(PyTorch 原生 SummaryWriter):
    • 代码示例:
      • from torch.utils.tensorboard import SummaryWriter
      • writer = SummaryWriter('runs/exp1')
      • writer.add_scalar('train/loss', loss.item(), step)
      • writer.close()
  • 启动与访问:
    • 启动:tensorboard --logdir=runs --port=6006
    • 浏览器访问:http://localhost:6006
  • 服务器远程查看(SSH 端口转发):
    • 本地执行:ssh -L 6006:127.0.0.1:6006 user@server -p 22
    • 服务器执行:tensorboard --logdir=runs
    • 然后在本地浏览器打开 http://localhost:6006
  • 使用 Hugging Face Trainer 时,可通过 TrainingArguments 设置 logging_dirlogging_steps,训练产生的事件会写入指定目录供 TensorBoard 可视化。

四 分布式训练与平台日志路径

  • 多卡/多节点训练时,很多框架(如 Hugging Face Transformers Trainer)默认只在第一个 Rank 节点打印训练日志;训练完成后,日志通常位于你设置的 output_dir 下,例如 trainer_log.jsonl,并可能包含 training_loss.png 等可视化文件。若需要性能统计,可在该 JSONL 中按步骤区间计算吞吐量(tokens/s/p)并观察 loss 收敛趋势。

五 常见问题排查

  • TensorBoard 启动失败或看不到曲线:
    • 确认已安装:pip install tensorboard
    • 检查 --logdir 是否指向包含事件文件的目录(SummaryWriter 写入的目录,或 Trainer 的 logging_dir 下的子目录)。
    • 若路径包含空格或特殊字符,使用绝对路径并加引号:tensorboard --logdir="/abs/path/to/logs"
    • PyCharm 或远程环境中,注意运行环境与解释器一致,避免找不到 tensorboard 命令或日志目录配置错误。

声明:本文内容由网友自发贡献,本站不承担相应法律责任。对本内容有异议或投诉,请联系2913721942#qq.com核实处理,我们将尽快回复您,谢谢合作!


若转载请注明出处: Linux PyTorch日志如何查看
本文地址: https://pptw.com/jishu/786762.html
Debian如何解决pgAdmin使用中的问题 Linux PyTorch模型如何保存

游客 回复需填写必要信息