发布于: 2025-3-1最后更新: 2025-3-1字数 2744阅读时长 7 分钟

type
status
date
slug
summary
tags
category
icon
password
Property
Mar 1, 2025 03:24 AM
URL
page icon
Notion AI 总结:
腾讯 Cloud Studio 提供高性能免费云开发环境,包含8核CPU、16GB Tesla T4 GPU和32GB内存,适合临时计算任务而非长期服务部署。可通过内网穿透和密钥实现远程访问,特别适合PDF文档处理和学术研究。
page icon
阅读本文章之前,请你确保有 linux 的基础,如果没有配合视频和 AI 学习

1. 平台介绍

最近一段时间 DeepSeek 特别火,互联网上兴起了本地部署大语言模型的浪潮,各大厂商都退出自家的云端 ide,其中腾讯这个 Cloud Studio 给的资源不错,大概是这样的
 
进入 https://ide.cloud.tencent.com/ 进行登录注册就行了
notion image
 
  • 服务器说明
参数
说明
CPU
8核 Intel® Xeon® Platinum 8255C
GPU
NVIDIA Tesla T4 16GB
内存
32GB
硬盘
200GB 左右
时长限制
10000 分钟,大概不间断使用一个星期,不关浏览器标签不会关机
 
  • CPU 水平(采用量子化学软件 Gaussian16C.01 做计算)
计算平台
核数
计算任务
系统
原子数
计算任务
计算时间/s
每 8 核心时间
价格/w
EPYC 7k62
48
s0.gjf
Ubuntu 22.04
113
Opt Freq
7600
45600
0.2
Apple M1 ultra
20
s0.gjf
Mac OS 13.7.3
113
Opt Freq
9660
24150
1.3~1.5
Intel Xeon Platinum 8255C
8
s0.gjf
Ubuntu 20.04
113
Opt Freq
40587
40587
0
让我们比较三款处理器在 8 核心条件下的性能:
  1. Intel Xeon 8255C:40587秒
  1. Apple M1 Ultra:24150秒(换算后)
  1. EPYC 7k62:45600秒(换算后)
性能排序:M1 Ultra > Xeon 8255C > EPYC 7k62
作为免费资源,这个 CPU 性能已经相当不错了,跑一些小任务,或者作为量子化学入门计算是绝对足够的。
 
  • 显卡水平:
notion image
可以看到大概和 1060 一个水平,但是 T4 的优点在于有 16G 的显存
 
  • 如何正确使用?
网上很多教程让你本地部署 DeepSeek,部署个人知识库什么,在我来看纯属浪费时间,原因如下:
  1. 给的 GPU 显存太小,干不了什么事情
  1. 一个月就只能连续运行 7 天,很显然搭建在线服务是不太好的,没办法一个月一直运行
  1. 现在几乎所有的个人知识库都是用的 RAG 技术,各种软件的工程化非常不成熟,搞这些就是浪费时间,不如直接用 Notion AI
 
那么我们就从另一个角度来思考腾讯 Cloud Studio 的用途。虽然不适合部署个人知识库和在线服务,但它仍然有一些很好的应用场景:
  1. 临时测试和实验:可以用来测试一些需要 GPU 的深度学习模型或进行短期的技术验证
  1. 数据处理和分析:利用其强大的计算资源进行数据预处理、特征工程等任务
  1. 代码开发和调试:作为一个临时的开发环境,特别是需要 GPU 资源的项目
 
总的来说,我们需要的是白嫖他这个显卡(这个显卡价格大概 4000 左右)
 
接下来,我就来具体介绍如何充分利用这些资源,让 Cloud Studio 发挥最大价值。

2. 基础设置

2.1 一些常用的包安装

  • tmux 安装
    • 安装 tmux 可以让我的一些程序在后台运行
  • htop
    • 然后输入
      就能监控服务器的状态了
      notion image
  • notion client
    • 安装这个的目的在于后期可以把计算结果传送到 notion 里面去

2.2 白嫖华为云服务器

notion image
notion image
 
领完卷之后,这里购买服务器
notion image
notion image
notion image
建议买这个 2H 2G 的,这样的话,我们后续搭建 Docker,就能保活我们的 Cloud Studio 了
 

2.3 npc 内网穿透搭建

为了远程使用 ssh 登录我们的服务器,我们最好用 ssh 来登录,用 ssh 的好处在于很多东西比较好操作
可以看我文章,需要客户端和服务端同时设置
服务器端用上面我们白嫖的华为云来部署
客户端部分用我们的 Cloud Studio 就行了
 
安装好之后,使用
就行了
 
然后可以使用密钥/来登录就行了。
生成密钥
公钥会保存到 ~/.ssh/id_rsa.pub,私钥保存到 ~/.ssh/id_rsa
 
notion image

3. 一些项目推荐

3.1 marker

marker
VikParuchuriUpdated Apr 1, 2025
Marker 能够快速、准确地将 PDF 和图片转换为 Markdown、JSON 和 HTML 格式。
对于学术研究来说,它特别适合将英文 PDF 转换成 Markdown 文档,再通过 AI 翻译成中文,从而高效地整理和阅读文献或书籍,于此同时配合 Notion 可以搭建专属自己的本地知识库
下面这个截图就是我使用 Marker 识别某个文档,然后将文档翻译成中文,最后 Notion AI 给我的问答结果,所有的资料都来源于我收集到的资料。
notion image
 
实际的运行:
设备
处理页数
CUDA支持
处理时间
M1 Max
24
123s
Tesla T4
24
57s
可以看到识别 24 页 PDF 的速度是 M1 Max 的两倍的速度,非常快。

3.1.1 marker 安装

 

3.1.2 使用说明

  • 转换单个文件
基本命令
此命令的意思是说将 pdf 以 markdown 的格式输出到当前目录下的文件夹
  • --output_format=markdown 输出为 markdown
  • --output_dir=./ 输出到当前目录下的文件夹
这三个是我常用的,因为很多情况下最好是输出到当前文件夹只产生 markdown,由于表格太过于太过于千变万化你,所以表格的识别不是很准,所以我们不开启的比较好
常用参
类别
参数
说明
输出设置
--output_dir
指定输出文件存放目录(默认为 settings.OUTPUT_DIR
--output_format
可以选择 markdown,json,html,默认是输出为 Markdown 和 json,个人建议就输出 Markdown
--paginate_output
启用分页输出,格式为 \n\n{PAGE_NUMBER},后跟 - * 48,然后 \n\n
文档处理选项
--page_range
指定处理的页面范围(如 "0,5-10,20" 处理第 0 页、第 5-10 页和第 20 页)
--disable_image_extraction
禁用从 PDF 中提取图片(若 --use_llm 启用,则图片将被替换为描述)
--strip_existing_ocr
删除文档中的所有 OCR 文本,并使用 surya 重新 OCR
--force_ocr
强制对整个文档进行 OCR,即使部分页面可提取文本
--languages TEXT
指定 OCR 语言,多个语言用逗号分隔(如 "en,fr,de" 代表英语、法语和德语)
高级功能
--use_llm
使用 LLM(大模型)提高文本提取准确性(需要 GOOGLE_API_KEY 作为 Gemini API 密钥)
--debug
启用调试模式,增加日志记录和诊断信息
--processors TEXT
覆盖默认处理器,提供完整模块路径,多个路径用逗号分隔(如 "module1.processor1,module2.processor2"
--config_json PATH
指定额外的 JSON 配置文件路径
转换器选择
--converter_cls=marker.converters.pdf.PdfConverter
(默认)转换整个 PDF 文档
--converter_cls=marker.converters.table.TableConverter
仅提取并转换 PDF 内的表格
其他辅助选项
config --help
列出所有可用的构建器、处理器和转换器及其相关配置(可用于创建 JSON 配置文件)
--help
查看完整的参数列表,获取更多可用选项
 
  • 转换多个文件
  • marker 支持以上 marker_single 中的所有相同选项。
  • -workers 是同时运行的转换工作线程数量。默认设置为 5,但你可以增加该值以提高吞吐量,代价是更高的 CPU/GPU 使用率。每个工作线程在峰值时会使用 5GB 的显存,平均使用 3.5GB,Cloud Studio 的显存是 15GB,所以我们这里设置成 3 比较保险
 

3.1.3 和 Notion 的集成

本质上是将 Markdwon 文档通过 Notion API 传送给 Notion
下载我的代码
 
用 vscode 打开
然后建立两个文件
config.py
 
# main.py
 
最后的文件夹大概是这样的

 

3.1.4 缺点

  1. 对于复杂的 PDF 文件效果不太好
  1. 对于表格的识别还是有问题
 

3.2 量子化学软件 Gaussian16/orca

安装好量子化学软件 Gaussian16,然后配置好环境变量之后就能开始计算了,然后用这个测试的 gjf 文件
这里的 %gpucpu=0=0
  • 第一个 0 表示 GPU (我们只有一个 GPU)
  • 第二个 0 表示 CPU 的第一个核心
总的来说就是把 GPU 交给 CPU 的第一个核心去用,大概可以加速 20%
运行这个大概可以占用 12 G 左右的显卡内存,跑 100 以上的原子体系有些吃力,但是几十个原子,作为学习用肯定是没问题的
 
此外可以配置我的这个博客文章 https://wxyhgk.com/article/calc2Notion ,将计算结果都存到 Notion 里面去
notion image
 
orca 软件的安装和使用是一样的道理,这里不再阐述

3.3 n8n 自动化平台搭建

3.3.1 安装

  • node 版本检查
首先检查 node 版本
notion image
可以看到我这里的 node 版本是 12.22.9 这个是偏低的
从官方和社区的反馈来看,n8n 推荐使用 Node.js v18 作为主版本,其他的版本可能有 bug,所以我们需要安装
 
  • NVM 安装
为了适应不同的环境,我们使用 NVM(Node Version Manager)来安装,这样就能切换成不同的版本了
 
安装完成后,重新启动终端,或者执行以下命令来使 NVM 立即生效:
 
  • 安装 node 18 版本
 
设置版本 18 为主要版本,下次打开终端还能保持版本 18
 
  • 安装
notion image

3.3.2 搭建 webhook

搭建好 webhook 后,便可实现以下效果:通过手机快捷指令发送消息,直接调用部署在腾讯云上的 deepseek-R1。这种方式无需在手机上安装任何软件,系统会自动回复并将提问和回答记录到 Notion 中,形成 提问-回答-数据保存 的完整循环。
此外,借助 Notion AI 还能搜索历史回答记录。

4. 使用技巧

4.1 如何保活,让 Cloud Studio 一直运行呢

  • 方法 1
自己本地有 winserver 服务器,一直运行
  • 方法 2
在 vps 里面搭建在线的浏览器,然后在浏览器里面登录腾讯的 Cloud Studio
 
 

4.2 ssh 工具

在 Windows 上可以下载这个软件
左边是 sftp ,中间是 ssh,右边是查看服务器的设置,非常方便
notion image
右边可以看到显卡的具体情况,还是比较方便的
notion image
在 ios/mac/ipad 上可以下载 NeoServer 软件
NeoServer 软件可以展示服务器的运行情况
notion image

Loading...
示例文章

示例文章

这是示例的文章摘要,摘要内容可被用做搜索,预览。文章列表默认展示概要;若要在列表直接展示文章内容,可在blog.config.js中配置。


关于 ChatGPT 降智的探索和解决

关于 ChatGPT 降智的探索和解决


公告
公告
博客重大更新,更换为matery主题,阅读体验更加好了。
和博主联系
notion image