从AWS迁移到Ciuic：我的DeepSeek账单直降35%实录

02-27 75阅读

󦘖

免费快速起号（微信号）

coolyzf

添加微信

随着云计算技术的快速发展，越来越多的企业和开发者开始将应用程序和数据托管在云端。然而，随着业务的增长，云服务的成本也逐渐成为了一个不可忽视的问题。最近，我决定将我们的深度学习项目——DeepSeek——从Amazon Web Services (AWS) 迁移到Ciuic平台。经过一段时间的迁移和优化，我们成功地将每月账单降低了35%，并且性能并没有受到明显影响。本文将详细记录这一过程，并分享一些关键的技术细节。

1. 背景与动机

DeepSeek 是一个基于深度学习的自然语言处理（NLP）平台，主要用于文本分类、情感分析和问答系统等任务。最初，我们在 AWS 上使用了 EC2 实例、S3 存储桶、Elasticsearch 和 SageMaker 等服务来构建和部署模型。然而，随着数据量和计算需求的增加，AWS 的成本也水涨船高。为了降低运营成本，我们开始寻找更具性价比的替代方案。

在评估了多个云服务平台后，我们选择了 Ciuic。Ciuic 提供了类似 AWS 的基础设施即服务（IaaS）和平台即服务（PaaS），但价格更为优惠，且提供了更灵活的计费模式。此外，Ciuic 的技术支持团队也非常专业，能够帮助我们快速解决迁移过程中遇到的问题。

2. 迁移前的准备工作

在正式开始迁移之前，我们需要对现有的架构进行详细的分析，确保所有组件都能够顺利迁移到 Ciuic。以下是我们在迁移前进行的主要准备工作：

2.1 分析现有架构

我们首先对 DeepSeek 的现有架构进行了全面分析，主要包括以下几个方面：

计算资源：我们使用了多种类型的 EC2 实例，包括 GPU 实例（如 p3.2xlarge）用于训练和推理。存储资源：大量的模型权重、训练数据和日志文件存储在 S3 中。数据库：使用 RDS PostgreSQL 数据库存储用户信息和配置。网络配置：VPC、子网、安全组等网络配置确保了系统的安全性。监控与日志：通过 CloudWatch 和 ELK 堆栈实现了实时监控和日志分析。

2.2 制定迁移计划

根据架构分析结果，我们制定了详细的迁移计划，分为以下几个阶段：

初步测试：选择一个小规模的应用场景，在 Ciuic 上进行初步测试，验证其性能和稳定性。逐步迁移：将非关键模块逐步迁移到 Ciuic，确保不影响现有业务。全量迁移：完成所有模块的迁移，并进行全面测试。优化与调整：根据实际运行情况，进一步优化资源配置和性能。

3. 迁移过程中的关键技术点

3.1 计算资源的迁移

3.1.1 GPU 实例的选择

在 AWS 上，我们使用的是 p3.2xlarge 实例，配备了 Tesla V100 GPU。而在 Ciuic 上，我们选择了类似的 A100 GPU 实例。为了确保迁移后的性能不下降，我们编写了以下代码来比较两者的性能：

import torchimport timedef benchmark_gpu(device):    # 创建一个大矩阵乘法任务    a = torch.randn(1024, 1024).to(device)    b = torch.randn(1024, 1024).to(device)    start_time = time.time()    c = torch.matmul(a, b)    end_time = time.time()    return end_time - start_timeif __name__ == "__main__":    aws_device = torch.device("cuda:0")  # AWS GPU    ciuic_device = torch.device("cuda:1")  # Ciuic GPU    aws_time = benchmark_gpu(aws_device)    ciuic_time = benchmark_gpu(ciuic_device)    print(f"AWS GPU Time: {aws_time:.4f} seconds")    print(f"Ciuic GPU Time: {ciuic_time:.4f} seconds")

经过多次测试，我们发现 Ciuic 的 A100 GPU 性能略优于 AWS 的 V100 GPU，这让我们对迁移充满信心。

3.1.2 自动化脚本的编写

为了简化实例的创建和管理，我们编写了自动化脚本来批量创建和销毁实例。以下是一个简单的 Terraform 脚本示例：

provider "ciuic" {  region = "us-west-1"}resource "ciuic_instance" "gpu_instances" {  count         = 4  instance_type = "a100.2xlarge"  ami           = "ami-0abcdef1234567890"  key_name      = "my-key-pair"  network_interface {    device_index         = 0    subnet_id            = "subnet-12345678"    security_groups      = ["sg-12345678"]    associate_public_ip = true  }  tags = {    Name = "deepseek-gpu-instance-${count.index}"  }}

3.2 存储资源的迁移

我们将 S3 中的大量数据迁移到 Ciuic 的对象存储服务中。为了确保数据完整性和一致性，我们编写了一个 Python 脚本来实现增量同步：

import boto3from ciuic import storagedef sync_s3_to_ciuic(s3_bucket, ciuic_bucket):    s3_client = boto3.client('s3')    ciuic_client = storage.Client()    paginator = s3_client.get_paginator('list_objects_v2')    for page in paginator.paginate(Bucket=s3_bucket):        for obj in page.get('Contents', []):            key = obj['Key']            data = s3_client.get_object(Bucket=s3_bucket, Key=key)['Body'].read()            ciuic_client.put_object(bucket=ciuic_bucket, key=key, data=data)            print(f"Synced object: {key}")if __name__ == "__main__":    sync_s3_to_ciuic("deepseek-s3-bucket", "deepseek-ciuic-bucket")

3.3 数据库的迁移

对于 RDS PostgreSQL 数据库，我们使用了数据库导出和导入工具来进行迁移。以下是 SQL 脚本的一个片段：

-- 导出数据pg_dump -U postgres -F c -b -v -f deepseek_backup.dump deepseek_db-- 导入数据到 Ciuicpsql -U postgres -d deepseek_db -f deepseek_backup.dump

3.4 网络配置的迁移

我们使用 Terraform 来管理和迁移 VPC、子网和安全组等网络配置。以下是一个简单的 Terraform 配置文件：

resource "ciuic_vpc" "main" {  cidr_block = "10.0.0.0/16"}resource "ciuic_subnet" "public" {  vpc_id     = ciuic_vpc.main.id  cidr_block = "10.0.1.0/24"  map_public_ip_on_launch = true}resource "ciuic_security_group" "allow_ssh" {  description = "Allow SSH inbound traffic"  ingress {    from_port   = 22    to_port     = 22    protocol    = "tcp"    cidr_blocks = ["0.0.0.0/0"]  }  egress {    from_port   = 0    to_port     = 0    protocol    = "-1"    cidr_blocks = ["0.0.0.0/0"]  }}

4. 成本优化与性能调优

4.1 成本优化

迁移完成后，我们立即感受到了成本的显著下降。Ciuic 提供了按需计费和预付费两种模式，我们选择了预付费模式以获得更大的折扣。此外，Ciuic 的存储费用也比 AWS 更低，尤其是对于冷存储的需求，节省了大量资金。

4.2 性能调优

虽然 Ciuic 的性能已经非常出色，但我们仍然进行了一些额外的优化措施，例如：

使用更快的 SSD 磁盘提升 I/O 性能。优化网络带宽，减少数据传输延迟。对代码进行多线程和异步处理，提高 CPU 利用率。

5.

通过这次从 AWS 到 Ciuic 的迁移，我们不仅成功地将每月账单降低了 35%，还提升了系统的整体性能。整个迁移过程虽然有一定的挑战，但通过合理的规划和技术手段，我们最终实现了预期目标。未来，我们将继续关注 Ciuic 的发展，探索更多降低成本和提升性能的方法。

免责声明：本文来自网站作者，不代表ixcun的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：aviv@vne.cc