• 机器学习算法

    KNN算法

    K近邻(K-Nearest Neighbors,KNN)算法是一种基本的分类与回归方法。下面分别给出KNN分类和KNN回归的Python实例代码。

    1. KNN分类实例

    我们将使用scikit-learn库中的鸢尾花数据集进行KNN分类。

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.metrics import accuracy_score
    
    # 加载鸢尾花数据集
    iris = load_iris()
    X = iris.data  # 特征数据
    y = iris.target  # 标签数据
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
    # 创建KNN分类器,这里k值设为5
    knn = KNeighborsClassifier(n_neighbors=5)
    
    # 训练模型
    knn.fit(X_train, y_train)
    
    # 进行预测
    y_pred = knn.predict(X_test)
    
    # 计算准确率
    accuracy = accuracy_score(y_test, y_pred)
    print(f"KNN分类准确率: {accuracy}")

    代码解释:

    1. 数据加载:使用load_iris函数加载鸢尾花数据集。
    2. 数据划分:使用train_test_split函数将数据集划分为训练集和测试集,测试集占比为30%。
    3. 模型创建:使用KNeighborsClassifier创建KNN分类器,n_neighbors参数指定K值为5。
    4. 模型训练:使用fit方法对训练数据进行训练。
    5. 模型预测:使用predict方法对测试数据进行预测。
    6. 准确率计算:使用accuracy_score函数计算预测结果的准确率。

    2. KNN回归实例

    我们将使用scikit-learn库中的波士顿房价数据集进行KNN回归。

    from sklearn.datasets import load_boston
    from sklearn.model_selection import train_test_split
    from sklearn.neighbors import KNeighborsRegressor
    from sklearn.metrics import mean_squared_error
    
    # 加载波士顿房价数据集
    boston = load_boston()
    X = boston.data  # 特征数据
    y = boston.target  # 标签数据
    
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
    # 创建KNN回归器,这里k值设为5
    knn_reg = KNeighborsRegressor(n_neighbors=5)
    
    # 训练模型
    knn_reg.fit(X_train, y_train)
    
    # 进行预测
    y_pred = knn_reg.predict(X_test)
    
    # 计算均方误差
    mse = mean_squared_error(y_test, y_pred)
    print(f"KNN回归均方误差: {mse}")

    代码解释:

    1. 数据加载:使用load_boston函数加载波士顿房价数据集。
    2. 数据划分:使用train_test_split函数将数据集划分为训练集和测试集,测试集占比为30%。
    3. 模型创建:使用KNeighborsRegressor创建KNN回归器,n_neighbors参数指定K值为5。
    4. 模型训练:使用fit方法对训练数据进行训练。
    5. 模型预测:使用predict方法对测试数据进行预测。
    6. 均方误差计算:使用mean_squared_error函数计算预测结果的均方误差。

    需要注意的是,波士顿房价数据集在scikit-learn 1.2及以上版本中已被移除,如果你使用的是较新版本,可以使用fetch_california_housing数据集代替。

  • 人工智能前沿

    扎克伯格承认:Meta正向DeepSeek学习AI

    扎克伯格承认Meta正向DeepSeek学习AI的相关情况

    ● Meta将DeepSeek视为竞争对手并学习

    ● Meta首席执行官马克·扎克伯格表示Meta将DeepSeek视为新的竞争对手并且正在向其学习。扎克伯格称他的团队希望最终将DeepSeek的一些进步应用于Meta自己的AI项目,Meta会从DeepSeek等技术中继续学习,并不断优化发布自己的免费开源AI模型Llama以推动行业发展。这显示出DeepSeek在人工智能技术方面有值得Meta借鉴之处,Meta希望通过学习来提升自己在AI领域的竞争力。Meta目前并没有因为DeepSeek的发展而削减与人工智能投入相关的支出,还计划在2025年投入600 – 650亿美元用于AI相关建设,如数据中心等,以构建自己的战略优势,扎克伯格强调在人工智能基础设施上投入巨资是Meta的战略优势,虽然将DeepSeek视为竞争对手,但也积极学习其长处 。

    ● 扎克伯格对AI基础设施投入的看法

    ● 扎克伯格认为对于大型企业而言,随着时间的推移,在资本支出和基础设施上进行大量投资是一种战略优势。Meta拥有数十亿用户,构建这种基础设施的能力将对服务的质量和达到想要的服务规模产生重大优势。尽管DeepSeek的AI模型可能改变一些情况,但目前构建基础设施的能力依然很关键,并且现在判断DeepSeek的突破性AI模型对Meta及更广泛的科技行业产生何种影响还为时过早。他希望Meta的下一个模型Llama4成为世界上最具竞争力的模型(与封闭模型如ChatGPT相比也是如此),并具备代理功能和多模式功能,这可能也会借鉴DeepSeek的相关技术思路或成果 。