数据科学实战：Jupyter Notebook 动态可视化与模型训练指南

? Jupyter Notebook 入门：环境搭建与基础操作

咱先把地基打好，聊聊怎么在电脑上玩转 Jupyter Notebook。这玩意儿是数据科学实战的核心阵地，不管你用的是 Windows、macOS 还是 Linux，安装步骤都不难。新手建议直接下载 Anaconda 套装，里面自带 Jupyter Notebook，还集成了 Python 环境和常用的数据科学库，省得自己一个个装了。官网下载对应系统的安装包，跟着向导走就行，注意勾选 “添加到环境变量”，不然之后启动可能会出问题。

安装好之后，在命令行输入 jupyter notebook 就能启动服务，浏览器会自动打开主界面。主界面左边是文件列表，右边可以新建笔记本或者文件夹。新建笔记本时记得选 Python 内核，这是最常用的。刚打开的笔记本是空的，里面有一个个的单元格，默认是代码单元格，咱可以在里面写 Python 代码，按 Shift + Enter 就能运行，运行结果会直接显示在单元格下方。

除了代码单元格，还有 Markdown 单元格，用来写说明文字特别方便，支持标题、列表、公式等格式，写文档的时候能把思路整理得明明白白。比如咱想给一段内容加标题，选中单元格改成 Markdown 格式，输入 # 一级标题 ，运行后就是大大的标题了。另外，Jupyter Notebook 支持实时保存，不用担心代码丢失，不过养成随手保存的习惯总是好的。

? 动态可视化：让数据 “动” 起来的神器库

数据可视化是数据分析的关键一步，动态可视化更是能让我们从不同角度观察数据。在 Jupyter Notebook 里，有几个超好用的动态可视化库，咱一个一个来看看。

Matplotlib：静态到动态的华丽转身

Matplotlib 是 Python 里最常用的可视化库，默认画的是静态图，但它也能做动态图哦。比如绘制动态折线图，咱可以用 FuncAnimation 函数，指定更新数据的函数，就能让折线随着数据变化动起来。先导入必要的库：

python

import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import numpy as np

然后创建 figure 和 axes，初始化一个空的折线：

python

fig, ax = plt.subplots()
x_data, y_data = [], []
line, = ax.plot([], [], 'b-')

再定义更新数据的函数，每次添加新的数据点：

python

def update(frame):
    x_data.append(frame)
    y_data.append(np.sin(frame * 0.1))
    line.set_data(x_data, y_data)
    ax.relim()
    ax.autoscale_view()
    return line,

最后创建动画并显示：

python

ani = FuncAnimation(fig, update, frames=np.linspace(, , ), interval=)
plt.show()

这样就能看到一条动态变化的正弦曲线啦。

Plotly：交互式可视化的佼佼者

Plotly 比 Matplotlib 更强大，天生支持交互式动态可视化，生成的图表可以缩放、平移、悬停查看数据点信息，特别适合探索性数据分析。安装也简单，pip install plotly 就行。用 Plotly 画动态柱状图，先准备数据：

python

import plotly.express as px
df = px.data.gapminder().query("year == 2007")

然后创建图表，指定 x、y、颜色等参数：

python

fig = px.bar(df, x="gdpPercap", y="country", color="continent",
             title="GDP per Capita by Country (2007)",
             labels={"gdpPercap": "GDP per Capita", "country": "Country"})

显示图表用 fig.show()，在 Jupyter Notebook 里会直接渲染出交互式的图表，鼠标移到柱子上就能看到具体数据，还能点击图例显示或隐藏某个大洲的数据，特别方便。

Bokeh：高性能动态可视化库

Bokeh 适合做大屏可视化和复杂的动态图表，支持实时数据更新，比如股票行情图、传感器数据监控等。安装 pip install bokeh 后，咱来画一个动态更新的散点图。先创建数据来源：

python

from bokeh.driving import linear
from bokeh.plotting import figure, show, ColumnDataSource

source = ColumnDataSource(data=dict(x=[], y=[]))
p = figure(x_range=(-, ), y_range=(-, ), tools="", toolbar_location=None)
p.scatter('x', 'y', size=, source=source)

定义数据更新函数，用 linear 装饰器让数据按线性变化：

python

@linear()
def update(step):
    x = np.linspace(-, , )
    y = np.sin(x + step/)
    source.data = dict(x=x, y=y)

创建动画并显示：

python

from bokeh.server.server import Server
from bokeh.application import Application
from bokeh.application.handlers.function import FunctionHandler

def bk_worker():
    server = Server({'/': Application(FunctionHandler(update))}, port=)
    server.start()
    server.io_loop.add_callback(show, p)
    server.io_loop.start()

import threading
threading.Thread(target=bk_worker).start()

这样就能看到散点随着时间动态变化，Bokeh 的性能很好，即使数据量很大也能流畅运行。

? 模型训练：从数据预处理到模型部署全流程

在 Jupyter Notebook 里做模型训练，流程特别清晰，咱可以一步一步跟着来。

数据预处理：让数据干干净净

拿到数据后，首先要做的就是预处理。比如检查数据缺失情况，用 df.isnull().sum() 就能看出每列有多少缺失值。处理缺失值的方法有很多，数值型数据可以用均值、中位数填充，分类数据可以用众数填充，或者直接删除缺失太多的行或列。然后是数据清洗，比如去除重复数据，用 df.drop_duplicates() 就行。还有数据转换，分类数据需要转换成数值型，常用的方法有独热编码（One - Hot Encoding）和标签编码（Label Encoding），可以用 pd.get_dummies() 或者 LabelEncoder 来处理。

特征工程：让数据更有 “营养”

特征工程是模型训练的关键一步，好的特征能让模型性能大幅提升。比如数值型特征可以做标准化（Standardization）或归一化（Normalization），标准化用 StandardScaler，归一化用 MinMaxScaler。对于时间序列数据，可以提取年、月、日、小时等特征，对于文本数据，可以用词袋法（Bag - of - Words）、TF - IDF 等方法转换成特征向量。另外，还可以做特征组合，比如将两个数值型特征相乘或相加，生成新的特征。

模型选择与训练：找到最合适的模型

根据问题类型选择合适的模型，分类问题可以用逻辑回归、决策树、随机森林等，回归问题可以用线性回归、支持向量机、梯度提升树等。这里以分类问题为例，用 Scikit - learn 库来训练随机森林模型。先划分训练集和测试集，用 train_test_split 函数：

python

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=)

然后创建模型并训练：

python

from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=, random_state=)
model.fit(X_train, y_train)

训练过程中可以用交叉验证来评估模型性能，用 cross_val_score 函数计算准确率、精确率、召回率等指标。

模型评估与调优：让模型更精准

模型训练完后，要在测试集上评估性能，看看是否过拟合或欠拟合。如果过拟合，可以通过减少模型复杂度、增加正则化参数、使用 dropout 等方法解决；如果欠拟合，可以增加模型复杂度、增加训练数据、调整特征等。调优常用的方法有网格搜索（Grid Search）和随机搜索（Random Search），用 GridSearchCV 和 RandomizedSearchCV 来实现。比如对随机森林的 n_estimators、max_depth、min_samples_split 等参数进行网格搜索：

python

from sklearn.model_selection import GridSearchCV
param_grid = {
    'n_estimators': [, , ],
    'max_depth': [None, , , ],
    'min_samples_split': [, , ]
}
grid_search = GridSearchCV(model, param_grid, cv=, scoring='accuracy')
grid_search.fit(X_train, y_train)
best_model = grid_search.best_estimator_

找到最佳参数后，用最佳模型在测试集上评估最终性能。

模型部署：让模型发挥作用

在 Jupyter Notebook 里训练好的模型，可以导出保存，常用的方法是用 pickle 或 joblib 库。比如用 joblib 保存模型：

python

import joblib
joblib.dump(best_model, 'best_model.pkl')

然后可以在其他项目中加载使用：

python

loaded_model = joblib.load('best_model.pkl')
predictions = loaded_model.predict(X_test)

如果需要部署成 API 服务，可以用 Flask 或 Django 框架，在 Jupyter Notebook 里写好预测逻辑，然后导出成 Python 文件，搭建 API 接口，让其他应用可以调用。

? 实战案例：鸢尾花数据集分类全流程实操

咱用经典的鸢尾花数据集来实战一下，看看怎么在 Jupyter Notebook 里完成从数据加载到模型部署的整个过程。

数据加载与探索

首先加载鸢尾花数据集，Scikit - learn 里自带这个数据集：

python

from sklearn.datasets import load_iris
data = load_iris()
X = data.data
y = data.target
feature_names = data.feature_names
target_names = data.target_names

然后看看数据形状，X.shape 显示有 150 个样本，4 个特征，y.shape 显示有 150 个标签。接着做一些基本的探索性分析，比如用 Plotly 画一个三维散点图，看看不同类别鸢尾花的特征分布：

python

import plotly.graph_objects as go
fig = go.Figure(data=[go.Scatter3d(
    x=X[:, ],
    y=X[:, ],
    z=X[:, ],
    mode='markers',
    marker=dict(
        color=y,
        size=,
        colorscale='Viridis',
        line=dict(width=)
    ),
    text=target_names[y]
)])
fig.update_layout(scene=dict(xaxis_title=feature_names[], yaxis_title=feature_names[], zaxis_title=feature_names[]), title="鸢尾花数据集三维散点图")
fig.show()

从图中可以看出不同类别的鸢尾花在特征空间中有一定的区分度。

数据预处理与特征工程

这里数据比较干净，没有缺失值，直接划分训练集和测试集。特征工程方面，因为都是数值型特征，做一下标准化处理：

python

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

模型训练与评估

选择支持向量机（SVM）模型，先训练一个基础模型：

python

from sklearn.svm import SVC
model = SVC(kernel='linear', random_state=)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

计算准确率：

python

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率：{accuracy:.4f}")

然后用网格搜索调优，选择 C 和 gamma 参数：

python

param_grid = {'C': [0.1, , , ], 'gamma': [, 0.1, 0.01, 0.001], 'kernel': ['rbf', 'linear']}
grid_search = GridSearchCV(SVC(), param_grid, refit=True, verbose=, cv=)
grid_search.fit(X_train, y_train)
best_svm_model = grid_search.best_estimator_
y_pred_best = best_svm_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f"调优后准确率：{accuracy_best:.4f}")

调优后准确率可能会有提升。

模型可视化与部署

用 Matplotlib 画一个决策边界图（二维情况），这里选前两个特征：

python

import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

X_set, y_set = X_scaled[:, :], y
X1, X2 = np.meshgrid(np.arange(start=X_set[:, ].min() - , stop=X_set[:, ].max() + , step=0.01),
                     np.arange(start=X_set[:, ].min() - , stop=X_set[:, ].max() + , step=0.01))
plt.contourf(X1, X2, best_svm_model.predict(np.c_[X1.ravel(), X2.ravel()]).reshape(X1.shape),
             alpha=0.75, cmap=ListedColormap(('red', 'green', 'blue'))分享到：

5884 阅读更多