# Import libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
import tableone
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

from patsy import dmatrices
from sklearn import ensemble, metrics, svm
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, fbeta_score, ConfusionMatrixDisplay, confusion_matrix, PrecisionRecallDisplay, precision_recall_curve
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
from tableone import TableOne
from tabulate import tabulate

C:\Users\jack.huber\AppData\Local\anaconda3\lib\site-packages\numpy\_distributor_init.py:30: UserWarning: loaded more than 1 DLL from .libs:
C:\Users\jack.huber\AppData\Local\anaconda3\lib\site-packages\numpy\.libs\libopenblas64__v0.3.21-gcc_10_3_0.dll
C:\Users\jack.huber\AppData\Local\anaconda3\lib\site-packages\numpy\.libs\libopenblas64__v0.3.23-gcc_10_3_0.dll
  warnings.warn("loaded more than 1 DLL from .libs:"


# Load raw data
# https://docs.google.com/spreadsheets/d/1LJdcP-nRabfEds08NVsmTImHe4pvShdr1rkyG6ZPRcY/edit#gid=1072152612

sheet_id = "1LJdcP-nRabfEds08NVsmTImHe4pvShdr1rkyG6ZPRcY"
sheet_name = "necrot"
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
df = pd.read_csv(url)


df = pd.read_csv('necrot.csv')


# Inspect the first five rows of the dataframe
df.head()


# Column mean imputation of missing data
df["vanco_duration"].fillna(df["vanco_duration"].mean(), inplace=True)
df["anaerobic_results"].fillna(df["anaerobic_results"].mean(), inplace=True)
df["glucose"].fillna(df["glucose"].mean(), inplace=True)
df["hemoglobin"].fillna(df["hemoglobin"].mean(), inplace=True)
df["hematocrit"].fillna(df["hematocrit"].mean(), inplace=True)
df["red_blood_cells"].fillna(df["red_blood_cells"].mean(), inplace=True)
df["white_blood_cells"].fillna(df["white_blood_cells"].mean(), inplace=True)

# Convert all floats to integer
df = df.astype('int')


# Inspect the data frame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158 entries, 0 to 157
Data columns (total 58 columns):
 #   Column                          Non-Null Count  Dtype
---  ------                          --------------  -----
 0   expired                         158 non-null    int32
 1   age                             158 non-null    int32
 2   d_female                        158 non-null    int32
 3   aids                            158 non-null    int32
 4   cerebrovascular_disease         158 non-null    int32
 5   charlson_comorbidity_index      158 non-null    int32
 6   chronic_pulmonary_disease       158 non-null    int32
 7   congestive_heart_failure        158 non-null    int32
 8   dementia                        158 non-null    int32
 9   diabetes_without_cc             158 non-null    int32
 10  diabetes_with_cc                158 non-null    int32
 11  malignant_cancer                158 non-null    int32
 12  metastatic_solid_tumor          158 non-null    int32
 13  mild_liver_disease              158 non-null    int32
 14  myocardial_infarct              158 non-null    int32
 15  paraplegia                      158 non-null    int32
 16  peptic_ulcer_disease            158 non-null    int32
 17  peripheral_vascular_disease     158 non-null    int32
 18  renal_disease                   158 non-null    int32
 19  rheumatic_disease               158 non-null    int32
 20  severe_liver_disease            158 non-null    int32
 21  clindamycin_doses               158 non-null    int32
 22  clindamycin_duration_hrs        158 non-null    int32
 23  linezolid_doses                 158 non-null    int32
 24  linezolid_duration_hrs          158 non-null    int32
 25  n_serotonergics                 158 non-null    int32
 26  vanco_duration                  158 non-null    int32
 27  anaerobic_results               158 non-null    int32
 28  glucose                         158 non-null    int32
 29  hemoglobin                      158 non-null    int32
 30  hematocrit                      158 non-null    int32
 31  red_blood_cells                 158 non-null    int32
 32  scr_baseline                    158 non-null    int32
 33  white_blood_cells               158 non-null    int32
 34  d_bypass_procedure              158 non-null    int32
 35  d_catheter_placement_procedure  158 non-null    int32
 36  d_closure_procedure             158 non-null    int32
 37  d_detachment_procedure          158 non-null    int32
 38  d_dilation_procedure            158 non-null    int32
 39  d_division_procedure            158 non-null    int32
 40  d_drainage_procedure            158 non-null    int32
 41  d_excision_procedure            158 non-null    int32
 42  d_extraction_procedure          158 non-null    int32
 43  d_fasciotomy_procedure          158 non-null    int32
 44  d_graft_procedure               158 non-null    int32
 45  d_inspection_procedure          158 non-null    int32
 46  d_introduction_procedure        158 non-null    int32
 47  d_pressure_dressing_procedure   158 non-null    int32
 48  d_release_procedure             158 non-null    int32
 49  d_repair_procedure              158 non-null    int32
 50  d_replacement_procedure         158 non-null    int32
 51  d_reposition_procedure          158 non-null    int32
 52  d_resection_procedure           158 non-null    int32
 53  d_revision_procedure            158 non-null    int32
 54  d_supplement_procedure          158 non-null    int32
 55  d_transfer_procedure            158 non-null    int32
 56  d_transfusion_procedure         158 non-null    int32
 57  d_ultrasonography_procedure     158 non-null    int32
dtypes: int32(58)
memory usage: 35.9 KB


# Identify new data frame "_57" for clarity
df_57 = df


# Define outcome and predictors
y = df_57['expired']
X = df_57.drop(columns=['expired'])

# 500 iterations, using 2-deep trees, and loss function of 'deviance'
params = {'n_estimators': 500,
          'max_depth': 2,
          'loss': 'log_loss'}

# Initialize and fit the model.
clf = ensemble.GradientBoostingClassifier(**params)
clf.fit(X, y)

feature_importance = clf.feature_importances_

# Make importances relative to max importance
feature_importance = 100.0 * (feature_importance / feature_importance.max())
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + .5
fig = plt.figure(figsize=(20,20))
plt.subplot(1, 2, 2)
plt.barh(pos, feature_importance[sorted_idx], align='center')
plt.yticks(pos, X.columns[sorted_idx])
plt.xlabel('Relative Importance')
plt.title('Figure 1. Feature Importances from Gradient Boosting Model', fontsize=14)
plt.tight_layout()
plt.show()


# Dataframe of 15 most important features from gradient boosting model
df_15 = df_57.loc[:, [
  #target
  'expired',
  # demographics
  'age',
  # comorbidities
  'charlson_comorbidity_index',
  'severe_liver_disease',
  'peripheral_vascular_disease',
  'cerebrovascular_disease',
  # medications
  'clindamycin_duration_hrs',
  'vanco_duration',
  'clindamycin_doses',
  'linezolid_doses',
  'linezolid_duration_hrs',
  # labs
  'white_blood_cells',
  'scr_baseline',
  'glucose',
  # procedures
  'd_bypass_procedure',
  'd_extraction_procedure'
  ]]


# Split data into target and features
X = df_15.drop(columns=['expired'])
Y = df_15['expired']
X = df_15.values

# Standardize the features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

# Extract two largest principal components to provide two planes for plotting solution
pca = PCA(n_components=2).fit_transform(X_std)

# Estimate the K-means algorithms
kmeans_2cluster = KMeans(n_clusters=2, random_state=123, n_init='auto')
kmeans_2cluster.fit(X_std)
kmeans2 = kmeans_2cluster.predict(X_std)
km2_labels = KMeans(n_clusters=2, random_state=123, n_init='auto').fit_predict(X_std)
kmeans_3cluster = KMeans(n_clusters=3, random_state=123, n_init='auto')
kmeans_3cluster.fit(X_std)
kmeans3 = kmeans_3cluster.predict(X_std)
km3_labels = KMeans(n_clusters=3, random_state=123, n_init='auto').fit_predict(X_std)

# Estimate the agglomerative clustering algorithms
agg_2cluster = AgglomerativeClustering(linkage='complete', metric='cosine', n_clusters=2)
agg_2clusters = agg_2cluster.fit_predict(X_std)
agg2_labels = AgglomerativeClustering(linkage='complete', metric='cosine', n_clusters=2).fit_predict(X_std)
agg_3cluster = AgglomerativeClustering(linkage='complete', metric='cosine', n_clusters=3)
agg_3clusters = agg_3cluster.fit_predict(X_std)
agg3_labels = AgglomerativeClustering(linkage='complete', metric='cosine', n_clusters=3).fit_predict(X_std)

# Plot solution
fig, axs = plt.subplots(2, 2, figsize=(15,10))
fig.suptitle('Figure 2. Unsupervised Clustering Solutions', fontsize=14)
plt.subplots_adjust(bottom=0.07)
axs[0, 0].scatter(pca[:,0], pca[:,1], c=kmeans2)
axs[0, 0].set_title('K-means 2 cluster')
axs[0, 0].set_xlabel('Silhouette score: {}'.format(
    round(metrics.silhouette_score(X_std, km2_labels, metric='euclidean'),3)), fontsize=10)
axs[0, 1].scatter(pca[:,0], pca[:,1], c=agg_2clusters)
axs[0, 1].set_title('Agglomerative 2 cluster')
axs[0, 1].set_xlabel('Silhouette score: {}'.format(
    round(metrics.silhouette_score(X_std, agg2_labels, metric='euclidean'),3)), fontsize=10)
axs[1, 0].scatter(pca[:,0], pca[:,1], c=kmeans3)
axs[1, 0].set_title('K-means 3 cluster')
axs[1, 0].set_xlabel('Silhouette score: {}'.format(
    round(metrics.silhouette_score(X_std, km3_labels, metric='euclidean'),3)), fontsize=10)
axs[1, 1].scatter(pca[:,0], pca[:,1], c=agg_3clusters)
axs[1, 1].set_title('Agglomerative 3 cluster')
axs[1, 1].set_xlabel('Silhouette score: {}'.format(
    round(metrics.silhouette_score(X_std, agg3_labels, metric='euclidean'),3)), fontsize=10)
plt.tight_layout()
plt.show()


# Add clusters as feature to dataframe
df_16 = df_15
df_16['cluster'] = kmeans_3cluster.fit_predict(X_std)

# Rename the clusters
df_16['cluster'].replace(0, 'Cluster 1', inplace=True)
df_16['cluster'].replace(1, 'Cluster 2', inplace=True)
df_16['cluster'].replace(2, 'Cluster 3', inplace=True)

# Get dummies and add to new dataframe
df_new = pd.get_dummies(df_16['cluster'], drop_first=True)
df_17 = pd.concat([df_16, df_new], axis=1)
df_17 = df_17.drop(columns=['cluster'])
df_17['Cluster_2'] = df_17['Cluster 2']
df_17['Cluster_3'] = df_17['Cluster 3']
df_17 = df_17.drop(columns=['Cluster 2'])
df_17 = df_17.drop(columns=['Cluster 3'])

df_17['Cluster_2'].replace(False, 0, inplace=True)
df_17['Cluster_2'].replace(True, 1, inplace=True)
df_17['Cluster_3'].replace(False, 0, inplace=True)
df_17['Cluster_3'].replace(True, 1, inplace=True)


# Table 1. Demographic and Clinical Characteristics of Patient Clusters
t1_columns = [
    #target
    'expired',
    # demographics
    'age',
    # comorbidities
    'charlson_comorbidity_index',
    'severe_liver_disease',
    'peripheral_vascular_disease',
    'cerebrovascular_disease',
    # medications
    'clindamycin_duration_hrs',
    'vanco_duration',
    'clindamycin_doses',
    'linezolid_doses',
    'linezolid_duration_hrs',
    # labs
    'white_blood_cells',
    'scr_baseline',
    'glucose',
    # procedures
    'd_bypass_procedure',
    'd_extraction_procedure',
    # clusters
    'cluster']
t1_categorical = [
    # target
    'expired',
     # comorbidities
    'severe_liver_disease',
    'peripheral_vascular_disease',
    'cerebrovascular_disease',
    # procedures
    'd_bypass_procedure',
    'd_extraction_procedure'
    ]
t1_groupby = ['cluster']
t1 = TableOne(df_16, columns = t1_columns, categorical = t1_categorical, groupby = t1_groupby, pval=True, missing=False)
print('-----------------------------------------------------------------------------------')
print()
print('Table 1.')
print('Demographic and Clinical Characteristics of NF Patients')
print()
print('-----------------------------------------------------------------------------------')
t1

-----------------------------------------------------------------------------------

Table 1.
Demographic and Clinical Characteristics of NF Patients

-----------------------------------------------------------------------------------


# Correlation matrix and heat map
corrmatrx = df_17.corr()
plt.figure(figsize=(12,12))
sns.heatmap(corrmatrx, square=True, cmap="Blues", annot=True, linewidths=.5)
plt.title("Figure 3. Correlation Matrix", fontsize=14)
plt.tight_layout()
plt.show()


# Split data into target and features
X = df_17.drop(columns=['expired'])
Y = df_17['expired']
X = df_17.values

# Standardize the features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

# Extract two largest principal components to provide two planes for plotting solution
pca = PCA(n_components=2).fit_transform(X_std)

# Split data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=82, shuffle=True)


# Fit base logistic model and gather performance metrics
lr1 = LogisticRegression(solver='lbfgs', max_iter=30000)
lr1.fit(X_train, y_train)
lr1_predictions = lr1.predict(X_test)
lr1_test_score = lr1.score(X_test, y_test) # accuracy scores
lr1_train_score = lr1.score(X_train, y_train) # accuracy scores
lr1_accuracy = accuracy_score(y_test, lr1_predictions)
lr1_precision = precision_score(y_test, lr1_predictions)
lr1_recall = recall_score(y_test, lr1_predictions)
lr1_f1 = f1_score(y_test, lr1_predictions)
lr1_fbeta_precision = fbeta_score(y_test, lr1_predictions, beta=0.5)
lr1_fbeta_recall = fbeta_score(y_test, lr1_predictions, beta=2)

# Fit base SVM and gather performance metrics
svm1 = LinearSVC(max_iter=30000, dual='auto')
svm1.fit(X_train, y_train)
svm1_predictions = svm1.predict(X_test)
svm1_train_score = svm1.score(X_train, y_train)
svm1_test_score = svm1.score(X_test, y_test)
svm1_accuracy = accuracy_score(y_test, svm1_predictions)
svm1_precision = precision_score(y_test, svm1_predictions)
svm1_recall = recall_score(y_test, svm1_predictions)
svm1_f1 = f1_score(y_test, svm1_predictions)
svm1_fbeta_precision = fbeta_score(y_test, svm1_predictions, beta=0.5)
svm1_fbeta_recall = fbeta_score(y_test, svm1_predictions, beta=2)


# Performance metrics table of base supervised learning models

pm1 = [["Accuracy",                       round(lr1_accuracy,3),        round(svm1_accuracy,3)],
       ["Precision",                      round(lr1_precision,3),       round(svm1_precision,3)],
       ["Recall",                         round(lr1_recall,3),          round(svm1_recall,3)],
       ["F1",                             round(lr1_f1,3),              round(svm1_f1,3)],
       ["Fbeta score favoring precision", round(lr1_fbeta_precision,3), round(svm1_fbeta_precision,3)],
       ["Fbeta score favoring recall",    round(lr1_fbeta_recall,3),    round(svm1_fbeta_recall,3)]
       ]

print()
print('Table 2.')
print('Test Set Performance Metrics for Base Supervised Learning Models')
print()
print('--------------------------------------------------------------------')
print(tabulate(pm1, headers=["Metric","Logistic","Support Vector Machine"]))
print('--------------------------------------------------------------------')

Table 2.
Test Set Performance Metrics for Base Supervised Learning Models

--------------------------------------------------------------------
Metric                            Logistic    Support Vector Machine
------------------------------  ----------  ------------------------
Accuracy                             0.975                     0.975
Precision                            0.8                       0.8
Recall                               1                         1
F1                                   0.889                     0.889
Fbeta score favoring precision       0.833                     0.833
Fbeta score favoring recall          0.952                     0.952
--------------------------------------------------------------------


# Confusion matrices for first models

fig, ax = plt.subplots(1, 2, figsize=(11,5))
fig.suptitle('Figure 4. Confusion Matrices for Base Supervised Learning Models', fontsize=14)

ax[0].set_title("Logistic regression")
ax[1].set_title("Support vector machine")

metrics.ConfusionMatrixDisplay(
    confusion_matrix=metrics.confusion_matrix(y_test, lr1_predictions),
    display_labels=[False, True]).plot(ax=ax[0])

metrics.ConfusionMatrixDisplay(
    confusion_matrix=metrics.confusion_matrix(y_test, svm1_predictions),
    display_labels=[False, True]).plot(ax=ax[1])

<sklearn.metrics._plot.confusion_matrix.ConfusionMatrixDisplay at 0x1e1712be020>


# Precision-recall curves
lr1_pres, lr1_rec, lr_thresholds = precision_recall_curve(y_test, lr1_predictions)
svm1_pres, svm1_rec, svm1_thresholds = precision_recall_curve(y_test, svm1_predictions)

# Plot solution
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(11,5))
fig.suptitle('Figure 5. Precision-Recall Curves for Base Supervised Learning Models', fontsize=14)
ax1.plot(lr1_rec, lr1_pres) # Logistic model
ax1.set_title('Logistic model')
ax1.set_xlabel('Recall')
ax1.set_ylabel('Precision')
ax2.plot(svm1_rec, svm1_pres) # SVM model
ax2.set_title('Support vector machine')
ax2.set_xlabel('Recall')
ax2.set_ylabel('Precision')
plt.tight_layout()
plt.show()


# Logistic regression L2 regularization
lrl2 = LogisticRegression(solver='lbfgs', penalty='l2', max_iter=10000, random_state=2)
lrl2.fit(X_train, y_train)
lrl2_predictions = lrl2.predict(X_test)
lrl2_test_score = lrl2.score(X_test, y_test) # accuracy scores
lrl2_train_score = lrl2.score(X_train, y_train) # accuracy scores
lrl2_accuracy = accuracy_score(y_test, lrl2_predictions)
lrl2_precision = precision_score(y_test, lrl2_predictions)
lrl2_recall = recall_score(y_test, lrl2_predictions)
lrl2_f1 = f1_score(y_test, lrl2_predictions)
lrl2_fbeta_precision = fbeta_score(y_test, lrl2_predictions, beta=0.5)
lrl2_fbeta_recall = fbeta_score(y_test, lrl2_predictions, beta=2)

# Logistic regression regularization table
pm2 = [["Accuracy", round(lr1_accuracy,3), round(lrl2_accuracy,3)],
       ["Precision", round(lr1_precision,3), round(lrl2_precision,3)],
       ["Recall", round(lr1_recall,3), round(lrl2_recall,3)],
       ["F1", round(lr1_f1,3), round(lrl2_f1,3)],
       ["Fbeta score favoring precision", round(lr1_fbeta_precision,3), round(lrl2_fbeta_precision,3)],
       ["Fbeta score favoring recall", round(lr1_fbeta_recall,3), round(lrl2_fbeta_recall,3)]
       ]
print()
print('Table 3.')
print('Test Set Performance Metrics for Logistic Regression Models')
print()
print('---------------------------------------------------------------------------------------------------------------------')
print(tabulate(pm2, headers=["Metric","Base Logistic Model with no regularization","Logistic Model with L2 Regularization"]))
print('---------------------------------------------------------------------------------------------------------------------')

Table 3.
Test Set Performance Metrics for Logistic Regression Models

---------------------------------------------------------------------------------------------------------------------
Metric                            Base Logistic Model with no regularization    Logistic Model with L2 Regularization
------------------------------  --------------------------------------------  ---------------------------------------
Accuracy                                                               0.975                                    0.975
Precision                                                              0.8                                      0.8
Recall                                                                 1                                        1
F1                                                                     0.889                                    0.889
Fbeta score favoring precision                                         0.833                                    0.833
Fbeta score favoring recall                                            0.952                                    0.952
---------------------------------------------------------------------------------------------------------------------


# Logistic Regression Model C Parameter Tuning
lr2_c_vals = np.arange(0.05, 3.0, 0.05)
lr2_test_accuracy = []
lr2_train_accuracy = []

for lr2_c in lr2_c_vals:
  lr2 = LogisticRegression(solver='lbfgs', C=lr2_c, max_iter=30000, random_state=2)
  lr2.fit(X_train, y_train)
  lr2_test_accuracy.append(lr2.score(X_test, y_test))
  lr2_train_accuracy.append(lr2.score(X_train, y_train))

# Support Vector Machine C Parameter Tuning
svm2_c_vals = np.arange(0.05, 3.0, 0.05)
svm2_test_accuracy = []
svm2_train_accuracy = []

for svm2_c in svm2_c_vals:
  svm2 = LinearSVC(max_iter=30000, C=svm2_c, dual='auto')
  svm2.fit(X_train, y_train)
  svm2_test_accuracy.append(svm2.score(X_test, y_test))
  svm2_train_accuracy.append(svm2.score(X_train, y_train))

# Plot results
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(11,5))
fig.suptitle('Figure 6. Accuracy by C Parameter Curves for Base Supervised Learning Models', fontsize=14)

ax1.plot(lr2_c_vals, lr2_test_accuracy, '-g', label='Test Accuracy')
ax1.plot(lr2_c_vals, lr2_train_accuracy, '-b', label='Train Accuracy')
ax1.set(xlabel='C', ylabel='Accuracy')
ax1.set_title('Logistic Regression')
ax1.legend()

ax2.plot(svm2_c_vals, svm2_test_accuracy, '-g', label='Test Accuracy')
ax2.plot(svm2_c_vals, svm2_train_accuracy, '-b', label='Train Accuracy')
ax2.set(xlabel='C', ylabel='Accuracy')
ax2.set_title('Support Vector Machine')
ax2.legend()

plt.tight_layout()
plt.show()


# Tuned model performance

# Fit tuned logistic model and gather performance metrics
lrc2 = LogisticRegression(solver='lbfgs', C=1, max_iter=10000)
lrc2.fit(X_train, y_train)
lrc2_predictions = lrc2.predict(X_test)
lrc2_test_score = lrc2.score(X_test, y_test) # accuracy scores
lrc2_train_score = lrc2.score(X_train, y_train) # accuracy scores
lrc2_accuracy = accuracy_score(y_test, lrc2_predictions)
lrc2_precision = precision_score(y_test, lrc2_predictions)
lrc2_recall = recall_score(y_test, lrc2_predictions)
lrc2_f1 = f1_score(y_test, lrc2_predictions)
lrc2_fbeta_precision = fbeta_score(y_test, lrc2_predictions, beta=0.5)
lrc2_fbeta_recall = fbeta_score(y_test, lrc2_predictions, beta=2)

# Fit tuned SVM and gather performance metrics
svmc2 = LinearSVC(max_iter=10000, C=1, dual='auto')
svmc2.fit(X_train, y_train)
svmc2_predictions = svmc2.predict(X_test)
svmc2_train_score = svmc2.score(X_train, y_train)
svmc2_test_score = svmc2.score(X_test, y_test)
svmc2_accuracy = accuracy_score(y_test, svmc2_predictions)
svmc2_precision = precision_score(y_test, svmc2_predictions)
svmc2_recall = recall_score(y_test, svmc2_predictions)
svmc2_f1 = f1_score(y_test, svmc2_predictions)
svmc2_fbeta_precision = fbeta_score(y_test, svmc2_predictions, beta=0.5)
svmc2_fbeta_recall = fbeta_score(y_test, svmc2_predictions, beta=2)

# Tune model performance metrics table

pm3 = [["Accuracy",                       round(lrc2_accuracy,3),        round(svmc2_accuracy,3)],
       ["Precision",                      round(lrc2_precision,3),       round(svmc2_precision,3)],
       ["Recall",                         round(lrc2_recall,3),          round(svmc2_recall,3)],
       ["F1",                             round(lrc2_f1,3),              round(svmc2_f1,3)],
       ["Fbeta score favoring precision", round(lrc2_fbeta_precision,3), round(svmc2_fbeta_precision,3)],
       ["Fbeta score favoring recall",    round(lrc2_fbeta_recall,3),    round(svmc2_fbeta_recall,3)]
       ]

print()
print('Table 3.')
print('Test Set Performance Metrics for Tuned Supervised Learning Models')
print()
print('--------------------------------------------------------------------')
print(tabulate(pm3, headers=["Metric","Logistic","Support Vector Machine"]))
print('--------------------------------------------------------------------')

Table 3.
Test Set Performance Metrics for Tuned Supervised Learning Models

--------------------------------------------------------------------
Metric                            Logistic    Support Vector Machine
------------------------------  ----------  ------------------------
Accuracy                             0.975                     0.975
Precision                            0.8                       0.8
Recall                               1                         1
F1                                   0.889                     0.889
Fbeta score favoring precision       0.833                     0.833
Fbeta score favoring recall          0.952                     0.952
--------------------------------------------------------------------


# Confusion matrices for tuned models

fig, ax = plt.subplots(1, 2, figsize=(11,5))
fig.suptitle('Figure 7. Confusion Matrices for Tuned Models', fontsize=14)

ax[0].set_title("Logistic regression")
ax[1].set_title("Support vector machine")

metrics.ConfusionMatrixDisplay(
    confusion_matrix=metrics.confusion_matrix(y_test, lrc2_predictions),
    display_labels=[False, True]).plot(ax=ax[0])

metrics.ConfusionMatrixDisplay(
    confusion_matrix=metrics.confusion_matrix(y_test, svmc2_predictions),
    display_labels=[False, True]).plot(ax=ax[1])

<sklearn.metrics._plot.confusion_matrix.ConfusionMatrixDisplay at 0x1e17382bc40>


# Logistic model coefficients
y2, X2 = dmatrices('expired ~ age + charlson_comorbidity_index + white_blood_cells + scr_baseline +  glucose + d_bypass_procedure + d_extraction_procedure + vanco_duration + clindamycin_duration_hrs + clindamycin_doses + linezolid_doses + linezolid_duration_hrs', data = df_17, return_type='dataframe')

mod = sm.Logit(y2, X2)
res = mod.fit(maxiter=100000)
print(res.summary())

Optimization terminated successfully.
         Current function value: 0.132936
         Iterations 14
                           Logit Regression Results                           
==============================================================================
Dep. Variable:                expired   No. Observations:                  158
Model:                          Logit   Df Residuals:                      145
Method:                           MLE   Df Model:                           12
Date:                Thu, 18 Jan 2024   Pseudo R-squ.:                  0.6500
Time:                        16:23:19   Log-Likelihood:                -21.004
converged:                       True   LL-Null:                       -60.014
Covariance Type:            nonrobust   LLR p-value:                 9.829e-12
==============================================================================================
                                 coef    std err          z      P>|z|      [0.025      0.975]
----------------------------------------------------------------------------------------------
Intercept                     -6.3189      3.084     -2.049      0.040     -12.364      -0.274
age                            0.0498      0.034      1.465      0.143      -0.017       0.116
charlson_comorbidity_index     0.7929      0.244      3.256      0.001       0.316       1.270
white_blood_cells              0.1060      0.042      2.534      0.011       0.024       0.188
scr_baseline                  -0.4761      0.463     -1.029      0.303      -1.383       0.431
glucose                       -0.0128      0.013     -1.022      0.307      -0.037       0.012
d_bypass_procedure            22.9912      9.495      2.421      0.015       4.381      41.602
d_extraction_procedure       -10.5162     22.376     -0.470      0.638     -54.372      33.339
vanco_duration                -0.0220      0.008     -2.785      0.005      -0.038      -0.007
clindamycin_duration_hrs       0.0211      0.007      2.853      0.004       0.007       0.036
clindamycin_doses             -0.2141      0.102     -2.100      0.036      -0.414      -0.014
linezolid_doses                1.0267      1.433      0.717      0.474      -1.781       3.835
linezolid_duration_hrs        -0.1471      0.136     -1.080      0.280      -0.414       0.120
==============================================================================================

Possibly complete quasi-separation: A fraction 0.37 of observations can be
perfectly predicted. This might indicate that there is complete
quasi-separation. In this case some parameters will not be identified.

		Grouped by cluster
		Overall	Cluster 1	Cluster 2	Cluster 3	P-Value
n		158	10	116	32
expired, n (%)	0	138 (87.3)	10 (100.0)	116 (100.0)	12 (37.5)	<0.001
expired, n (%)	1	20 (12.7)			20 (62.5)
age, mean (SD)		56.1 (14.3)	51.0 (13.9)	54.7 (14.3)	62.7 (12.7)	0.009
charlson_comorbidity_index, mean (SD)		4.3 (2.8)	4.3 (2.8)	3.7 (2.6)	6.5 (2.6)	<0.001
severe_liver_disease, n (%)	0	152 (96.2)	10 (100.0)	115 (99.1)	27 (84.4)	<0.001
severe_liver_disease, n (%)	1	6 (3.8)		1 (0.9)	5 (15.6)
peripheral_vascular_disease, n (%)	0	142 (89.9)	10 (100.0)	116 (100.0)	16 (50.0)	<0.001
peripheral_vascular_disease, n (%)	1	16 (10.1)			16 (50.0)
cerebrovascular_disease, n (%)	0	147 (93.0)	8 (80.0)	112 (96.6)	27 (84.4)	0.014
cerebrovascular_disease, n (%)	1	11 (7.0)	2 (20.0)	4 (3.4)	5 (15.6)
clindamycin_duration_hrs, mean (SD)		68.1 (70.8)	53.7 (100.0)	68.5 (67.9)	71.0 (72.7)	0.791
vanco_duration, mean (SD)		179.2 (192.3)	216.6 (139.0)	183.7 (206.9)	151.3 (146.7)	0.575
clindamycin_doses, mean (SD)		8.5 (7.5)	7.5 (13.9)	8.9 (7.2)	7.5 (5.8)	0.603
linezolid_doses, mean (SD)		2.2 (6.1)	22.7 (6.6)	0.6 (1.9)	1.6 (3.8)	<0.001
linezolid_duration_hrs, mean (SD)		28.0 (83.3)	313.3 (102.0)	6.4 (24.2)	17.0 (42.6)	<0.001
white_blood_cells, mean (SD)		15.4 (7.3)	14.1 (7.0)	14.9 (5.2)	17.9 (12.1)	0.091
scr_baseline, mean (SD)		0.6 (1.0)	0.0 (0.0)	0.5 (1.0)	1.0 (1.2)	0.010
glucose, mean (SD)		158.4 (38.3)	158.3 (37.7)	159.7 (39.7)	153.4 (34.2)	0.714
d_bypass_procedure, n (%)	0	150 (94.9)	8 (80.0)	115 (99.1)	27 (84.4)	<0.001
d_bypass_procedure, n (%)	1	8 (5.1)	2 (20.0)	1 (0.9)	5 (15.6)
d_extraction_procedure, n (%)	0	116 (73.4)	8 (80.0)	82 (70.7)	26 (81.2)	0.434
d_extraction_procedure, n (%)	1	42 (26.6)	2 (20.0)	34 (29.3)	6 (18.8)

Predicting Mortality in Patients with Necrotizing Fasciitis: A Machine Learning Approach¶

Acknowledgment¶

Introduction¶

Data source¶

Data extraction¶

Missing data¶

Feature engineering¶

Unsupervised learning: Clustering¶

Data exploration¶

Patient characteristics¶

Bivariate associations¶

Supervised learning: Modeling mortality¶

Model performance¶

Model tuning¶

Predictors of mortality¶

Discussion¶

References¶

	expired	age	d_female	cerebrovascular_disease	charlson_comorbidity_index	diabetes_without_cc	...	d_replacement_procedure
0	0	61	1	1	8	1	...	0
1	0	53	0	0	6	1	...	0
2	0	42	0	0	0	0	...	0
3	1	56	0	0	2	1	...	0
4	0	47	0	0	2	1	...	1

	expired	age	d_female	cerebrovascular_disease	charlson_comorbidity_index	diabetes_without_cc	...	d_replacement_procedure
0	0	61	1	1	8	1	...	0
1	0	53	0	0	6	1	...	0
2	0	42	0	0	0	0	...	0
3	1	56	0	0	2	1	...	0
4	0	47	0	0	2	1	...	1

	expired	age	d_female	cerebrovascular_disease	charlson_comorbidity_index	diabetes_without_cc	...	d_replacement_procedure
0	0	61	1	1	8	1	...	0
1	0	53	0	0	6	1	...	0
2	0	42	0	0	0	0	...	0
3	1	56	0	0	2	1	...	0
4	0	47	0	0	2	1	...	1