Update README.md

jimmy.xj · jimmy.xj · commit f90cd626c7cc · 2023-10-30T14:59:43.000+08:00
diff --git a/README.md b/README.md
@@ -26,6 +26,8 @@ DevOps-Eval is a comprehensive evaluation suite specifically designed for founda
 ## 📜 Table of Contents
 
 - [🏆 Leaderboard](#-leaderboard)
+  - [👀 DevOps](#-devops)
+  - [🔥 AIOps](#-aiops)
 - [⏬ Data](#-data)
   - [👀 Notes](#-notes)
   - [🔥 AIOps Sample Example](#-aiops-sample-example)
@@ -36,19 +38,19 @@ DevOps-Eval is a comprehensive evaluation suite specifically designed for founda
 
 ## 🏆 Leaderboard
 Below are zero-shot and five-shot accuracies from the models that we evaluate in the initial release. We note that five-shot performance is better than zero-shot for many instruction-tuned models.
-
+### DevOps
 #### Zero Shot
 
 |      **ModelName**       | plan  | code  | build |  test  | release  | deploy | operate | monitor  | **AVG** |
 |:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:-----------:|
-|  **DevOps-Model-14B-Chat**  | 60.61 | 78.35 | 84.86 | 84.65  |  87.26   | 82.75  |  81.34  |  79.17   |  **80.34**  |
-|  **DevOps-Model-14B-Base**  | 54.55 | 77.82 | 83.49 | 85.96  |  86.32   | 81.96  |  85.82  |  82.41   |  **80.26**  |
+|  **DevOpsPal-14B-Chat**  | 60.61 | 78.35 | 84.86 | 84.65  |  87.26   | 82.75  |  81.34  |  79.17   |  **80.34**  |
+|  **DevOpsPal-14B-Base**  | 54.55 | 77.82 | 83.49 | 85.96  |  86.32   | 81.96  |  85.82  |  82.41   |  **80.26**  |
 |      Qwen-14B-Chat       | 60.61 | 75.4  | 85.32 | 84.21  |  89.62   | 82.75  |  83.58  |  80.56   |    79.28    |
 |      Qwen-14B-Base       | 57.58 | 73.81 | 84.4  | 85.53  |  86.32   | 81.18  |  82.09  |  80.09   |    77.92    |
 |    Baichuan2-13B-Base    | 60.61 | 69.42 | 79.82 | 79.82  |  82.55   | 81.18  |  85.07  |   83.8   |    75.10    |
 |    Baichuan2-13B-Chat    | 60.61 | 68.43 | 77.98 |  80.7  |   81.6   | 83.53  |  82.09  |  84.72   |    74.60    |
-|  **DevOps-Model-7B-Chat**   | 54.55 | 69.11 | 83.94 | 82.02  |  76.89   |   80   |  79.85  |  77.78   |  **74.00**  |
-|  **DevOps-Model-7B-Base**   | 54.55 | 68.96 | 82.11 | 78.95  |  80.66   | 76.47  |  79.85  |   78.7   |  **73.55**  |
+|  **DevOpsPal-7B-Chat**   | 54.55 | 69.11 | 83.94 | 82.02  |  76.89   |   80   |  79.85  |  77.78   |  **74.00**  |
+|  **DevOpsPal-7B-Base**   | 54.55 | 68.96 | 82.11 | 78.95  |  80.66   | 76.47  |  79.85  |   78.7   |  **73.55**  |
 |       Qwen-7B-Base       | 53.03 | 68.13 | 78.9  | 75.44  |  80.19   |   80   |  83.58  |  80.09   |    73.13    |
 |       Qwen-7B-Chat       | 57.58 | 66.01 | 80.28 | 79.82  |  76.89   | 77.65  |  80.6   |  79.17   |    71.96    |
 |    Baichuan2-7B-Chat     | 54.55 | 63.66 | 77.98 | 76.32  |   71.7   | 73.33  |  75.37  |  79.63   |    68.17    |
@@ -61,21 +63,59 @@ Below are zero-shot and five-shot accuracies from the models that we evaluate in
 
 | **ModelName**          | plan  | code  | build | test  | release | deploy | operate | monitor | **AVG** |
 |:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:---------:|
-| **DevOps-Model-14B-Chat** |63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 89.55 | 81.48 | **81.77** |
-| **DevOps-Model-14B-Base** |  62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 85.07 | 80.09 | **81.70** |
+| **DevOpsPal-14B-Chat** |63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 89.55 | 81.48 | **81.77** |
+| **DevOpsPal-14B-Base** |  62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 85.07 | 80.09 | **81.70** |
 | Qwen-14B-Chat |  65.15 | 76 | 82.57 | 85.53 | 84.91 | 84.31 | 85.82 | 81.48 | 79.55 |
 | Qwen-14B-Base |  66.67 | 76.15 | 84.4 | 85.53 | 86.32 | 80.39 | 86.57 | 80.56 | 79.51 |
 | Baichuan2-13B-Base | 63.64 | 71.39 | 80.73 | 82.46 | 81.13 | 84.31 | 91.79 | 85.19 | 77.09 |
 | Qwen-7B-Base | 75.76 | 72.52 | 78.9 | 81.14 | 83.96 | 81.18 | 85.07 | 81.94 | 77.02 |
 | Baichuan2-13B-Chat | 62.12 | 69.95 | 76.61 | 84.21 | 83.49 | 79.61 | 88.06 | 80.56 | 75.32 |
-| **DevOps-Model-7B-Chat** | 66.67 | 69.95 | 83.94 | 81.14 | 80.19 | 82.75 | 82.84 | 76.85 | **75.25** |
-| **DevOps-Model-7B-Base** |  69.7 | 69.49 | 82.11 | 81.14 | 82.55 | 82.35 | 80.6 | 79.17 | **75.17** |
+| **DevOpsPal-7B-Chat** | 66.67 | 69.95 | 83.94 | 81.14 | 80.19 | 82.75 | 82.84 | 76.85 | **75.25** |
+| **DevOpsPal-7B-Base** |  69.7 | 69.49 | 82.11 | 81.14 | 82.55 | 82.35 | 80.6 | 79.17 | **75.17** |
 | Qwen-7B-Chat |  65.15 | 66.54 | 82.57 | 81.58 | 81.6 | 81.18 | 80.6 | 81.02 | 73.62 |
 | Baichuan2-7B-Base | 60.61 | 67.22 | 76.61 | 75 | 77.83 | 78.43 | 80.6 | 79.63 | 72.11 |
 | Internlm-7B-Chat |  60.61 | 63.06 | 79.82 | 80.26 | 67.92 | 75.69 | 73.88 | 77.31 | 71.09 |
 | Baichuan2-7B-Chat |  60.61 | 64.95 | 81.19 | 75.88 | 71.23 | 75.69 | 78.36 | 79.17 | 70.49 |
 | Internlm-7B-Base |  62.12 | 65.25 | 77.52 | 80.7 | 74.06 | 78.82 | 79.85 | 75.46 | 69.17 |
 
+### AIOps
+#### Zero Shot
+|    **ModelName**    |  LogParsing  | RootCauseAnalysis  | TimeSeriesAnomalyDetection  | TimeSeriesClassification  | **AVG** |
+|:-------------------:|:------------:|:------------------:|:---------------------------:|:-------------------------:|:-------:|
+|    Qwen-14B-Base    |    66.29     |        58.8        |            25.33            |           43.5            |  49.27  |
+| DevOpsPal-14B—Base  |    63.14     |        53.6        |            23.33            |           43.5            |  46.55  |
+| DevOpsPal-14B—Chat  |      60      |         56         |             24              |            43             |  46.18  |
+|    Qwen-14B-Chat    |    64.57     |        51.6        |            22.67            |            36             |   45    |
+|    Qwen-7B-Base     |      50      |        39.2        |            22.67            |            54             |  40.82  |
+|    Qwen-7B-Chat     |    57.43     |        38.8        |            22.33            |           39.5            |  40.36  |
+|  DevOpsPal-7B—Chat  |    56.57     |        30.4        |            25.33            |            45             |   40    |
+| Baichuan2-13B-Chat  |      64      |         18         |            21.33            |           37.5            |  37.09  |
+|  Baichuan2-7B-Chat  |    60.86     |         10         |             28              |           34.5            |  35.55  |
+|  Baichuan2-7B-Base  |    53.43     |        12.8        |            27.67            |           36.5            |  34.09  |
+|  Internlm-7B—Base   |    48.57     |        18.8        |            23.33            |           37.5            |  32.91  |
+| Baichuan2-13B-Base  |      54      |        12.4        |             23              |           34.5            |  32.55  |
+|  DevOpsPal-7B—Base  |    46.57     |        20.8        |             25              |            34             |  32.55  |
+|  Internlm-7B—Chat   |    58.86     |        8.8         |            22.33            |           28.5            |   32    |
+
+#### One Shot
+|    **ModelName**    |  LogParsing  | RootCauseAnalysis  | TimeSeriesAnomalyDetection  | TimeSeriesClassification  | **AVG** |
+|:-------------------:|:------------:|:------------------:|:---------------------------:|:-------------------------:|:-------:|
+| DevOpsPal-14B—Chat | 66.29 | 80.8 | 23.33 | 44.5 | 53.91 |
+| Qwen-14B-Base | 64.29 | 74.4 | 28 | 48.5 | 53.82 |
+| DevOpsPal-14B—Base | 60 | 74 | 25.33 | 43.5 | 50.73 |
+| Qwen-14B-Chat | 49.71 | 65.6 | 28.67 | 48 | 47.27 |
+| Qwen-7B-Base | 56 | 60.8 | 27.67 | 44 | 47.18 |
+| DevOpsPal-7B—Base | 52.86 | 44.4 | 28 | 44.5 | 42.64 |
+| Qwen-7B-Chat | 54.57 | 52 | 29.67 | 26.5 | 42.09 |
+| Baichuan2-13B-Base | 56 | 43.2 | 24.33 | 41 | 41.73 |
+| Baichuan2-13B-Chat | 57.43 | 44.4 | 25 | 25.5 | 39.82 |
+| Baichuan2-7B-Base | 48.29 | 40.4 | 27 | 42 | 39.55 |
+| Baichuan2-7B-Chat | 58.57 | 31.6 | 27 | 31.5 | 38.91 |
+| DevOpsPal-7B—Chat | 56.57 | 27.2 | 25.33 | 41.5 | 38.64 |
+| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 37.09 |
+| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 32.73 |
+
+
 ## ⏬ Data
 #### Download
 * Method 1: Download the zip file (you can also simply open the following link with the browser):
diff --git a/README_zh.md b/README_zh.md
@@ -26,6 +26,8 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
 ## 📜 目录
 
 - [🏆 排行榜](#-排行榜)
+  - [👀 DevOps](#-devops)
+  - [🔥 AIOps](#-aiops)
 - [⏬ 数据](#-数据)
   - [👀 说明](#-说明)
   - [🔥 AIOps样本示例](#-AIOps样本示例)
@@ -41,14 +43,14 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
 
 | **模型**                 | plan  | code  | build | test  | release | deploy | operate | monitor |  **平均分**  |
 |:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:---------:|
-| **DevOps-Model-14B-Chat** | 60.61 | 78.35 | 84.86 | 84.65 | 87.26 | 82.75 | 81.34 | 79.17 | **80.34** |
-| **DevOps-Model-14B-Base** | 54.55 | 77.82 | 83.49 | 85.96 | 86.32 | 81.96 | 85.82 | 82.41 | **80.26** |
+| **DevOpsPal-14B-Chat** | 60.61 | 78.35 | 84.86 | 84.65 | 87.26 | 82.75 | 81.34 | 79.17 | **80.34** |
+| **DevOpsPal-14B-Base** | 54.55 | 77.82 | 83.49 | 85.96 | 86.32 | 81.96 | 85.82 | 82.41 | **80.26** |
 | Qwen-14B-Chat          |  60.61 | 75.4 | 85.32 | 84.21 | 89.62 | 82.75 | 83.58 | 80.56 |   79.28   |
 | Qwen-14B-Base          |  57.58 | 73.81 | 84.4 | 85.53 | 86.32 | 81.18 | 82.09 | 80.09 |   77.92   |
 | Baichuan2-13B-Base     |  60.61 | 69.42 | 79.82 | 79.82 | 82.55 | 81.18 | 85.07 | 83.8 |   75.10   |
 | Baichuan2-13B-Chat     | 60.61 | 68.43 | 77.98 | 80.7 | 81.6 | 83.53 | 82.09 | 84.72 |   74.60   |
-| **DevOps-Model-7B-Chat**  | 54.55 | 69.11 | 83.94 | 82.02 | 76.89 | 80 | 79.85 | 77.78 | **74.00** |
-| **DevOps-Model-7B-Base**  | 54.55 | 68.96 | 82.11 | 78.95 | 80.66 | 76.47 | 79.85 | 78.7 | **73.55** |
+| **DevOpsPal-7B-Chat**  | 54.55 | 69.11 | 83.94 | 82.02 | 76.89 | 80 | 79.85 | 77.78 | **74.00** |
+| **DevOpsPal-7B-Base**  | 54.55 | 68.96 | 82.11 | 78.95 | 80.66 | 76.47 | 79.85 | 78.7 | **73.55** |
 | Qwen-7B-Base           | 53.03 | 68.13 | 78.9 | 75.44 | 80.19 | 80 | 83.58 | 80.09 |   73.13   |
 | Qwen-7B-Chat           | 57.58 | 66.01 | 80.28 | 79.82 | 76.89 | 77.65 | 80.6 | 79.17 |   71.96   |
 | Baichuan2-7B-Chat      |  54.55 | 63.66 | 77.98 | 76.32 | 71.7 | 73.33 | 75.37 | 79.63 |   68.17   |
@@ -61,21 +63,59 @@ DevOps-Eval是一个专门为DevOps领域大模型设计的综合评估数据集
 
 | **模型**                 | plan  | code  | build | test  | release | deploy | operate | monitor | **平均分**    |
 |:------------------------:|:-----:|:-----:|:-----:|:------:|:--------:|:------:|:-------:|:--------:|:---------:|
-| **DevOps-Model-14B-Chat** |63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 89.55 | 81.48 | **81.77** |
-| **DevOps-Model-14B-Base** |  62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 85.07 | 80.09 | **81.70** |
+| **DevOpsPal-14B-Chat** |63.64 | 79.49 | 81.65 | 85.96 | 86.79 | 86.67 | 89.55 | 81.48 | **81.77** |
+| **DevOpsPal-14B-Base** |  62.12 | 80.55 | 82.57 | 85.53 | 85.85 | 84.71 | 85.07 | 80.09 | **81.70** |
 | Qwen-14B-Chat |  65.15 | 76 | 82.57 | 85.53 | 84.91 | 84.31 | 85.82 | 81.48 | 79.55 |
 | Qwen-14B-Base |  66.67 | 76.15 | 84.4 | 85.53 | 86.32 | 80.39 | 86.57 | 80.56 | 79.51 |
 | Baichuan2-13B-Base | 63.64 | 71.39 | 80.73 | 82.46 | 81.13 | 84.31 | 91.79 | 85.19 | 77.09 |
 | Qwen-7B-Base | 75.76 | 72.52 | 78.9 | 81.14 | 83.96 | 81.18 | 85.07 | 81.94 | 77.02 |
 | Baichuan2-13B-Chat | 62.12 | 69.95 | 76.61 | 84.21 | 83.49 | 79.61 | 88.06 | 80.56 | 75.32 |
-| **DevOps-Model-7B-Chat** | 66.67 | 69.95 | 83.94 | 81.14 | 80.19 | 82.75 | 82.84 | 76.85 | **75.25** |
-| **DevOps-Model-7B-Base** |  69.7 | 69.49 | 82.11 | 81.14 | 82.55 | 82.35 | 80.6 | 79.17 | **75.17** |
+| **DevOpsPal-7B-Chat** | 66.67 | 69.95 | 83.94 | 81.14 | 80.19 | 82.75 | 82.84 | 76.85 | **75.25** |
+| **DevOpsPal-7B-Base** |  69.7 | 69.49 | 82.11 | 81.14 | 82.55 | 82.35 | 80.6 | 79.17 | **75.17** |
 | Qwen-7B-Chat |  65.15 | 66.54 | 82.57 | 81.58 | 81.6 | 81.18 | 80.6 | 81.02 | 73.62 |
 | Baichuan2-7B-Base | 60.61 | 67.22 | 76.61 | 75 | 77.83 | 78.43 | 80.6 | 79.63 | 72.11 |
 | Internlm-7B-Chat |  60.61 | 63.06 | 79.82 | 80.26 | 67.92 | 75.69 | 73.88 | 77.31 | 71.09 |
 | Baichuan2-7B-Chat |  60.61 | 64.95 | 81.19 | 75.88 | 71.23 | 75.69 | 78.36 | 79.17 | 70.49 |
 | Internlm-7B-Base |  62.12 | 65.25 | 77.52 | 80.7 | 74.06 | 78.82 | 79.85 | 75.46 | 69.17 |
 
+
+### AIOps
+#### Zero Shot
+|    **模型**    | 日志解析  | 根因分析 | 时序异常检测 | 时序分类 | **平均分** |
+|:-------------------:|:-----:|:----:|:------:|:----:|:-------:|
+|    Qwen-14B-Base    | 66.29 | 58.8 | 25.33  | 43.5 |  49.27  |
+| DevOpsPal-14B—Base  | 63.14 | 53.6 | 23.33  | 43.5 |  46.55  |
+| DevOpsPal-14B—Chat  |  60   |  56  |   24   |  43  |  46.18  |
+|    Qwen-14B-Chat    | 64.57 | 51.6 | 22.67  |  36  |   45    |
+|    Qwen-7B-Base     |  50   | 39.2 | 22.67  |  54  |  40.82  |
+|    Qwen-7B-Chat     | 57.43 | 38.8 | 22.33  | 39.5 |  40.36  |
+|  DevOpsPal-7B—Chat  | 56.57 | 30.4 | 25.33  |  45  |   40    |
+| Baichuan2-13B-Chat  |  64   |  18  | 21.33  | 37.5 |  37.09  |
+|  Baichuan2-7B-Chat  | 60.86 |  10  |   28   | 34.5 |  35.55  |
+|  Baichuan2-7B-Base  | 53.43 | 12.8 | 27.67  | 36.5 |  34.09  |
+|  Internlm-7B—Base   | 48.57 | 18.8 | 23.33  | 37.5 |  32.91  |
+| Baichuan2-13B-Base  |  54   | 12.4 |   23   | 34.5 |  32.55  |
+|  DevOpsPal-7B—Base  | 46.57 | 20.8 |   25   |  34  |  32.55  |
+|  Internlm-7B—Chat   | 58.86 | 8.8  | 22.33  | 28.5 |   32    |
+
+#### One Shot
+|    **模型**    |  日志解析  | 根因分析  | 时序异常检测  | 时序分类  | **平均分** |
+|:-------------------:|:------------:|:------------------:|:---------------------------:|:-------------------------:|:-------:|
+| DevOpsPal-14B—Chat | 66.29 | 80.8 | 23.33 | 44.5 | 53.91 |
+| Qwen-14B-Base | 64.29 | 74.4 | 28 | 48.5 | 53.82 |
+| DevOpsPal-14B—Base | 60 | 74 | 25.33 | 43.5 | 50.73 |
+| Qwen-14B-Chat | 49.71 | 65.6 | 28.67 | 48 | 47.27 |
+| Qwen-7B-Base | 56 | 60.8 | 27.67 | 44 | 47.18 |
+| DevOpsPal-7B—Base | 52.86 | 44.4 | 28 | 44.5 | 42.64 |
+| Qwen-7B-Chat | 54.57 | 52 | 29.67 | 26.5 | 42.09 |
+| Baichuan2-13B-Base | 56 | 43.2 | 24.33 | 41 | 41.73 |
+| Baichuan2-13B-Chat | 57.43 | 44.4 | 25 | 25.5 | 39.82 |
+| Baichuan2-7B-Base | 48.29 | 40.4 | 27 | 42 | 39.55 |
+| Baichuan2-7B-Chat | 58.57 | 31.6 | 27 | 31.5 | 38.91 |
+| DevOpsPal-7B—Chat | 56.57 | 27.2 | 25.33 | 41.5 | 38.64 |
+| Internlm-7B—Base | 48 | 33.2 | 29 | 35 | 37.09 |
+| Internlm-7B—Chat | 62.57 | 12.8 | 22.33 | 21 | 32.73 |
+
 ## ⏬ 数据
 #### 下载
 * 方法一：下载zip压缩文件（你也可以直接用浏览器打开下面的链接）：