Site updated: 2024-03-24 15:37:16

lihaibineric · Mar 24, 2024 · e2b1625 · e2b1625
1 parent ddcd568
commit e2b1625
Show file tree

Hide file tree

Showing 27 changed files with 3,694 additions and 216 deletions.
diff --git a/2024/02/04/dl_rec_al/index.html b/2024/02/04/dl_rec_al/index.html
@@ -1196,9 +1196,9 @@ <h2 id="深度学习模型rank">深度学习模型(Rank)</h2>
                   <article class="post-prev col-6">
 
 
-                      <a href="/2024/03/05/dl_llm_basic/" title="【深度学习】DeepL基础知识">
+                      <a href="/2024/03/05/dl_llm_basic/" title="【深度学习】DeepL｜LLM基础知识">
                         <i class="iconfont icon-arrowleft"></i>
-                        <span class="hidden-mobile">【深度学习】DeepL基础知识</span>
+                        <span class="hidden-mobile">【深度学习】DeepL｜LLM基础知识</span>
                         <span class="visible-mobile">Previous</span>
                       </a>
 

diff --git a/2024/03/05/dl_llm_basic/index.html b/2024/03/05/dl_llm_basic/index.html
@@ -18,7 +18,7 @@
 
     <meta name="description" content="深度学习&amp;LLM基础 1.Attention 1.1 讲讲对Attention的理解 Attention机制是一种在处理时序相关问题的时候常用的技术，主要用于处理序列数据。 核心思想是在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分，它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。 在序列建模任务中，比如机器翻">
 <meta property="og:type" content="article">
-<meta property="og:title" content="【深度学习】DeepL基础知识">
+<meta property="og:title" content="【深度学习】DeepL｜LLM基础知识">
 <meta property="og:url" content="https://lihaibineric.github.io/2024/03/05/dl_llm_basic/index.html">
 <meta property="og:site_name" content="LIHAIBIN&#39;S BLOG">
 <meta property="og:description" content="深度学习&amp;LLM基础 1.Attention 1.1 讲讲对Attention的理解 Attention机制是一种在处理时序相关问题的时候常用的技术，主要用于处理序列数据。 核心思想是在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分，它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。 在序列建模任务中，比如机器翻">
@@ -29,15 +29,15 @@
 <meta property="og:image" content="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240314113451952.png">
 <meta property="og:image" content="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240314113638944.png">
 <meta property="article:published_time" content="2024-03-05T11:56:50.000Z">
-<meta property="article:modified_time" content="2024-03-14T03:48:51.936Z">
+<meta property="article:modified_time" content="2024-03-24T06:36:25.802Z">
 <meta property="article:author" content="Haibin Li">
 <meta property="article:tag" content="深度学习">
 <meta name="twitter:card" content="summary_large_image">
 <meta name="twitter:image" content="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240305210627099.png">
 
 
 
-  <title>【深度学习】DeepL基础知识 - LIHAIBIN&#39;S BLOG</title>
+  <title>【深度学习】DeepL｜LLM基础知识 - LIHAIBIN&#39;S BLOG</title>
 
   <link  rel="stylesheet" href="https://lib.baomitu.com/twitter-bootstrap/4.6.1/css/bootstrap.min.css" />
 
@@ -191,7 +191,7 @@
       <div class="banner-text text-center fade-in-up">
         <div class="h2">
 
-            <span id="subtitle" data-typed-text="【深度学习】DeepL基础知识"></span>
+            <span id="subtitle" data-typed-text="【深度学习】DeepL｜LLM基础知识"></span>
 
         </div>
 
@@ -262,12 +262,12 @@
       <div class="container nopadding-x-md" id="board-ctn">
         <div id="board">
           <article class="post-content mx-auto">
-            <h1 id="seo-header">【深度学习】DeepL基础知识</h1>
+            <h1 id="seo-header">【深度学习】DeepL｜LLM基础知识</h1>
 
               <p class="note note-info">
 
 
-                    Last updated on March 14, 2024 am
+                    Last updated on March 24, 2024 pm
 
 
               </p>
@@ -1571,7 +1571,7 @@ <h3 id="进制转换">（4）进制转换</h3>
 
   <div class="license-box my-3">
     <div class="license-title">
-      <div>【深度学习】DeepL基础知识</div>
+      <div>【深度学习】DeepL｜LLM基础知识</div>
       <div>https://lihaibineric.github.io/2024/03/05/dl_llm_basic/</div>
     </div>
     <div class="license-meta">
@@ -1590,7 +1590,7 @@ <h3 id="进制转换">（4）进制转换</h3>
 
         <div class="license-meta-item license-meta-date">
           <div>Updated on</div>
-          <div>March 14, 2024</div>
+          <div>March 24, 2024</div>
         </div>
 
 
@@ -1621,9 +1621,9 @@ <h3 id="进制转换">（4）进制转换</h3>
                   <article class="post-prev col-6">
 
 
-                      <a href="/2024/03/08/dl_llm_model/" title="【深度学习】大语言模型简介">
+                      <a href="/2024/03/08/dl_llm_model/" title="【大语言模型】基础模型概念">
                         <i class="iconfont icon-arrowleft"></i>
-                        <span class="hidden-mobile">【深度学习】大语言模型简介</span>
+                        <span class="hidden-mobile">【大语言模型】基础模型概念</span>
                         <span class="visible-mobile">Previous</span>
                       </a>
 

diff --git a/2024/03/08/dl_llm_model/index.html b/2024/03/08/dl_llm_model/index.html
@@ -18,7 +18,7 @@
 
     <meta name="description" content="大语言模型简介 1.llm概念 1.1 主流的开源模型体系 目前主流的开源LLM（语言模型）模型体系包括以下几个：  GPT（Generative Pre-trained Transformer）系列：由OpenAI发布的一系列基于Transformer架构的语言模型，包括GPT、GPT-2、GPT-3等。GPT模型通过在大规模无标签文本上进行预训练，然后在特定任务上进行微调，具有很强的生成能力">
 <meta property="og:type" content="article">
-<meta property="og:title" content="【深度学习】大语言模型简介">
+<meta property="og:title" content="【大语言模型】基础模型概念">
 <meta property="og:url" content="https://lihaibineric.github.io/2024/03/08/dl_llm_model/index.html">
 <meta property="og:site_name" content="LIHAIBIN&#39;S BLOG">
 <meta property="og:description" content="大语言模型简介 1.llm概念 1.1 主流的开源模型体系 目前主流的开源LLM（语言模型）模型体系包括以下几个：  GPT（Generative Pre-trained Transformer）系列：由OpenAI发布的一系列基于Transformer架构的语言模型，包括GPT、GPT-2、GPT-3等。GPT模型通过在大规模无标签文本上进行预训练，然后在特定任务上进行微调，具有很强的生成能力">
@@ -27,7 +27,7 @@
 <meta property="og:image" content="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240305201045943.png">
 <meta property="og:image" content="https://gitee.com/lihaibineric/picgo/raw/master/pic/image-20240305201148810.png">
 <meta property="article:published_time" content="2024-03-08T03:46:15.000Z">
-<meta property="article:modified_time" content="2024-03-14T04:00:43.370Z">
+<meta property="article:modified_time" content="2024-03-24T07:04:15.300Z">
 <meta property="article:author" content="Haibin Li">
 <meta property="article:tag" content="深度学习">
 <meta property="article:tag" content="大语言模型">
@@ -36,7 +36,7 @@
 
 
 
-  <title>【深度学习】大语言模型简介 - LIHAIBIN&#39;S BLOG</title>
+  <title>【大语言模型】基础模型概念 - LIHAIBIN&#39;S BLOG</title>
 
   <link  rel="stylesheet" href="https://lib.baomitu.com/twitter-bootstrap/4.6.1/css/bootstrap.min.css" />
 
@@ -190,7 +190,7 @@
       <div class="banner-text text-center fade-in-up">
         <div class="h2">
 
-            <span id="subtitle" data-typed-text="【深度学习】大语言模型简介"></span>
+            <span id="subtitle" data-typed-text="【大语言模型】基础模型概念"></span>
 
         </div>
 
@@ -261,12 +261,12 @@
       <div class="container nopadding-x-md" id="board-ctn">
         <div id="board">
           <article class="post-content mx-auto">
-            <h1 id="seo-header">【深度学习】大语言模型简介</h1>
+            <h1 id="seo-header">【大语言模型】基础模型概念</h1>
 
               <p class="note note-info">
 
 
-                    Last updated on March 14, 2024 pm
+                    Last updated on March 24, 2024 pm
 
 
               </p>
@@ -760,8 +760,8 @@ <h2 id="bert用字粒度和词粒度的优缺点有哪些">3.1
 <h2 id="bert的encoder与decoder掩码有什么区别"><strong>3.2
 BERT的Encoder与Decoder掩码有什么区别？</strong></h2>
 <p>Encoder主要使用自注意力掩码和填充掩码，而Decoder除了自注意力掩码外，还需要使用编码器-解码器注意力掩码来避免未来位置信息的泄露。这些掩码操作保证了Transformer在处理自然语言序列时能够准确、有效地进行计算，从而获得更好的表现。</p>
-<h2
-id="bert用的是transformer里面的encoder还是decoder">3.3BERT用的是transformer里面的encoder还是decoder？</h2>
+<h2 id="bert用的是transformer里面的encoder还是decoder">3.3
+BERT用的是transformer里面的encoder还是decoder？</h2>
 <p>BERT使用的是Transformer中的<strong>Encoder部分</strong>，而不是Decoder部分。</p>
 <p>Transformer模型由Encoder和Decoder两个部分组成。Encoder用于将输入序列编码为一系列高级表示，而Decoder用于基于这些表示生成输出序列。</p>
 <p>在BERT模型中，只使用了Transformer的Encoder部分，并且对其进行了一些修改和自定义的预训练任务，而没有使用Transformer的Decoder部分。</p>
@@ -851,7 +851,7 @@ <h2 id="在bert应用中如何解决长文本问题"><strong>3.8
 
   <div class="license-box my-3">
     <div class="license-title">
-      <div>【深度学习】大语言模型简介</div>
+      <div>【大语言模型】基础模型概念</div>
       <div>https://lihaibineric.github.io/2024/03/08/dl_llm_model/</div>
     </div>
     <div class="license-meta">
@@ -870,7 +870,7 @@ <h2 id="在bert应用中如何解决长文本问题"><strong>3.8
 
         <div class="license-meta-item license-meta-date">
           <div>Updated on</div>
-          <div>March 14, 2024</div>
+          <div>March 24, 2024</div>
         </div>
 
 
@@ -901,12 +901,18 @@ <h2 id="在bert应用中如何解决长文本问题"><strong>3.8
                   <article class="post-prev col-6">
 
 
+                      <a href="/2024/03/24/dl-llm-ft/" title="【大语言模型】有监督微调">
+                        <i class="iconfont icon-arrowleft"></i>
+                        <span class="hidden-mobile">【大语言模型】有监督微调</span>
+                        <span class="visible-mobile">Previous</span>
+                      </a>
+
                   </article>
                   <article class="post-next col-6">
 
 
-                      <a href="/2024/03/05/dl_llm_basic/" title="【深度学习】DeepL基础知识">
-                        <span class="hidden-mobile">【深度学习】DeepL基础知识</span>
+                      <a href="/2024/03/05/dl_llm_basic/" title="【深度学习】DeepL｜LLM基础知识">
+                        <span class="hidden-mobile">【深度学习】DeepL｜LLM基础知识</span>
                         <span class="visible-mobile">Next</span>
                         <i class="iconfont icon-arrowright"></i>
                       </a>