自然言語処理特論


20250926_語のベクトル

語のベクトル化

法1単純に数を数える

周辺の語の数を数えて、ベクトル化

法2周辺の語を予測する(GOOD)

用NN训练出来的

word2vec

文のベクトル化

ベクトル空間の可視化

20251003

GenAI-ML_2025里面用咗text-generation,今次要用fill-mask

Seq2Seqモデル

文字列→モデル→文字列

one-hotベクトル似乎相当于token_id

一般のNNは入力と出力の長さが固定されている

对于部分任务够用,于是需要

リカレントニューラルネットワーク(RNN)

token接龙

encoder-decoderモデル

入力列 → token→ 出力列

通过rnn实现的encoder-decoder架构

RNN欠点:文頭付近の情報が失われる問題

随着输入列的扩张,前方的权重越来越低

キーワードで辞書引き

获得不认识的单词的意思的方法,也是实现attention机构的方法

クロスアテンション

出力側から入力列にアテンション

セルフアテンション

入力側から自分たち自身にアテンション

マルチヘッドのアテンション

L個の辞書を併用(多种“类似”之间有独立性问题,还在发展中)

Transformer

20251010
大規模言語モデルの基礎

BERT

用于取得「很厉害的 」文全体のベクトル,因此只包含encoder

取得的向量是(浓缩)过的,因此bert擅长穴埋め

T5

完整的transformer实现,包含完整的encode、decode流程

输入需要包含task陈述

意义不明

GPT

似乎也是一个向量生成器,但是只能生成一个全文向量

テキスト生成制御

top k: 在前k个概率最大的结果中选取

top p: 在累计概率到达p时的结果中选取

report: 什么都可以改,从多样性和正确性方面考察一下

20251017
大規模言語モデルの機械学習

20251024
プロンプト工学(上下文工程)

文脈内学習

プロンプトに入出力例を追加する方法

x-shot

対話履歴の利用

输出评价

コサイン類似度とBLEUがよく使用される

多値ラベル分類

マクロ平均

各个label的权重是一样的,所以容易受极端值影响

マイクロ平均

通常の多値ラベル分類では、これら3つの値は等しくなる

カッパ係数(𝜅)

评价不同模型的一致性

20251031
情報検索RAG

最終課題の時もデータをjsonlの形にしたほうがいい