@@ -75,7 +75,7 @@ engine คือ ระบบตัดคำไทย ปัจจุบัน
75
75
เช่น text=u'ผมรักคุณนะครับโอเคบ่พวกเราเป็นคนไทยรักภาษาไทยภาษาบ้านเกิด'
76
76
```
77
77
78
- การใช้งาน
78
+ ** การใช้งาน**
79
79
80
80
``` python
81
81
from pythainlp.tokenize import word_tokenize
@@ -201,6 +201,54 @@ grammar : คุณ Wittawat Jitkrittum (https://github.com/wittawatj/jtcc/blob/
201
201
' /คืน/ความสุข'
202
202
```
203
203
204
+ ### summarize
205
+
206
+ เป็นระบบสรุปเอกสารภาษาไทยแบบง่าย ๆ
207
+
208
+ summarize_text(text,n,engine='frequency')
209
+
210
+ text เป็นข้อความ
211
+ n คือ จำนวนประโยคสรุป
212
+ engine ที่รองรับ
213
+ - frequency
214
+ ** การใช้งาน**
215
+
216
+ ``` python
217
+ >> > from pythainlp.summarize import summarize_text
218
+ >> > summarize_text(text = " อาหาร หมายถึง ของแข็งหรือของเหลว ที่กินหรือดื่มเข้าสู่ร่างกายแล้ว จะทำให้เกิดพลังงานและความร้อนยเจริญเติบโต ซ่อมแซมส่วนที่สึกหรอ ควบคุมการเปลี่ยนแปลงต่างๆ ในร่างกาย ช่วยทำให้อวัยวะต่างๆ ทำงานได้อย่างปกติ อาหารจะต้องงกาย" ,n = 1 ,engine = ' frequency' )
219
+ [' อาหารจะต้องไม่มีพิษและไม่เกิดโทษต่อร่างกาย' ]
220
+ ```
221
+
222
+ ### word_vector
223
+
224
+ ``` python
225
+ from pythainlp.word_vector import thai2vec
226
+ ```
227
+
228
+ word_vector เป็นระบบ word vector ใน PyThaiNLP
229
+
230
+ ปัจจุบันนี้รองรับเฉพาะ thai2vec (https://github.com/cstorm125/thai2vec )
231
+
232
+ thai2vec พัฒนาโดยคุณ Charin Polpanumas
233
+
234
+ #### thai2vec
235
+
236
+ ความต้องการโมดูล
237
+
238
+ - gensim
239
+ - numpy
240
+
241
+ ##### API
242
+
243
+ - get_model() - รับข้อมูล model ในรูปแบบของ gensim
244
+ - most_similar_cosmul(positive,negative)
245
+ - doesnt_match(listdata)
246
+ - similarity(word1,word2) - หาค่าความคล้ายกันระหว่าง 2 คำ โดยทั้งคู่เป็น str
247
+ - sentence_vectorizer(ss,dim=300,use_mean=False)
248
+ - about() - รายละเอียด thai2vec
249
+
250
+
251
+
204
252
### keywords
205
253
206
254
ใช้หา keywords จากข้อความภาษาไทย
0 commit comments