Advanced Textmining: Trích xuất dữ liệu từ bảng cố định từ file PDF

Trong bài này, 1 phương pháp dùng R sẽ được đề cập tới để có thể trích xuất toàn bộ bảng trong file PDF (ví dụ là file PDF của phần mềm quản lý dữ liệu cảnh giác dược của Pháp) sang định dạng có thể dùng trực tiếp cho thống kê và phân tích. Thực ra vấn đề này vẫn chưa được giải quyết trọn vẹn nếu chỉ dùng mỗi R hay các phần mềm tương đương. Tác giả đã thử dùng rất nhiều gói lệnh package (ví dụ…) để tìm cách tiếp cận trực tiếp dữ liệu từ file PDF gốc. Tại sao lại kỳ công như vậy? Nội dung dưới đây sẽ nêu bật ý nghĩa của việc textmining trong môi trường PDF.

Context

Tại sao textmining trên nền tảng PDF cần phải được chú ý khai thác? PDF là định dạng khá phổ biến, ưu điểm thì không phải bàn cái (tài liệu điện tử, không thể thay đổi định dạng nội dung, font chữ được tích hợp, ứng dụng đa nền tảng-tương tác,…). Một điều đáng chú ý là đa số các bài báo quốc tế đều dùng định dạng này(-> Triển vọng text mining trong corpus: vấn đề sẽ nếu rõ trong các bài và ý tưởng tiếp theo).

Các câu lệnh được dùng

Example

AER Number Patient Suspect products Concomitant products Reactions
201308_00023559 Sex : F Bactrim Forte NIFLURIL (UNK Nécrolyse épidermique toxique(1004
NA Age :6 Y NA INGREDIENTS) 10044223))
NA NA NA NA Outcome : recovered/
NA NA NA NA SER :Serious
NA NA NA NA Change in dose : Not applic
201312_00025546 Sex : F Zelboraf Non rapporté Nécrolyse épidermique toxique(1004
NA Age :75 Y NA NA 10044223))
NA NA NA NA Outcome : recovered/
NA NA NA NA SER :Serious
NA NA NA NA Change in dose : stopped
201403_00027065 Sex : M Vectibix Non rapporté Syndrome de Stevens-Johnson(100420
NA NA NA NA 042033))
NA NA NA NA Outcome : Unknown
NA NA NA NA SER :Serious
NA NA NA NA Change in dose : Unknown
NA NA NA NA Diabète(10012601))
NA NA NA NA Outcome : Unknown
NA NA NA NA SER :Serious
NA NA NA NA Change in dose : Unknown
NA NA NA NA Psoriasis(10037153))
NA NA NA NA Outcome : Unknown
NA NA NA NA SER :Not Serious
NA NA NA NA Change in dose : Unknown
201404_00027143 Sex : M Zelboraf DAFALGAN Nécrolyse épidermique toxique(1004
NA Prot # : NA PRIMPERAN 10044223))
NA NIP-FR-2146 NA SPASFON (FRANCE) Outcome : recovered/
NA NA NA TOPALGIC (FRANCE) SER :Serious
NA NA NA NA Change in dose : stopped
NA NA NA NA Fatigue(10016256))
NA NA NA NA Outcome : not recove
NA NA NA NA SER :Serious
NA NA NA NA Change in dose : stopped
NA NA NA NA Nausée(10028813))
NA NA NA NA Outcome : recovering
NA NA NA NA SER :Not Serious
NA NA NA NA Change in dose : stopped
201404_00027493 Sex : F Lamictal Non rapporté Nécrolyse épidermique toxique(1004
NA NA NA NA 10044223))
NA NA NA NA Outcome : recovered/
NA NA NA NA Change in dose : stopped
NA NA NA NA Céphalée(10019211))
NA NA NA NA Outcome : Unknown
NA NA NA NA Change in dose : stopped

How?

Đặc điểm file PDF là trang đầu tiên là thông tin bên lề không liên quan tới nội dung. Đã dùng Acrobat Pro X chuyển đổi sang excel nhưng kết quả không như mong muốn. Cuối cùng tình cờ phát hiện trang web chuyển đổi trực tuyến PDF to excel tuyệt vời và FREE giúp chuyển nhanh trong và gần như (98%) là dữ liệu được đặt đúng chỗ của nó (mặc du NA xuất hiện khá nhiều - nhưng có thể xử lý bằng trực tiếp excel bằng các lệnh trên R)

Code Sharing :

readxl::read_excel("C:/Users/utilisateur/OneDrive - univ-tlse3.fr/Documents-UPS/Stat/SCAR20102015-PDS/SJS TEN1415Fr 2.xlsx",
                        skip = 6, # bỏ qua 6 dòng đầu tiên, dữ liệu từ file chuyển sẽ biên dịch từ dòng thứ 7 trở đi - cái mà ta muốn

                        sheet = 2) # sheet 1 bỏ qua vì toàn thông tin hành chính, có thể dùng lệnh lặp để kết nốt tất cả các sheet thành 1 file dat duy nhất

…. to be continued!

Status (On projet Dec 2017)


Creative Commons License

©Canhgiacduoc(2017)

Thiết kế và quản lý biểu mẫu điện tử (form PDF fillable)

Trong thực tế công việc, việc báo cáo thông qua 1 biểu mẫu PDF giúp tiết kiệm thời gian trình bày, gửi và xử lý cũng như quản lý dữ liệu sau này. Việc báo cáo ADR thông qua biểu mẫu in ra từ giấy có nhiều vấn đề (…) và thực thế trong cuộc cách mạng 3.0 thì vận dụng máy tính và internet phải được áp dụng triệt để để có thể bắt kịp với thế giới Tại Pháp biểu mẫu báo cáo ADR đã chuyển từ file word sang PDF giúp cho việc in ấn, lưu trữ trở nên nhẹ nhàng và chuẩn mực hơn….

Tại sao nên dùng form PDF - Ưu điểm và tính năng

  • Trên nền tảng PDF các font chữ, kiểu chữ và giá trị được điền 1 cách có kiểm soát -> nâng cao chất lượng dữ liệu và giúp việc báo cáo tốn ít thời gian và lưu trữ báo cáo trở nên dễ dàng và tiện lợi.

  • Form thông thường có thể chuyển trực tiếp từ word sang PDF form thông qua Acrobat PDF Pro
  • Chuyển PDF từ form thường có thể thêm Nút Submit đê có thể gửi file/nội dung tới 1 địa chỉ email xác định (hoặc nâng cao hơn tới 1 server xác định - tính năng này hiện chưa tìm hiểu nhưng possible)
  • Tất cả Form biểu mẫu nhận được có thể trích xuất ra được file excel (.csv) giúp tổng hợp được các trường thông tin đã điền chỉ bằng 1 cú click. Tính năng này khá là ưu việt giúp cho phần quản lý dữ liệu thu nhận dễ dàng hơn, bớt được sai số của việc hậu quản lý và tiến tới automatic kiểm soát toàn bộ thông tin trong file PDF báo cáo và thông tin ADR, tiến tới trả lời câu hỏi thông tin thuốc, phản hồi tự động tức thì,….!!!!
  • Thiết kế biểu mẫu hoàn toàn có thể thực hiện qua trên nền tảng Latex (dĩ nhiên có thể dùng qua RMardown) thông qua gói lệnh
    1
    
    hyperref
  • Nut Clear, Print, Submit được đặt trực tiếp trên file giúp báo cáo điền và gửi 1 cách nhanh hơn so với điền trên word (với cùng nội dung tương tự) và vẫn đảm bảo thiết kế và toàn vẹn của form mẫu, thậm chí có thể chèn được chữ ký điện tử của chính người gửi, mã số code dành cho người gửi thường xuyên (kiểu kiểm soát giống như khách hàng thân thiết)
  • Ngược trở lại từ file data có thể điền ngược trở lại vào form một cách tự động. Điều này nếu dữ liệu trùng lặp ko được kiểm soát chặt sẽ có thể dẫn tới tình trạng báo cáo sai, ẩu, thậm chí _bom thư báo cáo _. Để kiểm soát tốt hơn khi thói quen báo cáo trực tuyến tăng lên trong tương lai, việc thiết kế lại hệ thống là cần thiết nếu như muốn vận dụng các thành tựu của khoa học công nghệ trong thực hành công việc liên quan.
  • Hiện phiên bản xuất ra excel chưa làm việc tốt với tiếng việt có dấu (Acrobat PDF Pro X). Tuy nhiên tác giả đã có tìm hiểu về cách cách khác nhau để đưa ra được thông tin tiếng việt được điền trong form báo cáo thông qua XML. Thao tác cũng không quá phức tạp và tỉ lệ thành công đối với tiếng việt là 100% (tested) khi xuất các trường thông tin từ form điền với output là excel.
  • So sánh với báo cáo online thì cách báo cáo này giúp Dược sỹ có thể ghi nhận phản ứng theo từng bệnh nhân và update thông tin trong báo cáo chỉ cần trên 1 file duy nhất với thời gian không bị hạn chế (khí mới điền được 1 nửa báo cáo và thông tin vẫn được lưu lại cho tới khi điền đầy đủ và submit)
  • Việc điền báo cáo có thể trên smartphone (tested tính năng điền form với Acrobat Reader trên điện thoại, tính năng Submit trực tiếp hiện chưa hỗ trợ tới thời điểm này). Do đó, báo cáo có thể gửi email bằng smartphone và có thể đính kèm nhiều thông tin hữu ích khác (ảnh chụp mẫu thuốc nghi ngờ, bảng Kết quả xét nghiệm….) giúp cho tín hiệu cảnh giác dược thu được càng chính xác hơn.

Ví dụ

Conclusion

Vậy, việc thiết kế form và cải tiến hình thức và quy trình theo hướng này tỏ ra có nhiều ưu điểm và rất có tiềm năng áp dụng trong thực tế ở Việt Nam (Pháp hiện đang áp dụng kiểu báo cáo này).

Status (On projet Dec 2017)


Creative Commons License

©Canhgiacduoc(2017)

Nguy cơ thuốc gây loãng xương

Tổng quan hệ thống các nghiên cứu về nguy cơ thuốc gây loãng xương - Mối quan tâm của toàn thế giới [see @fenner2012a, pp. 33-35; @veyrac_2014_etude]

Dịch tễ học liên quan tới các thuốc gây loãng xương

Loãng xương (osteoprosis) là chỉ tình trạng bệnh lý mà mật độ xương BMD giảm dưới 2,5 lần mức giới hạn thông thường [@Table định nghĩa WHO về loãng xương và giảm mật độ xương- tiêu chí phân loại] Nguy cơ loãng xương và gãy xương và hệ quả của nó đối với bệnh nhân và kinh tế/chi phí điều trị.

Các xương hay bị tổn thương (Hip Vertebral Forearm)

Có nhiều nguyên nhân gây loãng xương thứ phát (secondary osteoporosis) tuy nhiên chỉ phạm vi bài này chỉ chủ yếu xoay quanh các thuốc hay gặp trong thực hành lâm sàng có thể gây loãng xương.

Glucocorticoid

Thuốc được dùng rộng rãi nhất trong lâm sàng và là nguyên nhân hay gặp nhất đối với loãng xương.

Cơ chế gây loãng xương của GC:

__Hình 1: __

Nguy cơ phụ thuộc liều và thời gian

Loãng xương gặp phải khi dùng GC là phụ thuộc liều và thời gian sử dụng [@vanstaa_2002_epidemiology]

Giới thiệu về công cụ Text-Concordencing trong đăng báo quốc tế-ví dụ với phần mềm mã nguồn mở và free AntConc

Text concordencing là 1 công cụ trợ giúp nhà nghiên cứu trong việc phát triển ngôn ngữ chuyên ngành, cách dùng chính xác và giúp tăng hiệu quả đăng báo quốc tế. Đây là công cụ được nhắc tới trong cuốn sách nổi tiếng trong lĩnh vực viết bài báo khoa học :

Writing Scientific Research Articles: Strategy and Steps, 2nd Edition. Author: Margaret Cargill, Patrick O’Connor. Link.

Bài viết này mô tả ngắn gọn các sử dụng phân tích concordance và collocation đối với Corpus (corpus khó tìm được nghĩa tương đương trong tiếng việt, nôm na là chỉ mục đích chỉ phần nội dung ngữ nghĩa của 1 văn bản/hệ thống văn bản)

Thực tế có rất nhiều phần mềm miễn phí và trả phí được phát triển nhưng đây là phần mềm đầu tiên mà tôi tiếp cận 1 cách có hệ thống để ứng dụng để viết ra 1 bài báo cụ thể trong 1 chủ đề/lĩnh vực cụ thể. Việc vận dụng 1 cách sáng tạo và kết hợp với công cụ thống kê R giúp ích cho việc thực hiện các vấn đề về datamining và text mining hoàn thiện hơn. Author: KevinNGUYEN

Tải và cài đặt

Phần mền nhỏ gọn và automatic chạy thôi. Có nhiều phiên bản cho các hệ điều hành Win, Mac Linux. Trong bài này tôi giới thiệu về phiên bản AntConc 3.4.4 chạy trên Win (tác giả Laurence Anthony)1 Link

Hướng dẫn phân tích và hiển thị đối với các thuật ngữ được nêu trong văn bản nhất định

  • Tác giả đã có 1 searie video trên Youtub hướng dẫn cụ thể về cách sử dụng chi tiết phần mềm cũng như file mô tả rất đầy đủ về phần mềm này. bạn nào muốn tìm hiểu kỹ thêm xin tham khảo trực tiếp:
  • Chú ý: file đầu vào phải là .txt
  • Có thể dùng công cụ chuyển đổi file PDF thành text thông qua các cách như sau:
    • Chọn text trực tiếp trên file và lưu thủ công trong 1 file mới .txt trưc tiếp nội dung phần chữ của bài báo/nội dung cần để phân tích
    • Dùng công cụ phần mềm chuyển đôi file PDF thành Text: Adobe Acrobat Pro,…
    • Dùng tiện ích online (tiện nhất nhưng chưa có đánh giá về tính bảo mật và phụ thuộc chính sách của website cung cấp dịch vụ này) : trong bài này tôi dùng pdftotext vì nó có tính năng chuyển đổi cùng lúc 20 file và tải về trong 1 lần duy nhất, các nội dung không bị “lệch pha”” (tức là bài báo có 2 cột thì biên dịch sang text chưa thấy bị lỗi biên dịch nhầm sang ngang). Tiện ích này trích xuất text trong file nên bảng biểu sẽ biến mất, chỉ có đơn thuần chữ trong văn bản.

Giới thiệu về concordance:

  • Các kiểu tìm kiếm :đơn giản-chữ hoa+thường - cú pháp phức tạp (nâng cao)
  • Sort : Giúp tăng nhận biết vấn đề thông qua hiện thị màu khá phù hợp với mục đích là chọn từ vựng-bối cảnh hay collocation.

example

Sao lưu các lần tìm kiếm- kinh nghiệm ứng dụng trong trường hợp cụ thể với 1 chủ đề

  • Phần mềm này cũng hỗ trợ sao lưu các kết quả tìm kiếm: Việc này giúp phát triển ngô ngữ/thuật ngữ chuyên ngành và giúp phát triển được rất nhiều bối cảnh sử dụng
  • Hệ thống Phím tắt trong phần mềm khá phong phú : ví dụ: Ctrl+S lưu kết quả trực tiếp thành 1 file txt ; ALT+A : chọn tất cả văn bản trong concordance
  • Sử dụng phân tích cả 1 thư mục thông qua Ctrl+D (thực hành rất nhiều)

.. còn rất nhiều các bạn có thể tự khám phá và ứng dụng nhé.


Creative Commons License

  1. Anthony, L. (2014). AntConc (Version 3.4.4) [Computer Software]. Tokyo, Japan: Waseda University. Available from http://www.laurenceanthony.net/ 

Giới thiệu chung

Đây là bài hát truyền tới cộng đồng về các lợi ích và nhận thức về việc cần phải thông báo tới bác sỹ/dược sỹ khi dùng thuốc gặp phải 1 tác dụng có hại/không mong muốn.

Đây là nội dung mà WHO UMC muốn truyền đạt: Take&Tell.

Nội dung bài hát - Lyrics

Link: www.takeandtell.org.


Creative Commons License