认识Spire.Doc的样式
1、Section是按分节符计算的。
2、section.Paragraphs是每节的段落。所有的内容都是段落。
3、注意分析“段落样式”相关的属性。可参考【教程】Spire.Doc系列教程(8):C# 根据 Word 的标题样式获取文字,但是要注意依据实际情况判断。本实验中发现ParagraphStyle paraStyles = paragraph.GetStyle(); string res= paraStyles.Name
与paragraph.StyleName
结果有差别,考虑到本实验文本具体情况,选用了paraStyles.Name
。
提取word内容的思路
注意,一般都是要分析word文档组成,难有通用的提取方式。本实验是通过样式+字符串匹配
的方式进行提取word内容。
public void testReadWord2()
{
string tempPath = @"E:\……\word\test1.docx";
//创建Document对象
Document doc = new Document();
//加载Word文档
doc.LoadFromFile(tempPath);
//遍历章节
foreach (Section section in doc.Sections)
{
//遍历段落
Console.WriteLine("段落数:" + section.Paragraphs.Count);
for (int i = 0; i < section.Paragraphs.Count; i++)
{
Paragraph paragraph = section.Paragraphs[i];
ParagraphStyle paraStyles = paragraph.GetStyle();
Console.WriteLine("段落内容:" + paragraph.Text + "===段落样式:paraStyles.Name:" + paraStyles.Name+ "===paragraph.StyleName:" + paragraph.StyleName);
}
}
}
相关链接
Aspose.Words利用word样式写入标题及正文(.NET)
没有找到较好的Aspose.Words读取word的教程。